Maşın tərcüməsinin nəzəri problemləri
5
2.
Korpus dilçiliyi (buraya mətnlərin elektron korpusları-
nın yaradılması və istifadəsi daxildir);
3.
Elektron lüğətlərinin hazırlanması (tezaurus, avtomatik
tərcümə lüğətləri, ensiklopedik, vikipedia, orfoqrafik, izahlı, ter-
minoloji, sahə lüğətləri, səhvlərin avtomatik aşkarı üçün spelling
lüğətləri və s.);
4.
Mətnlərin avtomatik tərcüməsi sistemləri (məs.: Dilmanc,
Google Translate və s.);
5.
Mətnlərdən faktların məlumatların, informasiyaların
(ing. fact extaction, text-mining) çıxarılması (seçilməsi);
6.
Avtoreferatlaşdırma funksiyasının (ing. automatic text
summarization) Microsoft Word-ə daxil edilməsi;
7.
Biliklər sisteminin – ekspert sistemlərinin yaradılması;
8.
Sual-cavab (dialoq) sistemlərinin yaradılması;
9.
Simvolların optik tanınması (ing. OCR məs.: FineReader
proqramı).
10.
Nitqin avtomatik tanınması;
11.
Nitqin avtomatik sintezi;
1
12.
Məlumat axtarış sistemlərinin hazırlanması.
Qısa şəkildə yuxarıda sadalanan problemlərin şərhini verək.
Təbii dilin emalı süni intellekt və riyazi dilçiliyin bir qolu olub,
dilin kompüter vasitəsilə analiz və sintezini öyrənir. Bir sözlə,
nəzəri cəhətcə dilin emalı prosesində kompüter üçün interfeys
dili (insanla-kompüterin qarşılıqlı əlaqəsi) yaradılmışdır ki, bu o
qədər də asan məsələ deyildir. Təbii dilin dərki (anlamı) aləm
haqqında zəngin bilik tələb edir ki, məhz süni intellektin də əsas
məsələlərindən biri “anlamı” kompüterə tanıtmaqdır, məsələn,
Azərbaycan dilindəki mətnin anlamı (dərki) söz sırasından,
omonimlərdən, sinonimlərdən, durğu işarələri və vurğudan asılı-
dır. Bu baxımdan kompüterin də mətnlərin anlamı üçün sa-
dalanan meyarların formal modelləri hazırlanmalıdır.
1
Ru.vikipedia.org
Məhəbbət Mirzəliyeva, Kamilə Vəliyeva
6
§1. Korpus dilçiliyi
Korpus dilçiliyi (ing. text corpus) KD mətnlərin korpus və
istifadəsinin yaradılmasını tədqiq edən tətbiqi linqvistikanın bir
bölməsidir. Ümumiyyətlə, bu termin 1960-cı ildən praktikada
korpusların yaranması ilə meydana gəlmişdir. Linqvistik korpus
dedikdə müəyyən prinsiplərə, müəyyən standartlara uyğun
mətnlərin toplusu başa düşülür. Korpusları yaratmaqda məqsəd
müxtəlif səpkili linqvistik məsələlərin, məsələn, mətnlərin qrafik
və qrammatik təhlilində istifadə edilməsidir.
Korpus dilçiliyi – korpusların yaranması və istifadəsini
tədqiq edən kompüter dilçiliyinin bir istiqamətidir. İlk kompüter
korpusu 1960-cı ildə Braun Universitetində yaradılan (BR – ing.
Brown Corpus) Braun korpusudur ki, tərkibi bir milyon sözişlət-
mədən ibarət olmuş və digər dillərin korpuslarının hazırlanması-
na təkan vermişdir. Belə ki, 1960-cı ildə bu korpusun modelinə
əsasən Zasorina rus dilinin tezlik lüğətini (bir milyon sözdən
ibarət) tərtib etmişdir.
1
Analoji model üzrə 1980-ci ildə İsveçin
Upsali Universitetində rus dilinin korpusu yaradılmışdır. Tərkibi
eyniölçülü parçalardan ibarət olan mətnlərin bu korpusu xüsusi
tətbiqi məsələlərin həllinə xidmət üçün qurulmuşdur.
Kompüter texnologiyasının sürətli inkişafı böyük həcmli
milli korpusların hazırlanmasına təkan verdi. Belə səpkili kor-
puslardan biri İngiltərənin Birminghem Universitetində yaradı-
lan B ritaniyanın Milli Korpusu (British National Corpus) keç-
miş SSRİ-də isə A.P.Yerşovun təşəbbüsü ilə hazırlanan rus dili-
nin maşın fondunu nümunə göstərmək olar. Hal-hazırda rus dili-
nin milli korpusu 300 milyon sözişlətmədən ibarətdir.
2
Linqvistik korpus mətnlərin elektron formada külliyyatıdır
ki, burada müəyyən axtarış sisteminin köməyi ilə sözlərin, söz
birləşmələrinin qrammatik formalarını və mənasını tapmaq
1
Штиндлова Й. Применение методов механизации и автоматизации в лексико-
логической работе за рубежом. Автоматизации в лингвистике. М., - Л., 1966
2
Ru.vikipedia.org
Maşın tərcüməsinin nəzəri problemləri
7
mümkündür. Məqsəddən asılı olaraq dünyada müxtəlif tipli kor-
puslar mövcuddur. Misal üçün, bir müəllifin korpusu, İncilin
korpusu, rus dilinin korpusu və s.
Milli korpus isə müxtəlif janrları, üslubları, regional və so-
sial vəziyyəti özündə əks etdirən mətnlərin külliyyatıdır. Bu kor-
pusun yaradılmasında məqsəd dilin leksikasını, qrammatikasını
tədqiq etmək, müxtəlif səpkili məsələlərin həlli üçün (leksika,
dil tarixi və s.) sorğu, məlumat toplamaq, nümunələrin seçilmə-
sində (toplanmasında) çox vaxt aparan böyük həcmli materialla-
rı araşdırmaqdan mütəxəssisləri azad etməkdir.
Dünyada ən məşhur milli korpuslardan – 100 milyon söz-
dən ibarət olan Britaniya milli korpusunu
1
misal çəkmək olar.
Bu modelə əsasən 2000-ci ildə rus dilinin milli korpusu (RMK)
meydana gəlmişdi
2
. Rus dilinin milli korpusu Moskva, Sankt-
Peterburq, Voronej və digər şəhərlərin alimlərinin birgə səyinin
məhsulu olub, bir çox başqa dillərin milli korpuslarının (qazax,
başqırd, tatar və s.) hazırlanmasına böyük təkan vermişdir.
RMK-na müasir yazılı mətnlər (XX-XXI), orta əsrlər dövrünün
mətnləri (XYIII-XIX), dini, qəzet, dialekt, poetik, tədris, şifahi
nitq, aksentoloji, multimedia korpusları daxildir. Əsas korpusun
həcmi 2013-cü ildə 230 milyon sözişlətmədən, ümumi korpusun
həcmi isə 384 milyon sözişlətmədən ibarətdir. Korpusdakı mətn-
lərin 1,5%-i morfoloji və semantik marketlə təchiz olunmuşdur.
Korpusların funksiyası 90-cı illərdə internetin meydana
gəlməsi ilə kəskin dəyişdi. Artıq dilçilər müxtəlif dillərin (al-
man, çex, çin, yapon, bolqar və s.) böyük həcmli milli korpusla-
rını yaratmağa başladılar.
Qeyd etməliyik ki, müasir dövrdə külli miqdarda mətnlə-
rin elektron formada yerləşdirilməsi korpusların həcminin ar-
tırılmasında böyük rol oynadı. Doğrudur ki, bu mətnlərin mövzu
və janrlar üzrə təsnif edilməsi, vahid formaya salınması lazım
1
www.natcorp.ox.ac.uk
2
http://ruscorpora.ru(открыт
29 апреля, 2004 года),
http://polit.ru/article/2009/10/23/corpus/-
Dostları ilə paylaş: |