Maşın tərcüməsinin nəzəri problemləri
11
söz olan bütün mətndəki ifadələrin siyahısını göstərən konkor-
danslar, sözün sonundan asılı olaraq əlifba sırası ilə sıralanan
əks lüğətlər, qafiyə lüğətləri, maşın tərcüməsi sistemi üçün ha-
zırlanan avtomatik lüğətlər və s. tərtib edilmişdir. Adlarını çək-
diyimiz lüğətlər haqqında V.Y.Pines və M.Ə.Mahmudovun
“Elektron hesablayıcı maşınlar dilçilikdə” adlı icmalında kifayət
qədər dolğun məlumat verilmişdir.
1
Burada yalnız Azərbaycan dilçiliyində EHM vasitəsilə tər-
tib olunan lüğətləri nəzərdən keçirəcəyik. Bu məsələyə toxun-
mazdan əvvəl EHM və onun işləmə prinsipi haqqında qısa məlu-
mat verək.
Məlumdur ki, “insan-maşın” sistemində tədqiq olunan mə-
sələlər aşağıdakı mərhələlər üzrə həll edilir:
2
– məsin qoyuluşu (mütəxəssis tərəfindən);
– məsin
riyazi qoyuluşu;
– EHM-in girişinə daxil olunacaq materialların (ilk veri-
lənlərin) hazırlanması, yəni kodlaşdırılması;
– məsin həlli üçün uyğun metodların
seçilməsi;
– məsin alqoritminin qurulması və onun blok-sxeminin
hazırlanması;
– qurulmuş alqoritmin proqramlaşdırılması;
– məsin
EHM-də həlli;
– EHM-də alınan nəticələrin araşdırılması.
Lüğətlərin tərtibi məsələsi ilə əlaqədar bu mərhələləri qısa
da olsa xarakterizə edək.
Məsin riyazi qoyuluşu deyərkən verilənlərin (bizim qoy-
duğumuz məsələnin xarakterindən asılı olaraq bu halda mate-
riallar nəzərdə tutulur) ədədi şəklə gətirilməsi – yəni kodlaşdırıl-
ması, onun tərkibinə daxil olan hissələrin həlli nəzərdə tutulur.
Tərkib hissələrinin ardıcıl həlli qoyulmuş məsələni ta-
mamlayır.
1
Pines V.Y., Mahmudov M.Ə. Elektron hesablayıcı maşınlar dilçilikdə. B., 1977
2
Зубов А.В. Переработка текста естественного языка в системе «человек-маши-
на». В сб. Статистика речи и автоматический анализ текста. М., 1971, c.307-308
Maşın tərcüməsinin nəzəri problemləri
13
Dilin riyazi-statistik metodlarının köməyi ilə tədqiqində
Azərbaycan dilçiliyində tezlik lüğətlərinin tərtibi önəmli yer tu-
tur. Məlumdur ki, tezlik lüğətlərində sözlər və onların mətndəki
işlənmə tezliyinin göstəricisi qeyd olunur.
Bu lüğətləri tərtib edərkən bir sıra çətinliklər qarşıya çıxır.
Birincisi, mətnləri elə seçmək lazımdır ki, kifayət qədər ədəbi
dil normalarını özündə əks etdirmiş olsun. Bu bir o qədər də
asan iş deyildir. İkincisi, daha mürəkkəb məsələ, mətnlərin ümu-
mi həcmini seçməkdən ibarətdir. Azərbaycan
dilinin tezlik lüğəti
üçün əsas mənbə qəzet materialları olmuşdur. İxtiyari götürül-
müş mətnlərdən 100 min söz seçilmişdir.
Tezlik lüğətlərinin tətbiqinin məlumatların avtomatik iş-
lənməsində, avtomatik tərcümədə, referatlaşdırmada, poliqrafi-
yada, kriminalistikada, anonim yazıların müəlliflərini müəyyən-
ləşdirməkdə müstəsna əhəmiyyəti vardır.
Yuxarıda danışdığımız lüğətlərin EHM-də necə tərtib
olunması prosesini nəzərdən keçirək.
EHM-in köməyi ilə ilk tezlik lüğəti Yosselson tərəfindən
tərtib olunmuşdur. Hal hazırda EHM-in köməyi ilə yüzlərlə
müxtəlif xarakterli tezlik lüğətləri yaradılmışdır. Ümumiyyətlə,
dünya miqyasında 500-ə qədər tezlik lüğəti bizə məlumdur.
Bunların bir qismi texniki vasitəsiz, yəni əl ilə uzun illərin
zəhməti bəhrəsi kimi, digər qismi EHM-in köməyi ilə tez bir
zamanda əldə edilmişdir. Misal üçün mətndən seçilmiş 200 min
sözdən ibarət olan siyahıdan tezlik lüğətini tərtib etmək üçün
tədqiqatçı 2 il vaxt sərf etməlidir. Ancaq EHM-in köməyi ilə hə-
min işi 3 aya görmək mümkündür. Burada çox vaxt aparan iş
mətnlərdəki sözlərin kodlaşdırılmasıdır. Əgər hər gün 7 saat
ərzində 4000 söz kodlaşdırılsa, onda EHM-də lüğətin tərtibinə
12 saat vaxt sərf edilər.
Ümumiyyətlə, EHM vasitəsilə tərtib edilən lüğətlər aşağı-
dakı mərhələlər üzrə aparılır:
tərtib ediləcək lüğətin növündən asılı olaraq blok-sxe-
mə əsasən
proqram qurulur;