55
nümunə ola bilər [25]. Məlumdur ki, MT-nin linqvistik təminat kimi ən vacib bazası olan avtomatik
lüğətlərin tərtibidir. Bu mənada son illərin məhsulu olan Z.Quliyevanın tədqiqatının təkzibolunmaz əhəmiyyəti
vardır [63]. Burada maşın tərcüməsi sistemlərində avtomatik lüğətin optimal strukturunun formalaşması
prinsipləri müəyyən olunmuş, tədqiq olunan dillərin (ingilis və Azərbaycan) morfoloji, sintaktik və semantik
sistemlərinin müqayisəli təhlili aparılmış, lüğəvi vahidlərin formal modelləri qurulmuş, leksik-qrammatik
məlumat əsasında maşın tərcüməsini dəstəkləyən ekspert sisteminin biliklər bazası hazırlanmışdır [63. S.28–
29].
Yuxarıda qeyd etdiyimiz kimi maşın tərcüməsində ən çətin mərhələ formalizəsi mümkün olmayan
cümlənin semantik təhlilidir. Cümlənin semantik təhlili üçün semantik lüğətlər tərtib olunmalıdır. Təhlil
prosesində ilk növbədə tərcümə ediləcək mətnin hansı elm sahəsinə aid olunması müəyyənləşdirilməlidir.
Elm sahəsini avtomatik müəyyənləşdirmək üçün açar sözlərdən və tezaurus lüğətlərdən istifadə edilir və bun-
dan əlavə mütləq konteksti nəzərə almaq lazımdır.
MT-nin bütün mərhələlərinin geniş şərhi K.A.Vəliyevanın «Azərbaycan-ingiliscə tərcümə sis-
temində» adlı monoqrafiyasında verilmişdir [64].
Azərbaycan dilçiliyində son illərdə aparılan tədqiqatlardan Ə.Əliyevin maşın tərcüməsi sistemində
sözlərin kontekstdə istifadə olunmuş mənasının təyin olunmasını xüsusi qeyd etməliyik [20]. Tədqiqatda
ingilis dilində tezliyinə görə çoxişlək min fel seçilmiş, onların mənaları araşdırılmış, hər bir məna üçün
formal əlamətlər hazırlanmış və tərtib edilmiş alqoritmlər Dilmanc tərcümə sisteminin bazasına daxil
edilmişdir [20. S.17].
Ümumiyyətlə, gələcəkdə Azərbaycan dilindən ingilis və başqa dillərə tərcümə sahəsində də işlərin
genişləndirilməsi nəzərdə tutulur.
Azərbaycan dili bazası əsasında MT sisteminin yaradılması zamanı, aşağıdakı prinsiplərin rəhbər
tutulması vacibdir:
1. Nəzərə alsaq ki, bir təbii dildən başqalarına MT leksik vahidlər arasında uyğun tərcümə
lüğətlərinin olmamasını tələb edir, onda, hər şeydən əvvəl, maşın lüğətinə daxil ediləcək dilin və danışığın
əsas leksik vahidlərini (ayrı-ayrı sözlər, söz birləşmələri, ifadələr, danışıq modelləri) təyin etmək lazımdır.
2. Proqnozlaşdırılan MT sisteminin tematik istiqamətinin (monotematik, politematik MT sistemləri) təyin
olunması, buna müvafiq olaraq əlavə tematik lüğətin yığılmasına baxılmalıdır.
3. Müvafiq modellərin və alqoritmlərin işlənməsi məqsədi ilə morfologiya, sintaksis və semantika
səviyyəsində MT-nin linqvistik strategiyasının tipinin təyin olunması, tərcümə ekvivalentlərinin seçilməsi üçün
MT sisteminin tərkibində süni intellekt sistemlərində biliklərin emalı vasitələrinin istifadəsi.
4. Mətnlərin morfoloji, sintaksis və semantik analizi və sintezi proqramlarının işlənməsi və insan
tərəfindən redaktə olunması üçün instrumental vasitələrin seçilməsi.
5. Proqnozlaşdırılan MT sisteminin texnoloji xarakteristikalarının dəqiqləşdirilməsi: a) əhatə dairəsi
və reallaşma dərəcəsi, yəni tərcümə hansı həcmdə maşın lüğətinə istinad edəcəkdir və işlənmə səviyyəsi
(eksperimental, inkişaf etdirilən, istehsal kommersiya); b) MT prosesində insanın iştirak dərəcəsi (tam
avtomatik tərcümə, insan-maşın tərcüməsi).
6. Proqnozlaşdırılan MT sisteminin «açıqlığı», yəni təkmilləşdirilmə yolu ilə mətnlərin işlənməsi bacarığı
nəzərə alınmalıdır.
7. Mətnlərin avtomatik tərcümə rejimdə tərcüməsi ilə yanaşı interaktiv iş rejimi təmin olunmalıdır,
yəni istifadəçi tərcümə prosesinə qarışmaq və tərcümə mətnlərinin tematikasına uyğun əlavə maşın
lüğətlərinin daxil etmək imkanına malik olmalıdır.
8. MT sisteminin əsas tələbləri – «konkurentlik bacarığı» və tərcümə keyfiyyəti təmin olunmalıdır
ki, bunlar da aşağıdakı parametrlərlə təyin olunur:
56
a) aydınlıq (orijinala müraciət etmədən MT sisteminin çıxış mətni oxucu tərəfindən nə dərəcədə
başa düşülür);
b) adekvatlıq (tərcümə orijinalın mənasını nə dərəcədə dəqiqliklə əks etdirir;
c) qrammatik düzgünlük [65. S.63–64].
Ehtimal-statistik metodların
Azərbaycan dilçiliyində tətbiqi
Statistik metodların dilçilik tədqiqatlarında istifadəsi hələ 1905-ci ildən məşhur dilçi İ.A.Boduen de
Kurtene tərəfindən irəli sürülmüş, ondan sonra A.M.Peşkovski, M.N.Peterson, E.D.Polivanov, V.V.Vinoqra-
dov və s. alimlər davam etdirmişlər. 1938-ci ildə V.V.Vinoqradovun dildə göstəricilərin rolu haqda mülahizəsi
böyük maraq doğurmuş «Müasir rus dili» kitabında o yazır ki, «müxtəlif kitab üslubunda və danışıqda o cümlədən
bədii ədəbiyyatda müxtəlif üslub və janrlarda sözlərin işlənmə tezliyi müxtəlifdir. Bu müxtəlifliklər, üslublar ara-
sındakı struktur-qrammatik və eləcə də semantik fərqləri tədqiqat prosesində üzə çıxarmaqda kömək edir»
[66. S.155–156].
Bu barədə V.V.İvanovun fikri ilə razılaşmaq olar ki, «sözlər, hecalar və fonemlər arasındakı
kəmiyyət münasibətlərinin tədqiqi, dillərin təsnifatının tarixi aspektdə öyrənilməsində zəmin yaradır.
Misal üçün dildə təkhecalı sözlərin orta uzunluğu morfemlərə ayrılmırsa, bu tipli dillər musiqi vurğulu
dillərə mənsub olur (Vyetnam, klassik Çin, Mərkəzi Afrika dillərində bəziləri və s.)... Digər mövcud qanuna-
uyğunluqlardan biri də fonemlərin sayı ilə morfemlərin uzunluğu arasındakı əlaqədir ki, misal üçün abxaz dilinin
bzıb şivəsində 81 fonem vardır. Bu asılılıqları da tarixi müqayisəli dilçilikdə dillərin müqayisəli-tipoloji səpgidə
öyrənilməsində tətbiq etmək olar» [67. S.176–178].
Maraqlıdır ki, müşahidələr göstərir ki, sözdəki fonemlərin sayı morfemlərin keyfiyyətinə təsir edir [68. S.8]
(həm fonoloji və həm də struktur-semantik cəhətcə). Bundan başqa dilləri kəmiyyətcə öyrənərkən aşkar olunur ki,
dildəki elementlərin tezliyinin müxtəlifliyi müəyyən statistik qanunauyğunluqlarla bağlıdır. Bu sahədə aparılan
tədqiqatlara nəzər saldıqda A.A.Markovun XIX–XX əsrlərdəki yazıçıların əsərlərində işlənən ümumişlək sözlərin
orta tezliyinin müəyyənləşdirib müəllifləri bir-biri ilə müqayisə etməklə maraqlı nəticələrə gəlməsidir [55. S.42].
Çıxarış B.V.Qolovinin yuxarıda adi çəkilən əsərindən götürülmüşdür [68. S.8]. Müşahidələr göstərir ki, dilçilik
ədəbiyyatında statistik metoddan istifadədə ən çox üstünlük tezlik lüğətlərin tərtibinə verilmişdir. Tezlik lüğəti
haqqında qısa məlumat verək.
Tezlik lüğətləri adı altında xüsusi tip lüğətlər nəzərdə tutulur. Burada adi ikidilli lüğətlərdən fərqli olaraq
sözlərin siyahısı və onun ixtiyari seçilmiş mətnlərdəki işlənmə tezliyi göstərilir.
Dilçiliyə statistik metodların tətbiqi mətnlərdə sözlərin işlənmə tezliyinə əsasən tərtib olunmuş tezlik
lüğətlərin meydana gəlməsi ilə başlandı. Dünya dilçiliyində ilk statistik lüğət 1898-ci ildə tərtib edilmiş alman
dilinin tezlik lüğətidir [69; 70. S.113]. Müəllif bu lüğətin tərtibi üçün 11 mln. sözdən ibarət mətnlər seçmişdir.
Bundan sonra yüzlərlə müxtəlif sistemli dillərin tezlik lüğətləri meydana gəlmişdir. Bu lüğətlərin geniş tərtibatı və
tarixi R.M.Frumkina [70. S.5–8] tərəfindən verildiyindən burada onun şərhinə ehtiyac duymadığımızdan, yalnız
Azərbaycan dilçiliyində statistik üsulla aparılan tədqiqatları nəzərdən keçirəcəyik.
Qeyd etməliyik ki, tərtib edilmiş tezlik lüğətlərinin dəqiqliyi mətnlərin həcm və seçimlərdən asılıdır. Bu
seçim aşağıdakı elementar statistik düsturla təyin olunur:
Np
Zp
.