Avtomatik tarjima yo‘nalishi: muammolar va yechimlar shahlo Hamroyeva, f f. d., ToshDO‘tau dotsenti Madinabonu Qodirova, ToshDO‘tau tayanch doktoranti



Yüklə 68,5 Kb.
tarix13.10.2023
ölçüsü68,5 Kb.
#127442
Maqola AT muammolarini yechish 01.05


AVTOMATIK TARJIMA YO‘NALISHI: MUAMMOLAR VA YECHIMLAR
Shahlo Hamroyeva, f.f.d., ToshDO‘TAU dotsenti
Madinabonu Qodirova, ToshDO‘TAU tayanch doktoranti
Anotatsiya: Maqolada avtomatik tarjima sohasining yo‘nalishlari, undagi muammolar, jahon tajribasida amalga oshirilgan ishlar va ularning natijalari yoritilgan.
Annotation: The article describes the directions of the field of automatic translation, its problems, the work done in the world experience and their results.
Kalit so‘zlar: statistikaga asoslangan tarjima (SMT), qoidalarga asoslangan mashina tarjima (RBMT), oraliq metatil (interlingua), transfer tizimlari, konvertatsiya, IBM model.
Key words: statistics-based translation (SMT), rule-based machine translation (RBMT), interlingua, transfer systems, conversion, IBM model.
Avtomatik yoki mashina tarjimasi uchun birinchi dasturlar bundan qariyb yarim asr avval ishlab chiqilgan. Dastlabki dasturlar matnlarni so‘zma-so‘z tarjima qilishga mo‘ljallangan. Bunda bir til lug‘atiga oid birlikning boshqa tildagi ekvivalentini aniqlash asosiy vazifa sanaladi. Biroq avtomatik tarjima tarixi davomida bu usulning samarasiz ekanligi ma’lum bo‘ldi. Chunonchi, manba tilidagi matnning ma'nosini chuqur tahlil etadigan dasturlarni yaratish zarurati paydo bo‘ldi. Olimlar tomonidan ma’lum tilga oid bir qancha universaliyalarni yozib olish va ularga asosan matnni tahlil qilish mumkin deb qaraldi. Ularning asosiy maqsadi tarjima jarayonidan oldingi va keyingi tahrirlashni butunlay bekor qilish bo‘lgan. Biroq jahon tajribasidan shu narsa ma’lum bo‘ldiki, hatto juda tor doirada ham buni amalga oshirish hozircha imkonsiz.
Hozirgi kunda bir qancha tadqiqot institutlari yoki bir nechta korporatsiyalar tomonidan oddiy avtomatik lug‘atlar va laboratoriya eksperimentlariga asoslangan juda koplab tarjima dasturi loyihalari yaratilmoqda. Biroq tarjimaning sifati, hatto eng yaxshi olimlar tomonidan ishlab chiqilgan yirik tizimlarda ham inson tarjimasi sifatidan ancha pastligicha qolmoqda. Tarjima dasturlari inson tarjimasiga biroz yordam berishi mumkin, xolos. Yana shuni ham ta’kidlash zarurki, natijalarni aks ettirish, ularni nashr etish uchun yetarli sifat darajasiga olib chiqish, ko‘pincha ikkala tilni yaxshi biladigan mutaxassis tomonidan amalga oshirilgan tarjimadan ko‘ra ko‘proq vaqt talab etmoqda. Mashina tarjimonlari birmuncha tor sohalar, masalan, ob-havo ma'lumotlari kabilarni yaxshi tarjiima qila oladi. Ular, shuningdek, rasmiy maqomdagi huquqiy hujjatlarni tarjima qilish uchun maqbul, ammo hujjatning xususiy jihatlari bo‘lgan paragraflarda ham g‘alizlik holatlari uchrab turadi.
Mashina tarjimasining matnlarni qay darajada tushunishini 60-yillarning eng yaxshi avtomatik tarjima tizimi amalga oshirgan quyidagi misol orqali oson tushuntirish mumkin. “Bibliya”dan olingan parcha: The spirit is willing, but the flesh is weak (Ruh – kuchli, ammo tana zaifdir). (Matt. 26:41). Buni dastur Aroq kuchli, ammo go‘sht chirigan, deb tarjima qilgan. Bugungi kunda ham mazmundagi shu kabi xatoliklar to‘la bartaraf etilgani yo‘q.
Yana bir misol: Bu tarjima hozirgi kunda eng mashhur tijorat tarjima paketlaridan biri bo‘lgan Globalink tomonidan amalga oshirilgan. Ispancha el papel de Francia en la guerra gapi to‘g‘ridan to‘g‘ri ingliz tiliga “Fransuzlarning urush gazetasi(the paper of France in the war) tarzida tarjima qilingan. Asl mazmun: Fransiyaning urushdagi roli edi. Bu kabi misollarni minglab keltirish mumkin.
Aslida, tarjima sohasi ikki asosiy tarmoqqa bo‘linadi: bir tildan tarjima qilish va bir tilga tarjima qilish. Biror tildan tarjima qilish bosqichi tilga tarjima qilishdan ancha murakkab. Sun’iy intellekt ma’lum tildan matnlarni tushunib olishda muammolarga uchraydi, boshqa tildagi ekvivalentini topishda unchalik muammo yo‘q. Zero, aqlli texnologiyalar uchun matn yaratishdan ko‘ra tayyor matnni tahlil va tahrir qilish murakkabroq vazifa sanaladi. Shu sababli ma’nosi tahlil qilinishi kerak bo‘lgan tilning grammatikasi ustida ko‘proq ishlash talab etiladi.
Mashina tarjimasidagi yana bir yechimi topilmay turgan muammo – so‘zning bir qancha sinonimlari orasidan matn mazmuniga mosini tanlash vazifasi. Zotan, manba sifatida bir mazmunni ifodalovchi bir qancha so‘zlar qatorini kiritishga to‘g‘ri keladi. Dastur biron bir muayyan holatda qaysi birini tanlashi kerak? Ushbu muammo hal qilish uchun juda qiyin bo‘lganligini isbotladi. Ushbu masalani yechish uchun dasturga matnning chuqur lingvistik tahlili, atrofdagi so‘zlarning ma'nosi, umuman matn va ba'zi bir qo‘shimcha ma’lumotlar ham kerak bo‘ladi.
Sinonimlikdan tashqari, tarjimada variantlilik muammosi ham mavjud. Masalan, Men yangi kompyuter sotib oldim. U juda ajoyib. Ushbu matnning ingliz tiliga tarjimasi quyidagicha: I bought a new computer. He is stunning. Bu yerda “U” olmoshi o‘rniga ingliz tilida shaxslarda farqlanuvchi he, she, it olmoshlaridan qay birini qo‘llashni texnologiya aniqlay olmaydi. Bu kabi muammoni hal etish uchun yana chuqur lingvistik tahlil, bilimlar zarur bo‘ladi.
Tarjima sifatini yaxshilash uchun jahonda ko‘plab tajribalar amalga oshirilmoqda. Shunday tadqiqot institutlaridan biri AQShning Janubiy Kaliforniya shtatidagi Axborotshunoslar instituti bo‘lib, ular tarjima sifatini yaxshilashda statistik usullardan foydalanishni taklif qilishmoqda. Buning uchun bir tilga oid ulkan ma’lumotlar bazasi to‘planadi. Bu ma’lumotlar kompyuter tomonidan statistik tahlil qilinadi va biror jumlani tahlil qilish lozim bo‘lsa texnika xotirasidan shunga o‘xshash jumla izlab topiladi. Agar mavjud bo‘lmasa, inson tarjimasi so‘raladi. Inson tomonidan qilingan tarjima kompyuter xotirasiga kiritib qo‘yiladi Qarabsizki, texnologiya shunday qilib o‘zida ulkan ma’lumotlar bazasini jamlaydi. Olimlar bunga bolaning biror tilni o‘rganish jarayonini asos qilib olishadi. Ularning fikricha, bola ham kattalardan eshitgan gaplarini xotiraga joylash va eslab qolish orqali til qonuniyatlarini o‘rganadi.
Tarjima − bu tomonlararo aloqani ta’minlaydigan vositadir. Shuning uchun kommunikativ vaziyatning o‘ziga xos xususiyatlari tarjimon uchun muhim. Tarjima jarayoniga quyidagi omillar ta'sir qiladi:
1. Tarjima maqsadi.
2. Nutqning kommunikativ vazifasi.
3. Matnning lingvistik funksiyasi.[ Кузнецов, 1956:44.]
Shunga qaramay, olimlarning urinish, tadqiqot va ishlanmalari keyinchalik barcha zamonaviy tabiiy tillarni qayta ishlash asosini yaratib berdi. Qidiruv mexanizmi, spam-filtr, tahrir-yordamchi kabi dasturlar jahon mamlakatlarining qirq yil davomida bir-biridan texnologiyalar borasida o‘zib ketishga urinishlari sababli yaratildi.
Qirq yil davomida olimlar mashina tarjimasi sifatini oshirish uchun bir qancha usullarni taklif qildilar. Ulardan biri barcha tillar uchun umumiy bo‘lgan oraliq til − interlingua yaratish g‘oyasi edi. Unga ko‘ra, biz asl jumlani dunyoning barcha tillari (interlingua) uchun umumiy bo‘lgan oraliq mazmunga aylantiramiz. Qoidalari bir xil bo‘lgan va dunyoning barcha tillarini qamrab oladigan maxsus metatil tarjima jarayonini osonlashtirishga hissa qo‘shadi. Keyin maxsus parserlar ushbu interlinguani kerakli tilga aylantiradi va xususiy tillar uchun alohida tarjima natijasi paydo bo‘ladi.
Ko‘pincha olimlar interlingua tilni transfer tizimlari bilan chalkashtirib yuboradi, chunki ularda ham konvertatsiya ro‘y beradi. Ularning farqi shundaki, transfer tizimlarida konversiya qoidalari ikkita maxsus til uchun, interlingvistik tizimlarda esa har bir til va interlingua o‘rtasida yoziladi. Interlingvistik tizimga uchinchi tilni qo‘shish orqali biz uchta til o‘rtasida tarjima qilishimiz mumkin, lekin ularning hech biri interlingua bo‘lmasligi mumkin.
Biroq real hayotda bu unchalik oson bo‘lib chiqmadi. Universal interlingua yaratish juda qiyin ekani ma’lum bo‘ldi. Avtomatik tarjima jarayoniga buni tatbiq qilib bo‘lmadi, lekin ular tufayli biz morfologik, sintaktik va hatto ba'zan semantik tahlil usullarini yarata oldik. O‘sha davr olimlari bu yondashuvning samarasiz ekanligini tan oldilar. Ammo oraliq til haqidagi g‘oya 30 yildan keyin yana qaytib keldi. Ba’zilar buni yaratish mumkinligiga ishona boshladilar. Barcha tillar uchun umumiy bo‘lgan qoidalarga asoslangan mashina tarjima (Ruled-Based Machine Translation) hozirgi kunda ob-havo hisobotlari tarjimasi kabi aniq joylarda bo‘lmasa, boshqa o‘rinlarda umuman samarasiz.
Agar olimlar ideal RBMTni yaratishga muvaffaq bo‘lsalar, tilshunoslar unga barcha imlo qoidalarini muvofiqlashtira olsalar ham, undan keyingi muammo istisnolar muammosi bo‘lib qolaveradi. Misol uchun, ingliz tilidagi noto‘g‘ri fe'llar, nemis tilidagi o‘zgaruvchan prefikslar, rus tilidagi qo‘shimchalar va hokazo.
1990-yil oxirida IBM tadqiqot markazi birinchi marta qoidalar bilan ishlamaydigan mashina tarjimasi tizimini taklif etdi. Unga ko‘ra, biz ikkita tilda bitta jumlani olib, uni so‘zlarga ajratamiz; har bir so‘zni tarjimasiga moslashtirishga harakat qilamiz. Biz ushbu operatsiyani taxminan 500 million marta takrorlaymiz va mashina har xil matnlarda turli o‘rinlarda kelgan das Haus so‘zini uy, bino, qurilish va hokazo deb tarjima qilganini hisoblaydi. Ehtimol, ularning ichidan eng ko‘p uy sifatida ishlatilgan bo‘lib chiqar. Shunda mashina bizga bu so‘z tarjimasini uy deb beradi. E'tibor bering, biz hech qanday qoida yoki lug‘atni o‘rnatmaganmiz. Mashinaning o‘zi hamma narsani topadi, u sof statistika va "odamlar shunday tarjima qiladilar, men shunday qilaman" mantig‘iga asoslanadi. Shu tariqa statistik tarjima nazariyasi paydo bo‘ldi.
Bunday tarjimonlarning aniqligi avvalgilariga qaraganda sezilarli darajada yuqori bo‘lib chiqdi. Demak, qoida oddiy: qancha ko‘p tarjima qilsak – tarjima shuncha yaxshilanadi.
Birinchi statistik tarjima tizimlari matnni so‘zlarga bo‘lish (tokenizatsiya) usuli bilan boshlandi. Bu eng primitiv usul edi. IBMda ixtiro qilingan bu birinchi statistik tarjima modeli IBM Model 1 deb nomlangan. Keyinchalik birin-ketin IBM avlodlari yaratila boshladi.[ Леонтьева, 2006:303]
Klassik statistik yondashuv usuli matnni so‘zlarga bo‘lish va statistikani hisoblashdir. Istisnolar yoki tartibni o‘zgartirish holatlari bunda hisobga olinmagan.
Har bir so‘zga statistik ma'lumotlarni to‘plash uchun mashinaga har ikki tilda millionlab jumlalar kerak bo‘ladi. Shu sababli, Yevropa Parlamenti va Birlashgan Millatlar Tashkiloti Kengashida saqlanuvchi barcha a'zo mamlakatlar tillaridagi yig‘ilish qaydlari yuklab olish uchun ham ochiq.
Keyinroq IBM-2 modeli e’lon qilindi. U Model-1ning takomillashgan variant bo‘lib gapdagi so‘z tartibini ham hisobga oldi. Tillarda so‘z tartibini hisobga olmaslik 1-modelning katta muammosi edi. Shuning uchun, 2-modelga olimlar oraliq bosqich - tarjimadan keyingi, so‘zlarning zaruriy o‘rinlariga qayta tartiblash bosqichini qo‘shishga harakat qilishdi. Tarjima natijasi birmuncha yaxshilandi, biroq tarjimada muammolar to‘la bartaraf etilmadi.
3-model: yetishmayotgan so‘zlarni qo‘shish funksiyasiga ega bo‘ldi.
Ko‘pincha tarjima qilishda asl matnda bo‘lmagan birliklarni kiritish zaruratga aylanadi. Misol uchun, nemis tilida artikl qo‘yish zarurati yoki ingliz tilida do fe'lini qo‘shishga ehtiyoj tug‘iladi. Ushbu muammoni hal qilish uchun Model 3 statistik tizimiga ikkita oraliq bosqich qo‘shildi.
4-model: so‘zlarni almashtirish funksiyasi qo‘shildi.
Model 2 tizimida jumladagi so‘zlarning tartibi ham hisobga olingan bo‘lsa-da, so‘zlarning o‘zaro almashinuviga e’tibor berilmagan edi. Shuning uchun, 4-modelda "nisbiy tartib" deb ataluvchi holat ham hisobga olingan. Agar tarjima paytida ikkita so‘z doimiy ravishda bir-biri bilan bir tartibni saqlasa, model buni eslab qoladi.
Model 5: xatolar tuzatildi.
Ular yanada ilg‘or usul − iboralar orqali tarjima bilan almashtirildi. Mashina so‘zlarning barqaror birikmalarini tarjima qilishni o‘rgandi, bu aniqlikni sezilarli darajada oshirdi. Bundan tashqari, iborama-ibora tarjima o‘rganish uchun ikki tilli matnlarni topishda ko‘proq erkinlik beradi. 2006-yildan boshlab barcha dasturlar ushbu yondashuvdan foydalanishni boshladi. Google Translate, Yandex, Bing va boshqa yuqori sifatli onlayn tarjimonlar 2016-yilgacha aynan iboraga asoslangan holda ishlagan.
Agar eski qoidalarga asoslangan yondashuvning amalga oshirilish imkoniyati doimo taxminlarga asoslangan va deyarli samarasiz bo‘lgan bo‘lsa, statistik usullar tarjima sohasini bir muncha olg‘a siljitdi.
Foydalanilgan adabiyotlar.
1. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода // Вопр. языкознания. 1956. № 5. С. 40–44.
2. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы : учеб. пособие. М. : Академия, 2006. 303 с.
3. Дроздова К. А. Машинный перевод: история, классификация, методы. Журнал СЛОВО МОЛОДЫМ, Москва, 2015.
4. www.vas3kblog.com
Yüklə 68,5 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə