Oʻzbek tili uchun teglangan korpus yaratish”



Yüklə 0,5 Mb.
səhifə8/26
tarix05.04.2023
ölçüsü0,5 Mb.
#104313
1   ...   4   5   6   7   8   9   10   11   ...   26
001 DISSERTATSIYA 2022 SOBIROV cop 21.06 (1)

I bob uchun xulosa
Ushbu bobda turli tillarda yaratilgan korpuslar, korpus yaratish texnologiyalari, shuningdek, teglangan korpus haqida fikr yuritilgan. Shuningdek, teglangan korpus va tilshunoslikning shu sohaga aloqador qismlari haqida soʻz borgan. Mtnlarni morfologik va sintaktik tahlil qilish va oʻrganish tamoyili masalasi qoʻyildi. Shu maqsadda hozirgacha yaratilgan boshqa tillarning teglangan korpuslarini oʻrganib chiqildi. Zamonaviy teglangan korpuslarning turlari va avlodlari haqidagi ma’lumotlar ham oʻrganib chiqildi. Oʻrganilgan materiallar asosida oʻzbek tili uchun teglangan korpus yaratish metodi shakllantirildi hamda asosiy masala sifatida oʻzbek tili uchun teglangan korpus yaratish masalasi qoʻyildi.


II BOB. TEGLANGAN KORPUS YARATISH VOSITALARI.

II.1-§. Korpuslarni teglash usullari

Amaldagi barcha tillar sintaksisi, morfologiyasi, fonetikasi hamda leksikasi bilan bir-biridan farq qiladi, lekin shu bilan birga ularning aksariyati oʻxshash konstruktiv tuzilishga ega boʻlib, bu tilshunoslarga koʻp tilli resurslar va vositalarni yaratish imkonini beradi. Iloji boricha koʻp tillar tomonidan ishlatilishi mumkin boʻlgan koʻp tilli teglar yaratish yoʻlida qilingan ishlarda Google kompaniyasi mahsulotini aytib oʻtishimiz mumkin. Ushbu kompaniya tomonidan oʻxshash xususiyatlarni aniqlash orqali olingan teglar toʻplamini taqdim eta oladigan universal POS teglar toʻplamini yaratilgan. Ushbu universal POS teglar toʻplami koʻplab tillar tomonidan oʻz teglarining asosi sifatida foydalaniladi, keyinchalik u tilga xos xususiyatlarni kodlaydigan koʻproq teglar bilan kengaytirildi. Ushbu universal POS teglar toʻplami 130 tildan ortiq ma’lumotlarga ega boʻlgan eng tez rivojlanayotgan koʻp tilli tegli NLP ma’lumotlar platformalaridan biri boʻlgan Universal Dependencies (UD) loyihasi tomonidan ham qoʻllaniladi. [16]


Umuman olganda teglash metodologiyasi ma’lum tildagi matnga lingvistik qarash orqali izohlash va statistik ma’lumotlar olinishidir. Keyingi bosqichda olingan statistik ma’lumotlar qayta ishlanadi, oʻrganiladi. Oʻrganilgan bilim va tajribaga asoslanib, keyingi xatolar tuzatiladi. Annotatsiya usullari tilning individual xususiyatlaridan kelib chiqib quriladi. Statistik ma’lumotlar miqdori bu oʻrinda aniqlikni ta’minlovchi muhim faktor hisoblanadi. Statistik usullar 1950-yillarda paydo boʻlib, amalga tatbiq qilindi. Afsuski, bu usullarning rivojlanishi juda tez yakunlandi. Bu, birinchi navbatda, ikkita omilga bogʻliq boʻldi. Birinchidan, ma’lumotlarning mavjudligi muammosi. Oʻsha paytdagi til ma’lumotlariga statistik usullarni qoʻllash bilan bogʻliq muammolardan biri shundaki, ma’lumotlar toʻplami odatda shunchalik kichik ediki, koʻp sonli tillardagi hodisalari boʻyicha qiziqarli statistik analizlarni amalga oshirish mumkin emas edi. Ikkinchidan, ijtimoiy fanlarda umumiy siljish yuz berdi. Keyinchalik tilshunos Noam Xomskiy statistik metodni butunlay rad etgan tilshunoslikning rasmiy metodologiyasiga ham, nazariyasiga ham e’tibor qaratdi. [17]
Odatda, teglangan korpus foydalanuvchilarini, qoida tariqasida, aniq matnlarning mazmuni emas, balki ularning lingvistik ma’lumotlari va ma’lum lingvistik elementlar va tuzilmalardan foydalanish misollari qiziqtiradi. Avvalo, aytib oʻtishimiz kerakki, ular tilshunoslar. Teglangan korpus yordamida amalga oshirilgan turli lingvistik tadqiqotlar soʻzlarning tahlil qilinish darajasini belgilab bera olish kuchiga ega hisoblanadi. Avvallar statistik usullardan foydalanilishi hisobiga murakkab lingvistik vazifalar, masalan, mashina tarjimasi, nutqni aniqlash va sintez qilish, imlo va grammatika tekshiruvi va boshqalarga koʻpam e’tibor qaratilmagan. Bundan kelib chiqadiki, teglangan matnlar toʻplami va unda mavjud boʻlgan iboralar semantik nuqtayi nazardan boʻlinmas semantik birlik boʻlib, leksikografiyada, matnni avtomatik qayta ishlash tizimlarida buni hisobga olish juda muhim. Kontekstda tushunilgan ma’noni saqlab qolish faktori ham ushbu boʻlinmaslik tamoyilini qoʻllab-quvvatlaydi.
Korpus matniga asoslanib, qaysi soʻzlarning birga kelishini aniqlash uchun statistik usullardan foydalanish mumkin. Ushbu turdagi korpuslar leksikografiya va grammatika sohasidagi tadqiqotlar uchun boy ma'lumotlar manbayi hisoblanadi. Semantika sohasidagi tadqiqotlar leksikografiyadagi tadqiqotlar bilan chambarchas bogʻliq. Teglangan korpusni oʻrganib chiqish orqali u yoki bu lingvistik birlikning muhiti, uning tarixi, bu birlikni tavsiflovchi ma'lum semantik xususiyatlari haqida bilib olish mumkin.
Shuningdek, matn teglanish jarayonida quyidagi tamoyillarga amal qilish kerak:
1) belgilash foydalanuvchi uchun avvaldan mavjud boʻlgan belgilarga asoslanishi kerak;
2) faqat bir tilshunoslik maktabi an’analaridan qochib, iloji boricha neytral lingvistik qoidalarga suyanish kerak;
3) teglash sxemasini kim, qachon va nima maqsadda ishlab chiqqani aniq boʻlishi lozim va hokazo.

Yüklə 0,5 Mb.

Dostları ilə paylaş:
1   ...   4   5   6   7   8   9   10   11   ...   26




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə