Oʻzbek tili uchun teglangan korpus yaratish”


Maqsadi Tadqiqot Tasviriy Harakat



Yüklə 0,5 Mb.
səhifə6/26
tarix05.04.2023
ölçüsü0,5 Mb.
#104313
1   2   3   4   5   6   7   8   9   ...   26
001 DISSERTATSIYA 2022 SOBIROV cop 21.06 (1)

Maqsadi

Tadqiqot
Tasviriy

Harakat

Dinamik (Monitor)
Statik (Turgʻun)

Belgilanishi

Belgilangan
Belgilanmagan

Belgi turiga qarab

Morfologik
Sintaktik
Semantik
Prosodik
va boshqalar

Maatn hajmi

Toʻliq matnli
Fragmentli matn

Xronologik matn

Sinxron
Asinxron

Ommaviylik

Umumiy
Yakka

Tuzilishi

Markaziy va arxiv
Yadroviy va pereferik

1-jadval
Lingvistik-filologik tadqiqotlar uchun zarur boʻlgan lingvistik materialning asosiy manbalaridan biri yozma yoki ogʻzaki matndir. Matnlar majmuini tahlil qilish asosida tadqiqotchini qiziqtirgan lingvistik hodisa, masalan, grammatik tuzilmaning xatti-harakati, tilda ekspressiv vositalardan foydalanish va hokazolar haqida xulosa chiqarish mumkin. Kompyuter texnologiyalarining rivojlanishi koʻplab matnlarning elektron shaklda paydo boʻlishiga yordam berdi. Bunday hajmdagi matnlar bilan ishlash, ulardan kerakli ma'lumotlarni olish uchun butun dunyoda lingvistik korpuslar yaratila boshlandi, ya’ni. maxsus tanlangan, turli lingvistik parametrlar boʻyicha belgilangan va qidiruv tizimi bilan ta’minlangan matnlar toʻplami. Tadqiqot materiallari hajmining oshishi lingvistik ma’lumotlarni tahlil qilishning yangi usullarini, shu jumladan ularni statistik qayta ishlashni qoʻllashni talab qildi. [14]
Keng koʻlamli elektron resurslardan foydalanish qobiliyati lingvistik tadqiqotlarda material toʻplash jarayonini sezilarli darajada osonlashtirdi. Biroq, lingvistik ma’lumotlarning bunday mavjudligi lingvistik tadqiqotlarning dalillar bazasiga qoʻyiladigan talablarni tubdan oʻzgartirdi: bizning davrimizda ilgari surilgan konseptsiyani tasdiqlash uchun bir nechta ekzotik misollar berishning oʻzi etarli emas, buning uchun yetarlicha toʻliq namunani taqdim etish kerak. Ma’lum bir tildan olingan ma’lumotlar. Biroq, megabayt “xom” matnlar bilan ishlash misollarni qoʻlda qidirishdan kam emas.
Ulardan lingvistik, adabiy va boshqa ma’lumotlarni olish uchun matnlarning katta majmuasini qayta ishlash zarurati va imkoniyati elektron resurslarning, shu jumladan lingvistik izohli matn korpusining tez oʻsishiga olib keldi.
Korpus lingvistikasi quyidagi savollarga javob berishga qaratilgan:

  • korporatsiya tuzilishiga qanday tamoyillar yotadi, turli til parametrlariga (matnlarning janr va uslub belgilari, morfologik belgilar va boshqalar) nisbatan standartlashtirilgan korpus belgilari qanday tartibga solinishi kerak?

  • korpus yordamida qanday lingvistik va adabiy vazifalarni hal qilish mumkin,

  • korpusdan qanday foydalanish, shu jumladan maxsus korpus soʻrov tillari.

Matn korpusidan foydalanish tadqiqotchini qiziqtirgan lingvistik birliklarning (soʻzlar, iboralar, grammatik kategoriyalar, sintaktik konstruktsiyalar va boshqalar) xatti-harakatlarini tabiiy til muhitida kuzatish imkonini beradi, ya’ni, sun’iy ravishda tuzilgan kontekstlarda emas, balki real hayotda boʻlayotgan jarayonni koʻra oladi.
Bundan tashqari, korpus tadqiqotlari statistik usullardan foydalangan holda katta hajmdagi materialda ma’lum bir lingvistik hodisa haqidagi ba’zi gipotezalarni shakllantirish, tasdiqlash yoki rad etish imkonini beradi.
Shu bilan birga, agar tadqiqotchi tayyor korpusdan foydalansa, u material toʻplashning uzoq va mashaqqatli bosqichini (informatorlarni oʻrganish, lugʻat kartalari yoki yozma matnlar bilan ishlash va boshqalar) butunlay chetlab oʻtadi.
Butun Internet - bu ulkan matnlar toʻplami. Hatto tadqiqotning bunday yoʻnalishi - korpus sifatidagi internet mavjud. Biroq, internetdagi matnlar tizimlashtirilmaganligi va lingvistik izohga (korpus belgisi) ega emasligi sababli - bu matnlarning boshqa virtual toʻplamlariga ham tegishli - butun toʻplam yoki ba’zi bir kichik toʻplamga aniq statistik baho berish qiyin. Shuning uchun tayyor tuzilgan va izohli lingvistik korpuslarga ehtiyoj bor.
Deyarli barcha zamonaviy lingvistik tadqiqotlar va lugʻatlar va grammatikalarni tuzish boʻyicha ishlar qaysidir ma’noda reprezentativ matn korpusidan foydalanishga qaratilgan (masalan, Bank of English elektron tili korpusi asosida yaratilgan, soni 2,5 milliard soʻzdan iborat boʻlgan Kollinz lugʻatlarini solishtirib koʻrish mumkin). [15]
Nazariy tilshunoslar ushbu turdagi korpuslardan tekshirish va nazariyalarini isbotlash uchun eksperimental asos sifatida foydalanadilar. Amaliy tilshunoslar (oʻqituvchilar, tarjimonlar va boshqalar) tillarni oʻrgatish va oʻzlarining kasbiy muammolarini hal qilish uchun mavjud tuzilmadan foydalanadilar.
Tilning kompyuter modellarini yaratish uchun matnlarda mavjud belgilar tahlil qilinib, tilshunoslar oʻzaro hamjihatlikda tahlil qilishlari kerak. Boshqa til mutaxassislari (adabiyot olimlari, muharrirlar) ham ayrim hollarda korpusga murojaat qilib, oʻz savollariga javob olishlari mumkin. Ijtimoiy soha bilan shugʻullanuvchi olimlar (tarixchilar, sotsiologlar) shuningdek, davr, muallif yoki janr kabi matn parametrlaridan foydalangan holda oʻz obyektlarini til orqali oʻrganishlari mumkin. Adabiyotshunoslar uslublarni aniqlashga qaratilgan tadqiqotlar uchun korpuslardan foydalanadilar. Nihoyat, asosiy maqsadga kirishiladi: korpuslar turli avtomatlashtirilgan tizimlarni ishlab chiqish va sozlash uchun ishlatiladi (mashina tarjimasi, nutqni aniqlash, ma’lumot olish). Ushbu soha oldimizga qoʻygan maqsadimizni aynan oʻzida ifoda qiladi.

Yüklə 0,5 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   26




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə