Oʻzbek tili uchun teglangan korpus yaratish”


I.3-§. Oʻzbek tili uchun teglangan korpus yaratish va uning dolzarbligi



Yüklə 0,5 Mb.
səhifə7/26
tarix05.04.2023
ölçüsü0,5 Mb.
#104313
1   2   3   4   5   6   7   8   9   10   ...   26
001 DISSERTATSIYA 2022 SOBIROV cop 21.06 (1)

I.3-§. Oʻzbek tili uchun teglangan korpus yaratish va uning dolzarbligi
Teglangan korporaning yaratilishi va lingvistik annotatsiyasi (lingvistik belgilanishi) tabiiy tildagi matnlarni avtomatik qayta ishlashning zamonaviy texnologiyalarini ishlab chiqishda asosiy rol oʻynaydi. Bunday korpuslar avtomatik lingvistik tahlilning turli modullarini ishlab chiqish uchun katta eksperimental baza boʻlib xizmat qiladi. Bir tomondan, korpusda ekspert lingvistik belgining mavjudligi ma’lum bir lingvistik modul ishining sifatini baholashga imkon beradi. Masalan, matndagi har bir soʻzga asl shakli va grammatik xususiyatlari berilgan morfologik belgili korpusdan foydalanib, siz avtomatik morfologik tahlil tizimining qanchalik toʻgʻri ishlashini tekshirishingiz mumkin. Boshqa tomondan, zamonaviy avtomatik matn tahlil tizimlari (morfologik va sintaktik analizatorlar va boshqalar) turli xil mashina oʻrganish usullaridan foydalanadi.
Korpuslar soni va turining koʻpayishi va turli xil matnli ma’lumotlarni qayta ishlash texnologiyalarining rivojlanishi bilan korpusdagi lingvistik ma’lumotlarning ba’zi universal tamoyillari va belgilash tiplari ishlab chiqildi. Har qanday tilda korpus bilan ishlay oladigan maxsus vositalar yaratildi, ular korpus menejerlari deb ataldi. Umumjahon standartlar va texnologiyalarning rivojlanishi juda qisqa vaqt ichida yirik hajmli korpuslarni yaratish imkonini berdi.
Hozirgi kunda tabiiy tilni qayta ishlash (NLP) sohasi jadal rivojlanmoqda va ilmiy, iqtisodiy va madaniy sohalardagi muammolarni hal qilishda muhim rol oʻynamoqda. NLP shuningdek, biznes ma’lumotlarini tahlil qilish, veb-ilovalarni ishlab chiqish, korpus lingvistikasi, kompyuter fanlari, shuningdek sun’iy intellekt kabi sohalarni qamrab oladi. Internetda mavjud boʻlgan ma’lumotlarning aksariyati matnlidir, shuning uchun matnli ma’lumotlarni tahlil qilish, turli xil usullar, masalan, bunday matnlarni morfologik va sintaktik tahlil qilish orqali kerakli ma’lumotlarni olish NLPning asosiy qiziqish sohasiga aylanmoqda. [14]
Korpus lingvistikasiga tegishli boʻlgan teglangan korpus tushunchasi hali oʻzbek tiliga keng miqyosda tatbiq qilinmadi. Vaholanki, bunday korpus ishlab chiqilishi bajarilayotgan ilmiy ishlar sifatini oshirib, statistik tahlilning aniqligiga oʻzining ijobiy ta’sirini oʻtkazadi. Bunda asosiy e’tiborga olinadigan jihat shuki, ushbu turdagi korpus yaratilsa hamda ma’lum hajmdagi matnlar majmui maxsus teglar bilan belgilab chiqilsa, ishlab chiqilgan tegishli algoritm bilan matnlarning qolgan qismini ham avtomatik tarzda belgilab chiqish mumkin boʻladi.
Shu oʻrinda shuni ham ta’kidlab oʻtish kerakki, teglangan korpusni yaratish juda koʻp vaqt talab qiladigan jarayon boʻlib, koʻp odamlarning vaqt va kuchini talab qiladi. Shu sababli, koʻpincha belgilangan korpuslar davlat muassasalarida tadqiqotchi guruhlari tomonidan tuziladi va bunday korpuslar unchalik koʻp emas. Tuzilgandan soʻng, korpus koʻplab tadqiqotchilar tomonidan turli muammolarni hal qilish uchun ishlatilishi mumkin. Hosil boʻlgan tuzilmadan foydalanish usullari mutlaqo xilma-xil boʻlishi mumkin, shu jumladan uning mualliflari oʻylamagan turlari ham. Korpus ilmiy hamjamiyat uchun maksimal qiymatga ega boʻlishiga erishishimiz uchun u nafaqat ishlab chiquvchilar tomonidan taqdim etilgan interfeys orqali koʻrish uchun, balki foydalanuvchi kompyuteriga toʻliq yuklab olish uchun ham mavjud boʻlishi kerak.



Yüklə 0,5 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   10   ...   26




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə