Oʻzbek tili uchun teglangan korpus yaratish”


III.2-§. Teglangan korpus tarkibiy tuzilishi



Yüklə 0,5 Mb.
səhifə22/26
tarix05.04.2023
ölçüsü0,5 Mb.
#104313
1   ...   18   19   20   21   22   23   24   25   26
001 DISSERTATSIYA 2022 SOBIROV cop 21.06 (1)

III.2-§. Teglangan korpus tarkibiy tuzilishi

Korpus tadqiqotlari shuni koʻrsatdiki, har qanday amalga oshirish til elementlari va uning atrofidagi kontekstga bogʻliq. Nutqning ma’lum bir qismida muallifning soʻz qoʻllash tafsilotlari koʻp jihatdan tegishli til xususiyatlaridan kelib chiqib belgilanadi. Shuning uchun, matn muhitidan tashqarida boʻlgan yoki soʻzning u yoki bu ma'nosini koʻrish uchun oʻylab topilgan har qanday ishni toʻliq deb hisoblash mumkin emas. J. Sinkler ta’kidlaganidek, “Lingvistikaning bir misoli sifatida foydalanish uchun siz hech qachon haqiqiy nutq faktlari bilan tasdiqlanmagan soʻzlarning ketma-ketligini tahlil uchun bermasligingiz kerak” [8]


Darhaqiqat, teglangan matn hech qachon oʻz-oʻzidan paydo boʻlib qolmaydi. Unga qoʻyiladigan bir qancha talablar bor. Y.A. Levitskiy oʻzining “Matn lingvistikasi” (2006) asarida matnlar uchun muhim boʻlgan 3 ta jihatni: pragmatiklik, psixolingvistik va sotsiolingvistik jihatlarini sanab oʻtgan. Bundan tashqari Z.Y. Toʻraeva turli jihatlarini koʻrib chiqadi:
Matn:

  • ontologik jihat – matnning mavjudligi tabiati, uning holati, ogʻzaki nutqdan farqi;

  • gnoseologik jihat – namoyon boʻlish xususiyati, ya’ni matndagi obyektiv voqelik va holatda badiiy matn - real dunyoni aks ettirishi;

  • lingvistik jihat – tilshunoslikning oʻziga xos xususiyatlaridan kelib chiqqan holda matnni formatlash;

  • psixologik jihat – matnni idrok etish xarakteri;

  • pragmatik jihat – matn muallifining munosabati obyektiv voqelik va mazmunlilik kabi xususiyatlarga ega boʻlishi kerak deb hisoblaydi. [20]

Matn morfologik hamda sintaktik tahlil qilingandan soʻng saytdan teglangan matnni .txt yoki .xml fayl koʻrinishda yuklab olishimiz mumkin. Teglangan matn koʻrinishini 4-rasmda koʻrishimiz mumkin.

4-rasm

4-rasm
Rasmdan koʻrinib turibdiki, faylda gaplar raqam bilan belgilangan. Avvalo gapning izohlanmagan koʻrinishi keltiriladi. Shundan soʻng matndagi joriy gapni izohlab chiqqan muallif nomi beriladi. Keyin asosiy qismga oʻtilib, morfologik (m:) hamda sintaktik (s:) teglangan gaplar beriladi.
Bugungi kunda morfologik hamda sintaktik teglar roʻyxati, umuman, barcha ma’nodagi teglar roʻyxati hamda teglangan korpusning mavjud boʻlishi til resurslarini yaratishning dastlabki qadam hisoblanadi. Hozirda deyarli barcha rivojlangan tillar oʻzlarining korpuslarini qisman yoki toʻliq teglab boʻldilar. Amaldagi barcha tillar oʻzining sintaksisi, morfologiyasi, fonetikasi bilan boshqalaridan farq qiladi. Lekin shu bilan birga ularning aksariyati qaysidir jihati bilan oʻzaro oʻxshash konstruktiv tuzilishga ega. Aynan shu narsa tilshunoslarga koʻp tilli resurslar va vositalarni yaratish imkonini beradi.
Oʻzbek tili doirasida shunga yuqorida aytib oʻtilgan [16] texnologiyaga oʻxshash holda oʻzbek tilining morfologik teglar roʻyxati ishlab chiqilgan. [21] Bu ishdagi kamchilik shundan iboratki, u oʻzbek tilidagi mavjud soʻz turkumlarining faqat ayrimlarini qamrab olgan va murakkab soʻzlarga ishora qiluvchi teglar yoʻq edi.
Bu ishda [19] esa oʻzbeek tili korpusiga teg qoʻyish masalasi koʻrib chiqildi. Mualliflar tomonidan 14 ta POS teg taklif qilingan, ya’ni har bir so‘z turkumi uchun deyarli bitta teg yaratiladi, lekin o‘zbek tilida har bir so‘z turkumi ma’no va tuzilish jihatidan bir necha turlarga bo‘linadi. Bizning yondashuvimizda biz ushbu muammolarni hisobga oldik va chuqurroq tahlil qilish uchun kengaytirilgan teglar toʻplamini yaratdik. Ushbu teglar bizga matnni semantik nuqtayi nazardan chuqur tahlil qilish imkonini beradi. Quyidagi manbada esa qoidaga asoslangan va statistik teglash usullarining oʻzbek tili uchun ahamiyati haqida soʻz boradi. [22]
Hozirgi oʻzbek tilshunosligida juda kam miqdorda NLP sohasida tadqiqotlar amalga oshirilgan. Ularning orasidan sentiment tahlili ma’lumotlar toʻplami [23,24], bir-biriga yaqin turkiy tillar oʻrtasidagi soʻz birikmalari [25], stop soʻzlar (matnda ma’no anglatmaydigan, olib tashlansa, matnning asosiy mazmuni oʻzgarmaydigan soʻzlar) haqidagi ma’lumotlar toʻplami [26], oʻzbek tilidagi fe’llar uchun stemmer algoritmi [27], oʻzbek tilidagi koʻpgina oʻrganilmagan soʻzlarni tahlil qilish uchun neyron asosidagi BERT nomli yangi til modeli [28] kabilarni sanab oʻtishimiz mumkin.
Oʻzbek tiliga qardosh tillar boʻyicha amalga oshirilgan ishlarga kelsak, qozoq tili boʻyicha ham [29] ish olib borilgan boʻlib, tegli korpus yaratish uchun bir qancha sintaktik va POS teglar ishlab chiqilgan. Ushbu ish mualliflari 36 ta morfologik hamda 9 ta sintaktik teg orqali 613 511 soʻzdan iborat izohli korpusni ishlab chiqdilar.


Yüklə 0,5 Mb.

Dostları ilə paylaş:
1   ...   18   19   20   21   22   23   24   25   26




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə