Oʻzbek tili uchun teglangan korpus yaratish”


I.1-§. Teglangan korpus haqida



Yüklə 0,5 Mb.
səhifə4/26
tarix05.04.2023
ölçüsü0,5 Mb.
#104313
1   2   3   4   5   6   7   8   9   ...   26
001 DISSERTATSIYA 2022 SOBIROV cop 21.06 (1)

I.1-§. Teglangan korpus haqida

Lingvistik annotatsiya yoki korpus teglanishi tushunchasi matnning muayyan bir qismi boʻlmagan, lekin u haqida ba’zi ma’lumotlarni oʻzida aks ettirgan qismning korpusda mavjudligini anglatadi. Ya’ni, soddaroq aytadigan boʻlsak, korpusda keladigan matnning har bir soʻzi yoki soʻz birikmasidan keyin matn mazmuni va strukturasini tushunishga yordam beradigan ma’lum belgilar qoʻyib ketilishidir. Quyida bitta soddaroq gap misolida koʻramiz:


Menga (olmosh) sariq (sifat) atirgullar (ot) yoqadi (fe’l).
Ushbu gapda biz 4 ta soʻzdan iborat gapning morfologik tahlil qilinishiga guvoh boʻldik. Xoʻsh, oʻzi morfologik tahlil nima? Soʻzlarni, soʻz birikmalarini, gaplarni tahlil qilish qanday amalga oshiriladi? Yana qanaqa tahlil turlari bor?
Oʻzbek tilida katta ahamiyat kasb etuvchi lingvistik tahlil koʻpchilikka tanish ilmiy istilohlardan biri hisoblanadi. Lingvistik tahlil – til, nutq birliklarini uni tashkil etuvchi qismlari, mazmuni, vazifasi va boshqa xususiyatlari nuqtayi nazaridan tadqiq etish, til birliklarining aniq holatini belgilash jarayonidir.
Tabiiy tillardagi matnlarning kompyuterli tahriri borasida keyingi paytlarda tilshunoslar tomonidan keng koʻlamli ishlar amalga oshirilmoqda. Diqqatga sazovor ilmiy izlanishlar, hattoki katta hajmdagi hujjatlar ham metematik modellar asosida tahrir qilinmoqda. Shu bilan bir qatorda qidiruv tarmogʻida ma’lumotlarni toʻgʻridan-toʻgʻri tahlil va tahrir qilishga erishilmoqda. [4]
Morfologik tahlilda soʻzning morfologik xususiyatlari, uning turkumi, kontekstual ma’nolari bilan bir qatorda orfografik xatolarni tekshirishni ham nazarda tutadi. Bunga erishish uchun bir qancha qadamlarni bosib oʻtish kerak boʻladi:

  • Tilning lugʻat tarkibini kompyuterga kiritish, ya’ni elektron lugʻatni joriy etish;

  • Lugʻatdagi adabiy tilga mansub soʻzlarni ajratib olish;

  • Hosil boʻlgan soʻzlarni va soʻz birikmalarini morfologik analiz qilib, soʻz turkumlariga ajratish;

Soʻzlarni turkum doirasida guruhlash (masalan, ot turkumidagi soʻzlarni shaxs otlari, narsa otlari, joy otlari kabi guruhlarga ajratish);
Guruhlangan soʻzlarga qoʻshimchalar kombinatsiyasini tuzish. Bunda qoʻshimchalar kombinatsiyasining amalda adabiy til doirasida foydalaniladigan qismi olinadi. Kombinatsiyalar qatorini tuzishda qoʻshimchalar ketma-ketligi e’tiborga olinadi. Masalan, ot soʻz turkumida koʻplik+egalik+kelishik kategoriyasi va hokazo. [5]
Teglangan korpusning yana bir maqsadlaridan biri lingvistik birliklarning tabiiy kontekstual muhitda ishlashini koʻrsatish hisoblanadi. Ushbu turdagi korpusga asoslanib, biz quyidagi ma’lumotlarni olishimiz mumkin:
- soʻz shakllari, leksemalar, turli grammatik kategoriyalarning chastotasi haqida;
- chastota oʻzgarishlari haqida;
- turli davrlar mobaynida kontekstda sodir boʻlgan oʻzgarishlar va ularning tavsifi haqida;
- turli davrlarga oid muallif asarlaridagi til birliklarining oʻzgarishi haqida;
- leksik birliklarning birgalikda yoki alohida kelgan holatlari, ularning xususiyatlari haqida;
Amaliy tilshunoslikda matnlarning teglanishi (belgilanishi) shunday talqin qilinadi: matnlarning muayyan konsepsiyasidan kelib chiqqan holda unga qoʻshimcha lingvistik ma’lumot berib ketilishidir. Paydo boʻlgan tuzilma keyinchalik maxsus algoritm bilan biriktirilsa, teglanmagan matnlarni avtomatik belgilashi mumkin. Eng muhimi, bu ishlarning hammasi tegishli standart asosida ma’lumotlarni qayta ishlash va tahlil qilishda qoʻl keladi. [6]
Teglangan korpusda unga kiritilgan matn xususiyatlaridan iborat maxsus qoʻshimcha ma’lumotlar - teglar mavjud boʻladi (belgi yoki izoh deb ham yuritiladi). Belgilash ishning asosiy xarakterli jihati hisoblanadi hamda uni oddiy toʻplam yoki kutubxonalardan ajratib turadi. Shuni utumaslik kerakki, teglangan korpus milliy elektron kutubxonadan farqli oʻlaroq, tilni oʻrganish uchun qiziqarli va foydali boʻlgan matnlar toʻplamidir. Bunday tuzilma tilni tadqiq qilish uchun juda mos keladi. [7]
Birinchi marta elektron korpuslar 1960-yillarning boshlarida paydo boʻldi. Birinchi elektron korpus - “Broun corpus” (The Brown corpus) deb nomlangan. 1961-yildan to 1964-yilgacha korpusni yaratish ustida G. Kuchera va N. Frensis kabi bir guruh olimlar ishladilar [8]. “Brown Corpus” yozma ingliz tili korpusi hisoblanib, faqat 1961-yilda nashr etilgan 500 tacha matndan bir million soʻzni oʻz ichiga olgan. Korpusda yozma ingliz tilining 15 ga yaqin janri mavjud: turli gazeta maqolalari, ilmiy ishlar, yangiliklar, sevimli mashgʻulotlarga oid kitoblar, diniy manbalar, biografiya, insholar, badiiy adabiyotlar va hokazo. “Brown korpus” idagi matn olingan manba, uning nomi, shuningdek matndagi satrlar soni boʻyicha ma’lumotlar perfokartalarga yozib chiqilgan.
Bu korpus turli hisoblash tahlillaridan oʻtkazilgan, ularda tilshunoslik, psixologiya, statistika, sotsiologiyaning elementlarini birlashtirilgan boy korpus hisoblanadi.
Korpus tuzilgandan soʻng birin-ketin unga asoslangan lugʻatlar paydo boʻla boshladi. Korpus e’lon qilinganidan koʻp oʻtmay Boston nashriyoti oʻzining “Amerika merosi” deb nomlangan lugʻati uchun million soʻzli lugʻat bazasini taqdim etish uchun mualliflarga murojaat qildi. 1969-yilda nashr qilingan ushbu lugʻat yangi soʻzlar aniqlanadigan, chastotali, korpus lingvistikasidan foydalaniladigan dastlabki lugʻat boʻldi.
Teglangan Broun korpusi (The tagged Brown corpus) nutqning 80 ga yaqin qismidan tuzilgan. U, shuningdek, birikma shakllari, oʻzlashma soʻzlar va bir qancha til xususiyatlarini oʻzida mujassamlashtirgan korpus hisoblanib, oʻzidan keying Lankaster-Oslo-Bergen korpusi kabi koʻplab keying korpuslar uchun namuna boʻlgan. Ushbu korpus birmuncha qiyin boʻlgan statistik analizlarni amalga oshirishga imkon berdi. Ushbu loyiha Endryu Makki tomonidan dasturlashtirilgan hamda ingliz tilidagi hujjatlarni ham tahlil qilishga imkon yaratdi. [9]

Broun korpusini qayta koʻrib chiqish 1971-yilda amalga oshirilgan boʻlib, unda, asosan, xatolarni tuzatishga urgʻu qaratildi. Bunda yeti yil davomida ijtimoiy muomalada boʻlib turgan matnlar asos qilib olindi. Broun korpusining hozirgi tahriri yanada keng imkoniyatlarni oʻz ichiga oladi. Navbatdagi tahrir 1979-yilda Broun universitetida amalga oshirilgan boʻlib, tuzatish sifatida korpusning izohlab chiqilishi (teglanishi) nazarda tutiladi. Tuzatishning ikkita bosqichida ikkita yirik muammoga yechim topildi: bir qancha nusxalangan matnlar orasidan original matnlar ajratib olindi, qolgani oʻchirib tashlandi; yuzdan ortiq sahifadan iborat matnlarda tipografik xatolar tuzatib chiqilgan.


Ushbu korpusdagi matn namunalaridan shuni bilishimiz mumkinki, mazkur korpus nasrning keng koʻlamli uslublarini va turlarini oʻz ichiga olgan. Badiiy adabiyotlar qabul qilindi, ammo ularning ichidan 50% dialoglar chiqarib tashlandi. Korpusga beriladigan “standart” ta’rifi korpusning “standart ingliz tilida” ekanligini anglatmaydi, shunchaki uni korpusdagi bir xil hajmdagi ma’lumotlar toʻplamidan qiyosiy tadqiqotlar uchun foydalanish deb tushunsak boʻladi.
Matnlarni tayyorlash va ularni kompyuterga kiritish ushbu jarayondagi eng nozik va e’tibortalab holat hisoblanadi. Maqsad esa standart formatdagi aniq hajmda ma’lum kategoriyadagi matnlar toʻplamini taqdim qilish edi. Korpus ingliz yoki boshqa tillarda keying ishlarda matnlar toʻplamini tayyorlash va taqdim qilish uchun standart vazifasini bajarishi mumkin. Matnlarni tanlash 2 bosqichda boʻladi: dastlab matnlarni subyektiv qarash bilan guruhlarga ajratish va har bir guruhdan nechtadan soʻz tanlab olinishini aniqlash. Keying bosqichda har bir kategoriyadan oʻsha miqdorda tasodifiy matnlarni olish. [10]
Qilingan ish hajmi boʻyicha qaraydigan boʻlsak, Britaniya milliy korpusi (BNC) ham namuna boʻlishga arziydi. BNC ni yaratishda uchta nashriyot faollik koʻrsatib, hamkorlikda ishlashgan. Bular: Oxford University Press (bosh hamkor), Oxford University hamda Lancastern University. Ushbu korpusni yaratish 1991-yildan 1994-yilgacha davom etgan. Shu yildan keyin unga yangi namunalar qoʻshilmagan, ammo keyinchalik uch marta nashr qilinishi oldidan tuzatish kiritilgan.

Yüklə 0,5 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   26




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə