1-mustaqil ta’lim Veb-sahifalardan foydalanib, korpus taksonomiyasini yaratish



Yüklə 37,98 Kb.
səhifə1/10
tarix29.11.2023
ölçüsü37,98 Kb.
#139775
  1   2   3   4   5   6   7   8   9   10
1-10 kom


1-mustaqil ta’lim
Veb-sahifalardan foydalanib, korpus taksonomiyasini yaratish.
Kompyuter leksikografiyasini elektron matnlar korpusi yoki parallel matnlar korpuslarisiz tazavvur qilish mumkin emas. Matnlar korpusi (corpus – lotincha “tana” degan ma’noni anglatadi) bu – elektron holda saqlanadigan ma’lum til birliklari bo’lib, ular tilshunoslar uchun turli xil muammolarni hal etish uchun tatbiq etishda va turli yo’nalishdagi tadqiqotlar uchun zaruriyatga qarab turli shakllarda tuziladi. Bular fonema, grafema, morfemalardan tortib undan kattaroq birliklar leksema, gap va matnlardan (badiiy yoki ilmiy asar, gazeta va jurnal matnlari) tashkil topishi mumkin. Ularning qay tarzda saqlanishiga qarab maxsus dasturlar yordamida har bir kerakli so’z yoki so’z birikmasi uchun darhol uning qo’llanishi bo’yicha misollar topilishi, imlo bo’yicha variantlari, sinonimik qatorlari topilishi mumkin. Matnlar korpuspusiga oid ilmiy tadqiqotlar salmog’ining ko’payishi natijasida tilshunoslikda korpus lingvistikasi yo’nalishi shakllandi.
Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi (БК, inglizcha Brown Corpus, BC) hisoblanadi, u 1961 yilda Braun universitetida yaratilgan, har biri 2000 so’zli 500 ta matn fragmentini o’z ichiga oladi. 1970-yillarda 1 million so’zni o’z ichiga olgan matnlar korpusi asosida rus tilining chastotali lug’ati yaratildi. 1980 yillarda Shvetsiyaning Uppsala universitetida ham rus tilida matnlar korpusi yaratildi. Keyinchalik kompyuter leksikografiyasining rivojlanishi natijasida katta hajmli matnlar korpusiga ehtiyoj tug’ildi. Ya’ni 1 millionta so’z elektron lug’atlar bazasi uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi yaratila boshlandi. Ko’pgina mamlakatlarda XX asrning 80-yillaridan boshlab bunday korpuslar tuzila boshlandi. Ular turli maqsad va vazifalarga xizmat qiladi. Buyuk Britaniyada Ingliz tili Banki (Bank of English) hamda Britaniya Milliy Korpusi (British National Corpus, BNC), Rossiyada Rus tilining mashina fondi (Машинный фонд русского языка) hamda Rus tilining Milliy Korpusi (Национальный корпус русского языка) loyihalari ishlab chiqildi.1 Masalan, Rus tilining Milliy Korpusi hajmi hozirgi kunda 149 million so’zdan iborat. Keyingi yillarda internet tizimining rivojlanishi virtual matnlar korpusining yuzaga kelishiga olib keldi. Ya’ni internetdagi qidiriv saytlari, elektron kutubxonalar, virtual ensiklopedialar korpus vazifasini bajarmoqda. Korpusning janri va tematik rang-barangligi internetdan foydalanuvchining qiziqishlariga bog’liq. Masalan, ilm-fan doirasida Wikipedia katta hajmdagi matnlar korpusi sifatida foydalanilmoqda.
Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat kasb etadi. Parallel matnlar korpusi esa o’z navbatida badiiy asar, qo’llanma, ommaviy axborot vositasi nashrlari, turli xil hujjatlarning ikki yoki undan ko’p tillardagi elektron holdagi ko’rinishlaridir. Masalan, Yevropa Ittifoqi o’zining barcha qonun va hujjatlarini ingliz, fransuz, nemis, ispan va italyan tillarida nashr qiladi hamda ular internet tizimiga barchaga ochiq arxiv sifatida qo’yiladi. Bunday korpuslarning afzalligi shundaki, ular yordamida nafaqat biron bir so’z yoki jumlaning, balki butun boshli matnlarning turli tillardagi variantlarini bilish imkoniyati mavjud. Xuddi mana shu imkoniyat tufayli maxsus konkordanser dasturlar ishlab chiqish orqali turli xil ixtisoslik lug’atlari tuzish imkoniyati tug’iladi. Ushbu imkoniyatlar kompyuter leksikografiyasi uchun ulkan ahamiyat kasb etadi.

Yüklə 37,98 Kb.

Dostları ilə paylaş:
  1   2   3   4   5   6   7   8   9   10




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə