|
Kompyuter lingvistikasi: muammolar, yechim, istiqbollarAlisher Navoiy nomidagi Toshkentqarshiyev-a.b.-karimov-s.a.-tursunov-m.s.-ozbek-tili-milliy-korpusining-dasturiy-taminot-strukturasi-va-vazifalari (1)Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“KOMPYUTER LINGVISTIKASI:
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2022)
http://compling.navoiy-uni.uz/
85
Dastur ushbu ma’lumotlarni foydalanuvchi tomonidan kiritilishini
ta’minlaydi va ularni
MeteRazm
faylga yozib qo‘yadi. So‘ngra kiritilgan
metarazmetka ma’lumotlar asosida maxsus yagona ism shakllantiriladi va matn
saqlanib turgan
*.docs
fayl shu ism bilan
Matn_Baza
papkaga ko‘chirib yoziladi.
Korpus lug‘atini shakllantirish va tahrirlash
Matnni grammatik (morfologik) razmetklash uchun tilning grammatik lug‘ati
asos vazifasini bajarishi kerak. Masalan, rus tili milliy korpusi uchun
A.A.Zaliznyakning rus tili grammatik lug‘ati [1] asos vazifasini bajaradi. Bu lug‘at
elektron shaklga o‘tkazilib, ruscha so‘zlarni razmetkalashda ishlatiladi. Lekin
o‘zbek tili uchun bunday lug‘at mavjud emas. Shuning uchun o‘zbekcha so‘zlarning
grammatik elektron lug‘atini shakllantirish zaruriyati yuzaga keladi.
Grammatik lug‘at yaratish uchun
Gram_Lugat
nomli dastur tuzilgan. Lug‘at
korpusning matnlar bazasiga kiritilgan matnlar asosida shakllanadi.
Gram_Lugat
dastur korpusning
Matn_Baza
matnlar bazasidagi har bir faylni navbat bilan
ishlovdan o‘tkazadi. Har bir fayl uchun
Gram_Lugat
dastur quyidagi ishlarni amalga
oshiradi:
•
matnni tokenlash;
•
matndagi so‘zlarning turli ro‘yxatlarini (alfavit-chastotali tartibdagi,
chastota-alfavit tartibdagi va ters ro‘yxat) tuzish;
•
so‘zlarni grammatik lug‘atga kiritish;
•
grammatik lug‘atni varaqlab ko‘rish va tahrirlash.
Dostları ilə paylaş: |
|
|