Kompyuter lingvistikasi: muammolar, yechim, istiqbollar



Yüklə 0,75 Mb.
Pdf görüntüsü
səhifə4/6
tarix20.06.2023
ölçüsü0,75 Mb.
#118192
1   2   3   4   5   6
qarshiyev-a.b.-karimov-s.a.-tursunov-m.s.-ozbek-tili-milliy-korpusining-dasturiy-taminot-strukturasi-va-vazifalari (1)

Matnni tokenlash 
Matnni avtomatik qayta ishlashda, birinchi navbatda, undagi so‘zlarni ajratib 
olish, yoki boshqacha aytganda, matnni birliklarga bo‘laklash masalasi yuzaga 
keladi. Buning uchun ajratuvchi belgilarni (probel, tinish belgilari va h.k.) o‘z ichiga 
olmagan hamma qismiy satrlar matndan ajratilib olinishi lozim. Bu esa tokenlar 
to‘plami bo‘ladi [2]. Matnlarni avtomatik qayta ishlashning fundamental 


Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya 
Vol. 1 
 
№. 01 (2022)
 
http://compling.navoiy-uni.uz/
 
86 
algoritmlaridan biri, berilgan matnni tokenlarga bo‘lib tashlashdan iborat. Algoritm 
kirishiga matn berilib, chiqishida matndagi tokenlar ro‘yxati olinadi. Bu algoritmni 
amalga oshiruvchi dasturni tokenayzer deb atashadi. Odatda, tokenlar so‘z shakllari 
bilan bir xil ma’noni beradi. Lekin, leksik birliklarni ifodalash uchun “so‘z” emas, 
balki “token” termini ishlatiladi. Bunga sabab, ba’zi hollarda token sifatida so‘zdan 
kichikroq birliklar (alohida morfema) yoki so‘zdan kattaroq birliklar (so‘z 
birikmalari) ishlatilishi mumkin. 
Tokenayzer matnni, dastlab, so‘zlar orasidagi probellar (bo‘shliq belgilari) 
asosida bo‘laklaydi, so‘ngra so‘zlardan tinish belgilari olib tashlanadi. Qisqartmalar 
(masalan, TATU, BMT, MDH, h.k.) va sana yozuvi (masalan, 09.04.2018) ham 
token sifatida olinadi [3]. 
Tokenayzer ishining natijalari quyidagicha bo‘ladi: 
1-jadval
№ 
Berilgan matn 
Tokenlar 
ro‘yhati 

O‘zbekiston Respublikasi 02.03.1992 
kuni BMT ga a’zo bo‘lgan
O‘zbekiston 
Respublikasi 
02.03.1992 
kuni 
BMT 
a’zo
bo‘lgan

TATU Samarqand filiali 2005 yilda o‘z 
faoliyatini boshladi
TATU 
Samarqand 
filiali 
2005 
yilda 
o‘z 
faoliyatini 
boshladi
Leksik dekompozisiya matnning avtomatik tahlili uchun fundamental 
ahamiyatga ega, chunki bu bir qator boshqa algoritmlar uchun asos vazifasini 
bajaradi. 



Yüklə 0,75 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə