Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“KOMPYUTER LINGVISTIKASI:
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2022)
http://compling.navoiy-uni.uz/
86
algoritmlaridan biri, berilgan matnni tokenlarga bo‘lib tashlashdan iborat. Algoritm
kirishiga matn berilib, chiqishida matndagi tokenlar ro‘yxati olinadi. Bu algoritmni
amalga oshiruvchi dasturni tokenayzer deb atashadi. Odatda, tokenlar so‘z shakllari
bilan bir xil ma’noni beradi. Lekin, leksik birliklarni ifodalash uchun “so‘z” emas,
balki “token” termini ishlatiladi. Bunga sabab, ba’zi hollarda token sifatida so‘zdan
kichikroq birliklar (alohida morfema) yoki so‘zdan kattaroq birliklar (so‘z
birikmalari) ishlatilishi mumkin.
Tokenayzer matnni, dastlab, so‘zlar orasidagi probellar (bo‘shliq belgilari)
asosida bo‘laklaydi, so‘ngra so‘zlardan tinish belgilari olib tashlanadi. Qisqartmalar
(masalan, TATU, BMT, MDH, h.k.) va sana yozuvi (masalan, 09.04.2018) ham
token sifatida olinadi [3].
Tokenayzer ishining natijalari quyidagicha bo‘ladi:
1-jadval
№
Berilgan matn
Tokenlar
ro‘yhati
1
O‘zbekiston Respublikasi 02.03.1992
kuni BMT ga a’zo bo‘lgan
O‘zbekiston
Respublikasi
02.03.1992
kuni
BMT
a’zo
bo‘lgan
2
TATU Samarqand filiali 2005 yilda o‘z
faoliyatini boshladi
TATU
Samarqand
filiali
2005
yilda
o‘z
faoliyatini
boshladi
Leksik dekompozisiya matnning avtomatik
tahlili uchun fundamental
ahamiyatga ega, chunki bu bir qator boshqa algoritmlar
uchun asos vazifasini
bajaradi.