Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“KOMPYUTER LINGVISTIKASI:
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2022)
http://compling.navoiy-uni.uz/
84
Matnlarni raqamlashtirish vositalarini ularning dastlabki holati qaysi manbada
(qog‘oz,
*.pdf
formatdagi fayl) ekanligidan bog‘liq holda tanlaymiz.
Qog‘oz manbadagi matnni raqamlashtirish
uchun dastlab uni skanerlab
olamiz. Bunda skanerlash apparati va skanerlash dasturlari ishlatiladi. Hosil bo‘lgan
elektron matn
MS Word
dasturi yordamida
*.docx
formatga o‘giriladi, so‘ngra
asosiy
manba bilan solishtirib, sinchiklab tekshiriladi, xatolar to‘g‘rilanadi va
saqlanadi.
Matn
*.pdf
formatdagi faylda berilgan bo‘lsa, u dasturiy vositalar yordamida
*.docx formatga o‘tkaziladi. So‘ngra
asosiy manba bilan solishtirib, sinchiklab
tekshiriladi, xatolar to‘g‘rilanadi va saqlanadi.
Matnlar bazasini yaratishga doir ishning keyingi bosqichlarini
Dast_MtnBaza
nomli dastur amalga oshiradi. Bu dastur saqlangan
fayllar asosida korpusning
matnlar bazasini shakllantiradi. Matnlar bazasi kompyuter xotirasidagi bitta
Matn_Baza
nomli
papka va bitta
MeteRazm
nomli metarazmetka ma’lumotlari
faylidan iborat bo‘ladi.
Matn_Baza
papkada korpus tarkibiga kiritishga qaror
qilingan matnlarni o‘z
ichiga oluvchi
*.docs
fayllar saqlanadi.
MeteRazm
faylda
Matn_Baza
papkaga kiritilgan har bir faylda mavjud matn haqida metarazmetka
ma’lumotlari saqlanadi. Metarazmetka ma’lumotlari matn bo‘yicha
umumiy
ma’lumotlardan iborat bo‘lib, quyidagilarni o‘z ichiga oladi:
•
matn nomi;
•
matn muallifiga oid ma’lumotlar: ismu-sharifi, jinsi, tug‘ilgan sana va
yili va h.k.;
•
matn yozilgan vaqt;
•
tematika va matn turi;
•
janr;
•
matn hajmi (so‘zlarda).