Kompyuter lingvistikasi: muammolar, yechim, istiqbollar


Alisher Navoiy nomidagi Toshkent



Yüklə 0,75 Mb.
Pdf görüntüsü
səhifə2/6
tarix20.06.2023
ölçüsü0,75 Mb.
#118192
1   2   3   4   5   6
qarshiyev-a.b.-karimov-s.a.-tursunov-m.s.-ozbek-tili-milliy-korpusining-dasturiy-taminot-strukturasi-va-vazifalari (1)

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya 
Vol. 1 
 
№. 01 (2022)
 
http://compling.navoiy-uni.uz/
 
83 
1-rasm. Dasturiy ta’minot tarkibi 
Korpusni yaratishga mo‘ljallangan dasturlar 
Korpusni yaratishga mo‘ljallangan dasturlar matnlar bazasini shakllantirish, 
korpus lug‘atini shakllantirish va tahrirlash, matnlarni razmetkalash kabi vazifalarni 
bajarashi kerak (
2-rasm
).
2-rasm. Korpus yaratish dasturlari tarkibiy qismlari 
Matnlar bazasini shakllantirish dasturlari 
Matnlar bazasini shakllantirishda quyidagi ishlar bajarilishi zarur: 

matnlarni raqamlashtirish, ularni tahrirlash;

matn bo‘yicha ma’lumotlarni faylga yozish; 

matnni bazaga kiritish. 
Корпусни 
яратишга 
мўлжалланган 
дастурлар
Корпусдан 
фойдаланишга 
хизмат қиладиган 
дастурлар
Дастурий таъминот
Матнлар 
базасини 
шакллантириш
Корпус яратиш дастурлари
Корпус 
луғатини 
шакллантириш 
ва таҳрирлаш
Матнларни 
разметкалаш


Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Xalqaro ilmiy-amaliy konferensiya 
Vol. 1 
 
№. 01 (2022)
 
http://compling.navoiy-uni.uz/
 
84 
Matnlarni raqamlashtirish vositalarini ularning dastlabki holati qaysi manbada 
(qog‘oz, 
*.pdf 
formatdagi fayl) ekanligidan bog‘liq holda tanlaymiz.
Qog‘oz manbadagi matnni raqamlashtirish uchun dastlab uni skanerlab 
olamiz. Bunda skanerlash apparati va skanerlash dasturlari ishlatiladi. Hosil bo‘lgan 
elektron matn 
MS Word 
dasturi yordamida 
*.docx
formatga o‘giriladi, so‘ngra 
asosiy manba bilan solishtirib, sinchiklab tekshiriladi, xatolar to‘g‘rilanadi va 
saqlanadi.
Matn 
*.pdf 
formatdagi faylda berilgan bo‘lsa, u dasturiy vositalar yordamida 
*.docx formatga o‘tkaziladi. So‘ngra asosiy manba bilan solishtirib, sinchiklab 
tekshiriladi, xatolar to‘g‘rilanadi va saqlanadi. 
Matnlar bazasini yaratishga doir ishning keyingi bosqichlarini
Dast_MtnBaza 
nomli dastur amalga oshiradi. Bu dastur saqlangan fayllar asosida korpusning 
matnlar bazasini shakllantiradi. Matnlar bazasi kompyuter xotirasidagi bitta
Matn_Baza
nomli papka va bitta 
MeteRazm
nomli metarazmetka ma’lumotlari 
faylidan iborat bo‘ladi. 
Matn_Baza
papkada korpus tarkibiga kiritishga qaror 
qilingan matnlarni o‘z ichiga oluvchi 
*.docs 
fayllar saqlanadi. 
MeteRazm
faylda 
Matn_Baza
papkaga kiritilgan har bir faylda mavjud matn haqida metarazmetka 
ma’lumotlari saqlanadi. Metarazmetka ma’lumotlari matn bo‘yicha umumiy 
ma’lumotlardan iborat bo‘lib, quyidagilarni o‘z ichiga oladi: 

matn nomi; 

matn muallifiga oid ma’lumotlar: ismu-sharifi, jinsi, tug‘ilgan sana va 
yili va h.k.; 

matn yozilgan vaqt; 

tematika va matn turi; 

janr; 

matn hajmi (so‘zlarda). 



Yüklə 0,75 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə