III.2-§. Teglangan korpusning statistikasi
Shu zaylda bizning ishimizda gaplar ketma-ketlikda izohlab chiqiladi. Shu oʻrinda nazardan qochirmaslik kerak boʻlgan bir jihat bor. Korpus tuzish qoidasiga koʻra, matnlar turli kategoriyalarga mansub boʻlishi hamda barcha kategoriyalarga tegishli gaplar miqdori bir-birga juda yaqin (hatto teng) boʻlishi talab qilinadi. Ushbu ishda kategoriyalar va ularga tegishli izohlangan gaplar soni quyidagi 11-jadvalda keltirilgan.
№
|
Kategoriya nomlari
|
Teglangan gaplar soni
|
Teglangan soʻzlar soni
|
1
|
Iqtisod
|
65
|
498
|
2
|
Sport
|
71
|
381
|
3
|
Diniy
|
73
|
389
|
4
|
Falsafiy
|
68
|
464
|
5
|
Ekologiya
|
69
|
455
|
6
|
Badiiy adabiyot
|
85
|
408
|
7
|
Ijtimoiy
|
75
|
448
|
8
|
Tibbiyot
|
76
|
420
|
9
|
Texnologiya
|
77
|
428
|
10
|
Yangiliklar
|
74
|
441
|
11
|
Qonun
|
63
|
490
|
12
|
Turli mavzudagi hikoyalar
|
80
|
540
|
13
|
Siyosat
|
76
|
421
|
14
|
Agrar soha
|
51
|
295
|
JAMI
|
1003
|
6078
|
11-jadval
Albatta, tahlil qilingan soʻzlar va gaplar soni oddiy korpusnikidan ancha kam. Buning sababi shundaki, bu ish faqat korpus uchun matn toʻplashdangina iborat emas. Toʻplangan matnlar morfologik hamda sintaktik tahlil qilinishini hisobga olinsa, bu ishga juda koʻp insonlar oʻzlarining koʻp vaqtlarini ajratishlariga toʻgʻri keladi. Bundan tashqari, izohlash jarayonini faqat oʻzbek tili grammatikasidan yuqori bilimga ega mutaxassislargina amalga oshira oladilar.
Endi esa teglash algoritmlaridan ayrimlarini keltirib oʻtamiz. Quyidagi 5-rasmda ot soʻz turkumini teglash algoritmi keltirilgan:
5-rasm
6-rasmda esa sifat soʻz turkumining teglash algoritmi keltirilgan:
7-rasmda esa son soʻz turkumining algoritm chizmasi keltirilgan:
7-rasm
8-rasmda olmosh soʻz turkumining teglanish algoritmini keltirilgan:
8-rasm
Korpus tilshunosligida soʻz turkumlarini teglash, grammatik teglash yoki soʻz turkumlariga ajratish deb ham ataladi, bu matn (korpus) dagi soʻzni nutqning a’lum bir qismiga mos keladigan tarzda belgilash, uning ta’rifi va kontekstidan kelib chiqqan holda, ya’ni oʻzidan oldin va keyin kelgan va oʻzaro bog‘liq ibora, jumla yoki paragrafdagi soʻzlardir.
Soʻz turkumlarini teglash shunchaki soʻzlarni soʻz turkumlariga solishtirishdan koʻra ancha murakkabroq. Chunki soʻz turkumlarini teglash oson narsa emas. Bitta soʻz uchun turli xil kontekst asosida turli xil jumlalarda turli soʻz turkumi vazifasida boʻlishi mumkin. [30]
Dostları ilə paylaş: |