1-mustaqil ta’lim Veb-sahifalardan foydalanib, korpus taksonomiyasini yaratish



Yüklə 37,98 Kb.
səhifə2/10
tarix29.11.2023
ölçüsü37,98 Kb.
#139775
1   2   3   4   5   6   7   8   9   10
1-10 kom

2-mustaqil ta’lim
Rasmiy matnlar korpusini yaratish
Korpus” lotincha “tana” degan ma`noni bildiradi. Korpus lingvistikasining maqsadi til o`rganishda empirik yondashuv negzidagi korpus lingvistikasi bilan bir qatorda korpus texnologiyalari asoslari bilan ham tanishtirishdan iborat. Bundan tashqari, tabiiy tilning sun`iylashtirilgan, ya`ni elektronlashtirilgan varianti, til bazasi hisoblanadi.
Korpus lingvistikasining vazifalari:
- korpus tizimining nazariyasini ishlab chiqish, uni asoslash;
- turli xil korpuslarni yaratib ulardan atroflicha foydalanish ko`nikmalarini tahlil qilish;
- nafaqat tilshunoslik, balki boshqa sohalarda ham korpus imkoniyatlaridan samarali foydalanish tajribalarini shakllantirish
Korpus yagona til yoki bir qancha tildagi matnli ma`lumotlardan iborat bo`lishi mumkin. Odatda, korpus deyilganda, matnli korpus tushunchasi anglanadi, ammo bugungi kunda korpuslar faqatgina matnlardan iborat emas. Shu sababli korpus o`rnida matnli korpus so`zini ham ishlatamiz. Tilga oid tadqiqotlarni olib b orishda yanada samaraga erishish uchun korpuslar annotatsiyalanadi. Misol uchun, korpusni annotatsiyalashning bir turi bu so`zlarni teglash hisoblanadi. (Pos-tagging). Ya`ni bunda so`zning turkumi va shu turkum kategoriyalari asosida teglab chiqish nazarda tutiladi. Yanada aniqroq qilib aytadigan bo`lsak, “osmonlarga” so`zi quyidagi ma`nolarni tashiydi: ot, ko`plik, jo`nalish kelishigi. Aynan mana shu ma`lumotlar teglar orqali so`zga biriktirib chiqiladi. Annotatsiyaning yan bir ko`rinishi lemmatizatsiya, ya`ni o`zaklash bo`lib, u so`zning tayanch shaklini ko`rsatib berish hisoblanadi. Masalan, osmonlar, osmonning, osmonga so`zi uchta shaklda turibdi, lekin ularning asosi bir xil- kitob. Shu jarayon lemmatizatsiya deb ataladi. Shu yerda o`zak hamda asos tushunchalarini almashtirib yubormaslik kerak. Zero, “bostirma” so`zi bostri+ma shaklida yasalagan, ammo bu so`zni o`zaklashda bostir so`zini lemma deb qaray olmaymiz, bostirma yagona so`z hisoblanadi. Agarki, bostirmada, bostirmaga, bostirmaning so`zlarini o`zaklash kerak bo`lsa, unda bostirma so`zini olishimiz to`g`ri bo`ladi. Tushunarli qilib aytganda, lemma-so`zning shakl yasovchi qo`shimchalari tushirib qoldirilgan qismi hisoblanadi.
Korpus lingvistikasi korpuslarni tuzish hamda ular negzida til tadqiqotlarini amalga oshirish, lisoniy tizimlarni lingvistik yo`nalishlar: leksikogafik tadqiqotlar, tilning lug`at qatlami tavsifi, turli so`zlarning qo`llanish nisbati, tildagi, struktur, semantik, leksik o`zgarishlar, tabbiy tillar grammatikasining o`rganilishi, til tizimi mohiyati va uning qo`llanish tavfsifi bilan shug`ullanadi. Xususan, o`zbek tilshunosligida bu soha XX asrning boshlarida nazariy tadqiqotlar bilan boshlandi. Shu o`rinda aytish mumkinki, 2021- yilda O`zbek tilining ta`limiy korpusi yaratildi. O`zbek tilining ta`limiy korpusi hali to`liq shakllanmagan. Zero, korpus birdaniga paydo qilinadigan tizim emas. Uning shakllanishi, rivojlanishi va kengayishi uchun vaqtlar va lingvistik izlanishlar zarur bo`ladi. O`zbek tilshunosligida korpus lingvistikasi hali dastlabki nazariyalar ishlab chiqilgan, amaliyoti endigina yo`lga qo`yilgan yosh soha hisoblanadi. Matnlar ustida ishlash va ularning elektron shakllari ko`plab ta`limiy va ilmiy jarayonda asosiy manba bo`lishi haqida A. Po`latov o`z qarashlarini berib o`tgan.
So`ngi yillarda bu borada B.Mengliyev, Sh.Xamroyeva, N.Abdurahmonova, M.Abjalova, A.Eshmo`minov, O`.Xoliyorov, G.Toirova. D. O`rinboyeva, G. Begmatova, B. Elov, A. Raxmonovalar izlanishlarini keltirish mumkin.


Yüklə 37,98 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   10




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə