Пиотровский Р.Г.
Информационное измерение печатного текста // Энтропия языка и
статистика речи. –Минск, 1966. -С.5-86.
P.Aleksandrovlar 1911-yilda Qozon shahrida fransuz va nemis
tillarining
tovush
tarkibini
statistik jihatdan o‘rganishga
bag‘ishlangan maqolalarini e’lon qilgan edilar. Bu maqolalarda
har bir mingta tovush oqimida fransuz va nemis tillaridagi
unli
hamda undosh tovushlarning qo‘llanilish darajasi aniqlab
chiqilgan edi. V .A.Bogoroditskiy,
A.M.Peshkovskiy,
A.Bulaxovskiy kabi olimlar 20-30-yillarda, rus tilidagi ilmiy va
badiiy matnlarda unli hamda undosh tovushlarning qo‘llanilish
darajasini aniqlashga oid ishlarni amalga oshirdilar. Masalan,
A.M.Peshkovskiy
rus
tili
og‘zaki
matnida
qo‘llangan unli va ayrim undosh tovushlarning ohangdorligini
I.I.Turgenevning «Sadaqa» hikoyasi matnidagi ohangdorlik
bilan qiyoslagan edi. Uning ta’kidlashicha, I.I.Turgenev
hikoyasi matnidagi ohangdorlik og‘zaki matndan ancha yuqori.
Chunki hikoya matnida shovqinli undoshlarga nisbatan jarangli va
sonor undoshlar ancha ko‘p qo‘llangan. Agar V.Y.Bunyakovskiy
tilshunoslikda statistik metodlardan foydalanish lozimligini ilk
bor ta’kidlagan bo‘lsa, yana bir mashhur matematik olim
A.A.Markov 191Z yilda birinchi bo‘lib til materialiga statistik
metodni sof matematik nuqtayi nazardan qo‘lladi. U «Yevgeniy
Onegin» she’riy romani 1 - va 2-boblarining har biridan o‘n olti
satrni hisoblab, ular miqdorini 20.000 harfga yetkazdi. Ana shu
harflar zanjiri tarkibida qaysi undosh yoki unli tovush yonma-yon
kelish ehtimollik darajasini aniqladi. Keyinchalik u ishlab chiqqan
metod
Markov zanjiri
deb yuritiladigan bo‘ldi.
N.A.Morozov 1915-yilda badiiy asarning haqiqiy muallifi va
ko‘chirmachi
(plagiat)ni
farqlash
maqsadida
matnni
o‘rganishning statistik metodidan foydalandi. Bu ishni u
«Lingvistik
spektr»
deb nomlaydi. Muallif u yoki bu yozuvchi asarlari matnida
yordamchi so‘zlarning qo‘llanish chastotasini grafiklarda aks
ettiradi, bu grafiklarni o‘zaro qiyoslab, har qanday matnning
kimyoviy (morfologik) tarkibini, uning haqiqiy muallifini
aniqlash mumkin. Bu usulni N.A.Morozov
«stilemetrik etyud»
deb
nomlagan edi. Olim N.Karamzin, A.S.Pushkin, N.Zagoskin,
N.V.Gogol, L.N.Tolstoy, I.I.Turgenev asarlarining birinchi 1000
so‘zi
tarkibida
yordamchi
so‘zlar
miqdorini
aniqlaydi.
N.A.Morozov
tadqiqotlaridan
shu
narsa
ma’lum bo‘ladiki,
yozuvchilarning
asarlarida
(badiiy
matnlarda)
eng
ko‘p
qo‘llanadigan, chastotasi yuqori bo‘lgan yordamchi
so‘zlar
в, на, с
predloglaridir.
1929-yilda
Krasnodar
shahrida
V.Chistyakov
va
B.Kramorenkolarning «Tilshunoslikda statistik metodni qo‘llash
tajribasidan» nomli asari 350 nusxa nashr etilgan edi. Bu sobiq
Ittifoqda lingvostatistika bo‘yicha nashr etilgan dastlabki alohida
risoladir.
Asarda
til
materialini
lingvostatistik
metodda
o‘rganish bo‘yicha juda ko‘plab grafiklar, diagrammalar
keltirilgan.
Linvostatistika bo‘yicha tadqiqotlarning markazida
chastotali lug‘atlar yaratish turadi. 1898-yilda Frans Keding
nemis tilining dastlabki chastotali lug‘atini yaratgan edi.
Buning uchun u 11 million so‘zshaklning qo‘llanishini tahlil
qilib, shu asarda ularning chastotasini belgilagan. 1951 -yilda
Pragada F.Malerj rus tilining chastotali lug‘atini nemis tilida
nashr yettirdi. Bu asar gazeta va jurnal materiallaridan
tanlab olingan 100.000 so‘zqo‘llash (slovoupotreblenie)
asosida tayyorlangan.
Amerika olimi G.Yosselson birinchi bo‘lib EHM
yordamida rus tilining chastotali lug‘atini tuzgan (1953). Olim
bir asrlik davrga tegishli proza, poeziya va drama
materiallarini bir xil miqdorda tanlab, xuddi shu
materiallarni litva, fransuz, nemis va ingliz tillaridagi
tarjimalari bilan qiyosladi. Shu asosda rus tili grammatik
qurilishiga doir bir million so‘z qo‘llashda mustaqil va yordamchi
so‘zlarning chastotalarini belgilab bergan edi.
O‘tgan asrning 40-yillaridan boshlab lingvostatistik metodlar
yordamida eng qadimgi Hind-Yevropa tillari, ugor-fin tillari va
Kavkaz tillarining shakllanish davrini aniqlash bo‘yicha ko‘pgina
ishlar amalga oshirildi. Bu usul tilshunoslikda
glottoxronologik metod
deb yuritiladi.
1905-yilda E.Arnold «Vedalarning vaznlari haqida» nomli
asarini elon qildi. Bunda olim qadimgi hind diniy qo‘shiqlari
«Rigveda»
shakllarining
eng
qadimgi
ko‘rinishlarini
glottoxronologik metod yordamida aniqlashga intildi. Tilshunos olim
Gerxard Zolta nemis tilida yaratilgan «Arman tilidagi qadimgi
so‘zlarning miqdori» nomli asarida qadimgi arman tilida o‘nta til
(yunon, qadimgi hind - sanskrit, german, boltiq, slavyan, lotin, irland,
kelt,
alban,
toxar)dan
o‘zlashgan
so‘zlar
mavjudligini
glotgoxronologik metod yordamida aniqlagan edi.
Yana bir tilshunos G.Berejskiy esa mariy tilida qadimgi fin-
ugor bobo tilidan o‘zlashgan 682ta bir o‘zakli so‘zlar
mavjudligini shu metod yordamida aniqlashga muvaffaq bo‘lgan.
Rus tilshunosligidagi tillarga o‘qitish yo‘nalishida lingvistik
statistikadan ham keng foydalanilgan. Ma’lumki, ona tilidan tashqari
ikkinchi bir tilni o‘rganayotganda, avvalo, ushbu tilning lug‘at
boyligiga murojaat qilinadi. Ammo har bir tilning lug‘at boyligida
ming-minglab turli so‘zlar mavjud bo‘lib, ularning hammasini eslab
qolish mumkin emasligi tabiiy. Shu sababli o‘rganilayotgan tilning
dastlab eng asosiy hamda tez-tez qo‘llanib turadigan so‘zlarinigina
o‘zlashtirishga kirishiladi va muntazam ravishda bosqichma-bosqich
so‘z boyligi orttirib boriladi. Buning uchun esa leksikostatistik
manbalar-ma’lumotlar asosiy poydevor vazifasini o‘taydi.
L.N.Zasorinaning ta’kidlashicha, leksikostatistikaning markaziy
muammosi jonli (funksional) tilning statistik qonuniyatlarini va
matnning statistik strukturasini aniqlashdir. Matnning statistik
strukturasi deyilganda, shartli ravishda, ma’lum matndagi turli so‘zlar
miqdori bilan shu matnda uning qaytarilish-qaytalanish chastotasi
orasidagi munosabat tushuniladi
3
. Shunga ko‘ra statistik
ma’lumotlarni to‘plash, qayta ishlash kabi murakkab jarayondagi
barcha ishlarni EHMga yuklash zaruriyati kelib chiqqan holda
kompyuter lingvistikasida statistik yo‘nalish yuzaga keldi. U rus
tilshunosligida avtomatik tarzda tilga o‘qitish yo‘nalishi bilan
hamohang tarzda rivojlanib borgan .
Kompyutyerdan foydalanilgan holda ko‘plab chastotali lug‘atlar
ham yaratildi,
5
ular o‘z navbatida mashina tarjimasi uchun zamin
bo‘ldi.
180
Dostları ilə paylaş: |