Azərbaycan Milli Elmlər Akademiyası Nəsimi adına Dilçilik İnstitutu



Yüklə 1,69 Mb.
Pdf görüntüsü
səhifə2/40
tarix19.07.2018
ölçüsü1,69 Mb.
#57268
1   2   3   4   5   6   7   8   9   ...   40

Maşın tərcüməsinin nəzəri problemləri 
 

2.
 
Korpus dilçiliyi (buraya mətnlərin elektron korpusları-
nın yaradılması və istifadəsi daxildir); 
3.
 
Elektron lüğətlərinin hazırlanması (tezaurus, avtomatik 
tərcümə lüğətləri, ensiklopedik, vikipedia, orfoqrafik, izahlı, ter-
minoloji, sahə lüğətləri, səhvlərin avtomatik aşkarı üçün spelling 
lüğətləri və s.); 
4.
 
Mətnlərin avtomatik tərcüməsi sistemləri (məs.: Dilmanc, 
Google Translate və s.); 
5.
 
Mətnlərdən  faktların  məlumatların,  informasiyaların 
(ing. fact extaction, text-mining) çıxarılması (seçilməsi); 
6.
 
Avtoreferatlaşdırma  funksiyasının  (ing.  automatic  text 
summarization) Microsoft Word-ə daxil edilməsi
7.
 
Biliklər sisteminin – ekspert sistemlərinin yaradılması; 
8.
 
Sual-cavab (dialoq) sistemlərinin yaradılması; 
9.
 
Simvolların optik tanınması (ing. OCR məs.: FineReader 
proqramı). 
10.
 
Nitqin avtomatik tanınması; 
11.
 
Nitqin avtomatik sintezi;
1
 
12.
 
Məlumat axtarış sistemlərinin hazırlanması. 
Qısa şəkildə yuxarıda sadalanan problemlərin şərhini verək.  
Təbii dilin emalı süni intellekt və riyazi dilçiliyin bir qolu olub, 
dilin  kompüter  vasitəsilə  analiz  və  sintezini  öyrənir.  Bir  sözlə, 
nəzəri  cəhətcə  dilin  emalı  prosesində  kompüter  üçün  interfeys 
dili (insanla-kompüterin qarşılıqlı əlaqəsi) yaradılmışdır ki, bu o 
qədər  də  asan  məsələ  deyildir.  Təbii  dilin  dərki  (anlamı)  aləm 
haqqında zəngin bilik tələb edir ki, məhz süni intellektin də əsas 
məsələlərindən  biri  “anlamı”  kompüterə  tanıtmaqdır,  məsələn, 
Azərbaycan  dilindəki  mətnin  anlamı  (dərki)  söz  sırasından, 
omonimlərdən, sinonimlərdən, durğu işarələri və vurğudan asılı-
dır.  Bu  baxımdan  kompüterin  də  mətnlərin  anlamı  üçün  sa-
dalanan meyarların formal modelləri hazırlanmalıdır. 
                                                           
1
 Ru.vikipedia.org 


Məhəbbət Mirzəliyeva, Kamilə Vəliyeva 
 

§1. Korpus dilçiliyi 
Korpus dilçiliyi (ing. text corpus) KD mətnlərin korpus və 
istifadəsinin  yaradılmasını  tədqiq  edən  tətbiqi  linqvistikanın  bir 
bölməsidir.  Ümumiyyətlə,  bu  termin  1960-cı  ildən  praktikada 
korpusların yaranması ilə meydana gəlmişdir. Linqvistik korpus 
dedikdə  müəyyən  prinsiplərə,  müəyyən  standartlara  uyğun 
mətnlərin  toplusu  başa  düşülür.  Korpusları  yaratmaqda  məqsəd 
müxtəlif səpkili linqvistik məsələlərin, məsələn, mətnlərin qrafik 
və qrammatik təhlilində istifadə edilməsidir.  
Korpus  dilçiliyi  –  korpusların  yaranması  və  istifadəsini 
tədqiq edən kompüter dilçiliyinin bir istiqamətidir. İlk kompüter 
korpusu 1960-cı ildə Braun Universitetində yaradılan (BR – ing. 
Brown Corpus) Braun korpusudur ki, tərkibi bir milyon sözişlət-
mədən ibarət olmuş və digər dillərin korpuslarının hazırlanması-
na təkan vermişdir. Belə ki, 1960-cı ildə bu korpusun modelinə 
əsasən  Zasorina  rus  dilinin  tezlik  lüğətini  (bir  milyon  sözdən 
ibarət) tərtib  etmişdir.
1
  Analoji  model üzrə  1980-ci  ildə  İsveçin 
Upsali Universitetində rus dilinin korpusu yaradılmışdır. Tərkibi 
eyniölçülü  parçalardan ibarət  olan mətnlərin bu korpusu xüsusi 
tətbiqi məsələlərin həllinə xidmət üçün qurulmuşdur. 
Kompüter  texnologiyasının  sürətli  inkişafı  böyük  həcmli 
milli  korpusların  hazırlanmasına  təkan  verdi.  Belə  səpkili  kor-
puslardan  biri  İngiltərənin  Birminghem  Universitetində  yaradı-
lan  B  ritaniyanın  Milli  Korpusu  (British  National  Corpus)  keç-
miş SSRİ-də isə A.P.Yerşovun təşəbbüsü ilə hazırlanan rus dili-
nin maşın fondunu nümunə göstərmək olar. Hal-hazırda rus dili-
nin milli korpusu 300 milyon sözişlətmədən ibarətdir.
2
  
Linqvistik korpus mətnlərin elektron formada külliyyatıdır 
ki,  burada  müəyyən  axtarış  sisteminin  köməyi  ilə  sözlərin,  söz 
birləşmələrinin  qrammatik  formalarını  və  mənasını  tapmaq 
                                                           
1
 Штиндлова Й. Применение  методов механизации и автоматизации в лексико-
логической работе за рубежом. Автоматизации в лингвистике. М., - Л., 1966 
2
 Ru.vikipedia.org 


Maşın tərcüməsinin nəzəri problemləri 
 

mümkündür. Məqsəddən asılı olaraq dünyada müxtəlif tipli kor-
puslar  mövcuddur.  Misal  üçün,  bir  müəllifin  korpusu,  İncilin 
korpusu, rus dilinin korpusu və s. 
Milli korpus isə müxtəlif janrları, üslubları, regional və so-
sial vəziyyəti özündə əks etdirən mətnlərin külliyyatıdır. Bu kor-
pusun  yaradılmasında  məqsəd  dilin  leksikasını,  qrammatikasını 
tədqiq  etmək,  müxtəlif  səpkili  məsələlərin  həlli  üçün  (leksika, 
dil tarixi və s.) sorğu, məlumat toplamaq, nümunələrin seçilmə-
sində (toplanmasında) çox vaxt aparan böyük həcmli materialla-
rı araşdırmaqdan mütəxəssisləri azad etməkdir.  
Dünyada ən məşhur milli korpuslardan – 100 milyon söz-
dən  ibarət  olan  Britaniya  milli  korpusunu
1
  misal  çəkmək  olar. 
Bu modelə əsasən 2000-ci ildə rus dilinin milli korpusu (RMK) 
meydana  gəlmişdi
2
.  Rus  dilinin  milli  korpusu  Moskva,  Sankt-
Peterburq, Voronej və digər şəhərlərin alimlərinin birgə səyinin 
məhsulu  olub,  bir çox başqa dillərin milli  korpuslarının (qazax, 
başqırd,  tatar  və  s.)  hazırlanmasına  böyük  təkan  vermişdir. 
RMK-na müasir  yazılı  mətnlər (XX-XXI), orta  əsrlər dövrünün 
mətnləri  (XYIII-XIX),  dini,  qəzet,  dialekt,  poetik,  tədris,  şifahi 
nitq, aksentoloji, multimedia korpusları daxildir. Əsas korpusun 
həcmi 2013-cü ildə 230 milyon sözişlətmədən, ümumi korpusun 
həcmi isə 384 milyon sözişlətmədən ibarətdir. Korpusdakı mətn-
lərin 1,5%-i morfoloji və semantik marketlə təchiz olunmuşdur. 
Korpusların  funksiyası  90-cı  illərdə  internetin  meydana 
gəlməsi  ilə  kəskin  dəyişdi.  Artıq  dilçilər  müxtəlif  dillərin  (al-
man, çex, çin, yapon, bolqar və s.) böyük həcmli milli korpusla-
rını yaratmağa başladılar. 
Qeyd  etməliyik  ki,  müasir  dövrdə  külli  miqdarda  mətnlə-
rin  elektron  formada  yerləşdirilməsi  korpusların  həcminin  ar-
tırılmasında böyük rol oynadı. Doğrudur ki, bu mətnlərin mövzu 
və  janrlar  üzrə  təsnif  edilməsi,  vahid  formaya  salınması  lazım 
                                                           
1
 
www.natcorp.ox.ac.uk
 
2
 
http://ruscorpora.ru(открыт
 29 апреля, 2004 года), 
http://polit.ru/article/2009/10/23/corpus/-
  


Yüklə 1,69 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   40




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə