Azərbaycan Milli Elmlər Akademiyası Nəsimi adına Dilçilik İnstitutu

Yüklə 1,69 Mb.

Pdf görüntüsü

səhifə	2/40
tarix	19.07.2018
ölçüsü	1,69 Mb.
	#57268

1 2 3 4 5 6 7 8 9 ... 40

Maşın tərcüməsinin nəzəri problemləri

5
2.

Korpus dilçiliyi (buraya mətnlərin elektron korpusları-
nın yaradılması və istifadəsi daxildir);
3.

Elektron lüğətlərinin hazırlanması (tezaurus, avtomatik
tərcümə lüğətləri, ensiklopedik, vikipedia, orfoqrafik, izahlı, ter-
minoloji, sahə lüğətləri, səhvlərin avtomatik aşkarı üçün spelling
lüğətləri və s.);
4.

Mətnlərin avtomatik tərcüməsi sistemləri (məs.: Dilmanc,
Google Translate və s.);
5.

Mətnlərdən  faktların  məlumatların,  informasiyaların
(ing. fact extaction, text-mining) çıxarılması (seçilməsi);
6.

Avtoreferatlaşdırma  funksiyasının  (ing.  automatic  text
summarization) Microsoft Word-ə daxil edilməsi;
7.

Biliklər sisteminin – ekspert sistemlərinin yaradılması;
8.

Sual-cavab (dialoq) sistemlərinin yaradılması;
9.

Simvolların optik tanınması (ing. OCR məs.: FineReader
proqramı).
10.

Nitqin avtomatik tanınması;
11.

Nitqin avtomatik sintezi;
1

12.

Məlumat axtarış sistemlərinin hazırlanması.
Qısa şəkildə yuxarıda sadalanan problemlərin şərhini verək.
Təbii dilin emalı süni intellekt və riyazi dilçiliyin bir qolu olub,
dilin  kompüter  vasitəsilə  analiz  və  sintezini  öyrənir.  Bir  sözlə,
nəzəri  cəhətcə  dilin  emalı  prosesində  kompüter  üçün  interfeys
dili (insanla-kompüterin qarşılıqlı əlaqəsi) yaradılmışdır ki, bu o
qədər  də  asan  məsələ  deyildir.  Təbii  dilin  dərki  (anlamı)  aləm
haqqında zəngin bilik tələb edir ki, məhz süni intellektin də əsas
məsələlərindən  biri  “anlamı”  kompüterə  tanıtmaqdır,  məsələn,
Azərbaycan  dilindəki  mətnin  anlamı  (dərki)  söz  sırasından,
omonimlərdən, sinonimlərdən, durğu işarələri və vurğudan asılı-
dır.  Bu  baxımdan  kompüterin  də  mətnlərin  anlamı  üçün  sa-
dalanan meyarların formal modelləri hazırlanmalıdır.

1
Ru.vikipedia.org

Məhəbbət Mirzəliyeva, Kamilə Vəliyeva

6
§1. Korpus dilçiliyi
Korpus dilçiliyi (ing. text corpus) KD mətnlərin korpus və
istifadəsinin  yaradılmasını  tədqiq  edən  tətbiqi  linqvistikanın  bir
bölməsidir.  Ümumiyyətlə,  bu  termin  1960-cı  ildən  praktikada
korpusların yaranması ilə meydana gəlmişdir. Linqvistik korpus
dedikdə  müəyyən  prinsiplərə,  müəyyən  standartlara  uyğun
mətnlərin  toplusu  başa  düşülür.  Korpusları  yaratmaqda  məqsəd
müxtəlif səpkili linqvistik məsələlərin, məsələn, mətnlərin qrafik
və qrammatik təhlilində istifadə edilməsidir.
Korpus  dilçiliyi  –  korpusların  yaranması  və  istifadəsini
tədqiq edən kompüter dilçiliyinin bir istiqamətidir. İlk kompüter
korpusu 1960-cı ildə Braun Universitetində yaradılan (BR – ing.
Brown Corpus) Braun korpusudur ki, tərkibi bir milyon sözişlət-
mədən ibarət olmuş və digər dillərin korpuslarının hazırlanması-
na təkan vermişdir. Belə ki, 1960-cı ildə bu korpusun modelinə
əsasən  Zasorina  rus  dilinin  tezlik  lüğətini  (bir  milyon  sözdən
ibarət) tərtib  etmişdir.
1
  Analoji  model üzrə  1980-ci  ildə  İsveçin
Upsali Universitetində rus dilinin korpusu yaradılmışdır. Tərkibi
eyniölçülü  parçalardan ibarət  olan mətnlərin bu korpusu xüsusi
tətbiqi məsələlərin həllinə xidmət üçün qurulmuşdur.
Kompüter  texnologiyasının  sürətli  inkişafı  böyük  həcmli
milli  korpusların  hazırlanmasına  təkan  verdi.  Belə  səpkili  kor-
puslardan  biri  İngiltərənin  Birminghem  Universitetində  yaradı-
lan  B  ritaniyanın  Milli  Korpusu  (British  National  Corpus)  keç-
miş SSRİ-də isə A.P.Yerşovun təşəbbüsü ilə hazırlanan rus dili-
nin maşın fondunu nümunə göstərmək olar. Hal-hazırda rus dili-
nin milli korpusu 300 milyon sözişlətmədən ibarətdir.
2

Linqvistik korpus mətnlərin elektron formada külliyyatıdır
ki,  burada  müəyyən  axtarış  sisteminin  köməyi  ilə  sözlərin,  söz
birləşmələrinin  qrammatik  formalarını  və  mənasını  tapmaq

1
Штиндлова Й. Применение  методов механизации и автоматизации в лексико-
логической работе за рубежом. Автоматизации в лингвистике. М., - Л., 1966
2
Ru.vikipedia.org

Maşın tərcüməsinin nəzəri problemləri

7
mümkündür. Məqsəddən asılı olaraq dünyada müxtəlif tipli kor-
puslar  mövcuddur.  Misal  üçün,  bir  müəllifin  korpusu,  İncilin
korpusu, rus dilinin korpusu və s.
Milli korpus isə müxtəlif janrları, üslubları, regional və so-
sial vəziyyəti özündə əks etdirən mətnlərin külliyyatıdır. Bu kor-
pusun  yaradılmasında  məqsəd  dilin  leksikasını,  qrammatikasını
tədqiq  etmək,  müxtəlif  səpkili  məsələlərin  həlli  üçün  (leksika,
dil tarixi və s.) sorğu, məlumat toplamaq, nümunələrin seçilmə-
sində (toplanmasında) çox vaxt aparan böyük həcmli materialla-
rı araşdırmaqdan mütəxəssisləri azad etməkdir.
Dünyada ən məşhur milli korpuslardan – 100 milyon söz-
dən  ibarət  olan  Britaniya  milli  korpusunu
1
  misal  çəkmək  olar.
Bu modelə əsasən 2000-ci ildə rus dilinin milli korpusu (RMK)
meydana  gəlmişdi
2
.  Rus  dilinin  milli  korpusu  Moskva,  Sankt-
Peterburq, Voronej və digər şəhərlərin alimlərinin birgə səyinin
məhsulu  olub,  bir çox başqa dillərin milli  korpuslarının (qazax,
başqırd,  tatar  və  s.)  hazırlanmasına  böyük  təkan  vermişdir.
RMK-na müasir  yazılı  mətnlər (XX-XXI), orta  əsrlər dövrünün
mətnləri  (XYIII-XIX),  dini,  qəzet,  dialekt,  poetik,  tədris,  şifahi
nitq, aksentoloji, multimedia korpusları daxildir. Əsas korpusun
həcmi 2013-cü ildə 230 milyon sözişlətmədən, ümumi korpusun
həcmi isə 384 milyon sözişlətmədən ibarətdir. Korpusdakı mətn-
lərin 1,5%-i morfoloji və semantik marketlə təchiz olunmuşdur.
Korpusların  funksiyası  90-cı  illərdə  internetin  meydana
gəlməsi  ilə  kəskin  dəyişdi.  Artıq  dilçilər  müxtəlif  dillərin  (al-
man, çex, çin, yapon, bolqar və s.) böyük həcmli milli korpusla-
rını yaratmağa başladılar.
Qeyd  etməliyik  ki,  müasir  dövrdə  külli  miqdarda  mətnlə-
rin  elektron  formada  yerləşdirilməsi  korpusların  həcminin  ar-
tırılmasında böyük rol oynadı. Doğrudur ki, bu mətnlərin mövzu
və  janrlar  üzrə  təsnif  edilməsi,  vahid  formaya  salınması  lazım

1

www.natcorp.ox.ac.uk

2

http://ruscorpora.ru(открыт
29 апреля, 2004 года),
http://polit.ru/article/2009/10/23/corpus/-

Yüklə 1,69 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6 7 8 9 ... 40