Computer science ili computer program

Yüklə 492 b.

tarix	13.11.2017
ölçüsü	492 b.
	#9827

Frazni termini koji se sastoje od sekvencija povezanih reči teksta nose specifičnije značenje od pojedinačnih termina koji su uključeni u fraze. Na primer, computer science ili computer program je specifičnije i od computer i od program i od science.

Frazni termini koji se sastoje od sekvencija povezanih reči teksta nose specifičnije značenje od pojedinačnih termina koji su uključeni u fraze. Na primer, computer science ili computer program je specifičnije i od computer i od program i od science.
Kada se fraze uvode kao identifikatori sadržaja, namera je da se profini značenje identifikatora koji su pojedinačni termini i koji bi bili suviše široki ako bi se sami koristili.
Korišćenjem spektra frekvencija sa slajda 14 (prethodni čas), izvodi se proces formiranja fraza kroz transformaciju s desna na levo koja transformiše nediskriminatorne visokofrekventne termine u srednjefrekventne fraze koje bi imale veću diskriminatornu snagu.
Prema tome, frazne termine ne bi trebalo konstruisati niti dodeljivati nasumično: pre svega, fraze koje se sastoje samo od niskofrekventnih specifičnih komponenata s leve strane frekvencijske ose dobiće još manju frekvenciju dokumenata i njihova vrednost za potrebe indeksiranja biće još manja od pojedinačnih termina - komponenata koje je zamenila.

Kao polazna tačka za formiranje fraza može se koristiti sledeći jednostavan proces formiranja fraza:

Kao polazna tačka za formiranje fraza može se koristiti sledeći jednostavan proces formiranja fraza:

Glavna komponenta fraze, poznata i kao glava fraze, trebalo bi da bude termin čija frekvencija dokumenata prelazi utvrđeni prag (na primer, dfj>T), ili ispoljava negativnu diskriminatornu vrednost.
Ostale komponente fraze bi trebalo da budu niskofrekventni ili srednjefrekventni termini sa utvrđenim zajedničkim pojavljivanjem sa glavom termina. Na primer, komponente fraze bi trebalo da se pojavljuju zajedno u istoj rečenici dokumenta sa glavom fraze i udaljene jedna od druge za utvrđeni broj reči.
Uobičajene funkcionalne reči koje su ušle u specijalnu listu isključenih reči (stop lista) se ne koriste u procesu formiranja fraze.

Prilikom izbora parametara za formiranje fraze, potreban je kompromis između strogog kriterijuma koji vodi odbacivanju mnogih korisnih fraza i opuštenog kriterijuma koji vodi kreiranju mnogih pogrešnih kombinacija termina.

Effective retrieval systems are essential for people in need of information.

Effective retrieval systems are essential for people in need of information.
Ako pretpostavimo da su reči kao are, for, in i of uobičajene funkcionalne reči koje ne treba uzimati u obzir u procesu formiranja fraze, a da reči system, people i information imaju dovoljno veliku frekvenciju dokumenata da bi se mogle koristiti kao glave fraze, mogu se formirati raznovrsne fraze od dve reči.

Leva kolona prethodne tabele pokazuje fraze koje su proizvedene ako se zahteva susedstvo u tekstu između glave fraze i njenih komponenata (pošto se odbace uobičajene funkcionalne reči); dodatne fraze koje se proizvode ako se kontekst proširi na zajedničko pojavljivanje unutar kompletne rečenice prikazane su u desnoj koloni.

Leva kolona prethodne tabele pokazuje fraze koje su proizvedene ako se zahteva susedstvo u tekstu između glave fraze i njenih komponenata (pošto se odbace uobičajene funkcionalne reči); dodatne fraze koje se proizvode ako se kontekst proširi na zajedničko pojavljivanje unutar kompletne rečenice prikazane su u desnoj koloni.
Fraze za koje se pretpostavlja da su korisne za identifikaciju sadržaja označene su zvezdicom u tabeli. Uzorak izlaza pokazuje da su dve od pet fraza dobijenih korišćenjem kriterijuma susedstva značajne – retrieval systems i need information.
Kako se specifikovani kontekst širi još neke važne fraze se dobijaju, posebno retrieval information. Međutim, dodaje se i izvestan broj sumnjivih fraza, kao što su effective people i systems need koje neće biti korisne za pronalaženje.

Data tabela pokazuje da proces formiranja fraza koji se zasniva samo na zajedničkom pojavljivanju reči i na frekvencijama dokumenata izvesnih reči neće generisati veliki broj visokokvalitetnih fraza. Dodavanje sintaksičkih kriterijuma za glave fraza i njihove komponente može da obezbedi dalju kontrolu nad formiranjem fraza. U svakom slučaju, uključivanje sintakse može da zameni prethodnu strategiju ili se može koristiti kao dopuna prethodnih koraka:

Data tabela pokazuje da proces formiranja fraza koji se zasniva samo na zajedničkom pojavljivanju reči i na frekvencijama dokumenata izvesnih reči neće generisati veliki broj visokokvalitetnih fraza. Dodavanje sintaksičkih kriterijuma za glave fraza i njihove komponente može da obezbedi dalju kontrolu nad formiranjem fraza. U svakom slučaju, uključivanje sintakse može da zameni prethodnu strategiju ili se može koristiti kao dopuna prethodnih koraka:

Indikatori vrste reči (pridev, imenica, prilog, itd.) dodeljuju se terminima konsultovanjem odgovarajućeg rečnika, a formiranje fraza se tada ograničava na sekvencije specifikovanih markera vrste reči, kakvi su pridev-imenica i imenica-imenica u engleskom.
Može se koristiti i jednostavan proces sintaksičke analize da bi se prepoznale osnovne sintaksičke jedinice u rečenici kakve su fraza subjekta, fraza objekta i glagolska fraza; svi frazni elementi se tada mogu izabrati unutar iste sintaksičke jedinice.

Uključivanje samo koraka 4 ne menja rezultate formiranja fraza za prethodni primer rečenice jer su sve pobrojane fraze zaista ispravne imeničke fraze koje bi izvesno bile dozvoljene sa sintaksičkog stanovišta. Međutim, proces naveden u koraku 4 može u principu da bude koristan i da vodi ka eliminaciji sumnjivih sekvencija, kakve su kombinacije prilog-pridev i prilog-imenica.

Uključivanje samo koraka 4 ne menja rezultate formiranja fraza za prethodni primer rečenice jer su sve pobrojane fraze zaista ispravne imeničke fraze koje bi izvesno bile dozvoljene sa sintaksičkog stanovišta. Međutim, proces naveden u koraku 4 može u principu da bude koristan i da vodi ka eliminaciji sumnjivih sekvencija, kakve su kombinacije prilog-pridev i prilog-imenica.
Proces sintaksičke analize koji je specifikovan u koraku 5 bi u principu takođe trebalo da bude korisan. Ipak, treba imati u vidu da se mnoge sintaksičke dvosmislenosti koje su svojstvene jeziku ne mogu razrešiti jednostavnim sintaksičkim metodama na takav način da se za sve ulazne rečenice dobije jedinstvena i korektna dekompozicija. Ipak, za mnoge rečenice može se generisati razumna sintaksička dekompozicija koja može da bude korisna za indeksiranje dokumenata.

Na primer, u ulaznoj rečenici “Effective retrieval systems are essential for people in need of information.” mogu se prepoznati sledeće glavne sintaksičke celine:

Na primer, u ulaznoj rečenici “Effective retrieval systems are essential for people in need of information.” mogu se prepoznati sledeće glavne sintaksičke celine:

Fraza subjekta: effective retrieval systems;
Glagolska fraza: are essential; i
Fraza objekta: people in need of information.

Kada se za generisanje korisnih fraza zahteva da komponente budu susedne unutar sintaksičke konstrukcije, dobija se proporcijalno više korisnih fraza (2 od 3) nego kada se sintaksička ograničenja ne koriste (2 od 5). Međutim, ograničavanje fraze na jednu sintaksičku celinu eliminiše i određen broj dobrih fraza, kakve su fraze koje su pronađene unutar šireg konteksta (retrieval information).

Prethodnim primerom je demonstrirano da stroži uslovi za formiranje fraza proizvode manje fraza, i dobrih i loših, od manje strogih metodologija.

Prethodnim primerom je demonstrirano da stroži uslovi za formiranje fraza proizvode manje fraza, i dobrih i loših, od manje strogih metodologija.
Jednostavan sintaksički proces postavljen u koraku 5 procesa za formiranje fraza ne proizvodi uvek sintaksički ispravno pridruživanje predloških fraza niti sama sintaksa uvek može da rukuje zameničkim referencama nedvosmisleno.
Tako u rečenici

The man saw the girl with the telescope,

predloška faza može da modifikuje bilo man bilo girl.
U rečenici

He dropped the plate on his foot and broke it.

zamenica it se ne može interpretirati osim ako kontekst ne ukaže da li je slomljen tanjir ili je slomljena noga.

Napredniji procesi sintaksičke analize koji uključuju semantičke komponente mogu da eliminišu dvosmislene interpretacije u izvesnim kontekstima. Na primer, u imeničkoj frazi high frequency transistor oscillator ugrađena semantička komponenta za polje elektronike može da otkrije da se high odnosi na frequency, a da frequency modifikuje oscillator, a ne susednu reč transistor.

Napredniji procesi sintaksičke analize koji uključuju semantičke komponente mogu da eliminišu dvosmislene interpretacije u izvesnim kontekstima. Na primer, u imeničkoj frazi high frequency transistor oscillator ugrađena semantička komponenta za polje elektronike može da otkrije da se high odnosi na frequency, a da frequency modifikuje oscillator, a ne susednu reč transistor.
Ova vrsta informacije se može koristiti za odbacivanje određenog broja fraza koje predlaže konvencionalni sistem za sintaksičko generisanje fraza, kakve su high frequency transistor i frequency transistor. Međutim, nije jasno da li bi čak i vrlo razrađene semantičke komponente odbacile fraze kakve su high transistor i high oscillator, gde se high interpretira kao tall. Jasno je da tall oscillator može stvarno da predstavlja semantički mogući entitet.

Umesto potpune sintaksičke analize, koja za potrebe pronalaženja informacija izgleda preterana, mogu se koristiti metode plitke sintaksičke analize (shallow parsing).

Umesto potpune sintaksičke analize, koja za potrebe pronalaženja informacija izgleda preterana, mogu se koristiti metode plitke sintaksičke analize (shallow parsing).
Plitka sintaksička analiza ne teži da izvrši potpunu sintaksičku analizu rečenice, već pre teži prepoznavanju korisnih sintaksičkih konstrukata, kao što su imeničke fraze ili predloške fraze.
Za plitku sintaksičku analizu se često koriste metode zasnovane na konačnim automatima.

uspešno identifikovanje:

uspešno identifikovanje:
gde je rečeno da Srbija mora da ima 90-dnevne obavezne rezerve.
preokrenule su zbivanja u hali Atinskog olimpijskog sportskog kompleksa
je dužnosti dosadasnjeg saveznog kapitena za mlađe kategorije

Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.

Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.
Njihov cilj je da identifikuju delove teksta koji se odnose na ljude, ustanove, objekte i slično.
Oni se često nazivaju parcijalni ili plitki (shallow) parseri za razliku od kompletnih ili dubokih (deep) parsera.
Prepoznavanje imeničkih fraza je veoma važno sa stanovištva pronalaženja informacija i srodnih zadataka jer su informacije koje se traže najčešće u toj formi.

Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.

Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.

ovo bi važilo za engleski, osnovne imeničke fraze za srpski bi drugačije izgledale

Oni se najčešće ne bave identifikovanjem predloških fraza i ne pokušavaju da razreše čemu su predloške fraze pridružene.

Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.

Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.
Na primer, u sledećoj engleskoj rečenici:

Italy’s business world was rocked by the announcement last Thursday that Mr. Verdi would leave his job as vice-president of Music Masters of Milan, Inc to become operations director of Arthur Andersen.

Italy bi bilo prepoznato kao mesto, last Thursday kao datum, Mr. Verdi kao osoba, a Music Masters of Milan, Inc i Arthur Andersen kao kompanije. U ovom slučaju bilo bi pogrešno ako bi Milan i Arthur Anderson bili označeno kao mesto, osnosno osoba.

Neka je dat tekst na srpskom jeziku:

Neka je dat tekst na srpskom jeziku:

Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila je opštinska komisija za procenu štete. Kako se navodi, komisija je zatražila od Vlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih preko pet miliona dinara. Opštinska komisija zatražila je od Ministarstva za kapitalne investicije pomoć od preko 15 miliona dinara za saniranje velikih šteta na lokalnim putevima.

Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila je opštinska komisija za procenu štete.

Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila je opštinska komisija za procenu štete.
Kako se navodi, komisija je zatražila od Vlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih preko pet miliona dinara.
Opštinska komisija zatražila je od Ministarstva za kapitalne investicije pomoć od preko 15 miliona dinara za saniranje velikih šteta na lokalnim putevima.

Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl.).

Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl.).
Neki od sistema koriste ručno izgrađena pravila, dok drugi uče pravila iz nekog skupa podataka za treniranje (mašinsko učenje) ili grade statističke modele.
Prepoznavanje imenovanih entiteta za srpski se zasniva na korišćenju iscrpnih rečnika i razrađenih pravila formulisanih korišćenjem konačnih automata.
Više o tome na kursu na master studijama Napredne metode u pronalaženju informacija doktorskim studijama Leksičko prepoznavanje u obradi prirodnih jezika (Cvetana Krstev)

Stvarna interpretacija značenja fraze zahteva potpunu semantičku analizu fraze što bi bilo preterano za potrebe indeksiranja u kome je glavna ideja da se prosto dodele slične jedinice i dokumentima i zahtevima za informacijom što vodi ka korisnom poklapanju upita i termina dokumenata. Potpunu semantičku interpretaciju imeničkih fraza nije lako postići, a ona se izvesno ne može ostvariti površnim određivanjem sintaksičke strukture.
prepoznavanje semantički ekvivalentnih ali strukturno različitih fraza je u okruženju indeksiranja od većeg interesa od generisanja kompletne semantičke interpretacije, jer korektno poklapanje fraza zavisi od normalizovanja formulacija fraza.

Fraze kakve su information retrieval i retrieval of information ne mogu se direktno poklopiti bez određenog podešavanja termina.

Fraze kakve su information retrieval i retrieval of information ne mogu se direktno poklopiti bez određenog podešavanja termina.
Svaki sistem koji se zasniva na poklapanju fraza mora da bude u stanju da rešava probleme prepoznavanja sinonima, različitog reda reči, umetanja neznačećih reči (kao što je retrieval of information) i da vrši mnoge druge vrste sintaksičkih i semantičkih transformacija. Tako sistem za klasifikaciju fraza treba da svede na jedan kanonski oblik mnoge ekvivalentne forme izraza.
Umesto da se pokušava sa svođenjem svih ekvivalentnih fraza na zajednički kanonski oblik, može se uzeti obrnuti pristup koji dodaje svakoj raspoloživoj frazi sve moguće varijantne oblike.

Osnovni oblik text analysis system

Osnovni oblik text analysis system
Varijante

system analyses the text
text is analyzed by the system
system carries out text analysis
text is subjected to analysis by the system
text is subjected to system analysis

Zamene povezanim terminima

text  documants, information items
analysis  processing, transformation, manipulation
system  program, process

Generisanje fraza poboljšava specifičnost, a prema tome i diskriminatornu vrednost, indeksnih jedinica koje bi inače bile ili suviše opšte ili suviše široke. Obrnuti proces, transformacija tezaurusom, proširuje indeksni termin čiji bi opseg inače bio suviše uzak da bi bio koristan za pronalaženje.

Generisanje fraza poboljšava specifičnost, a prema tome i diskriminatornu vrednost, indeksnih jedinica koje bi inače bile ili suviše opšte ili suviše široke. Obrnuti proces, transformacija tezaurusom, proširuje indeksni termin čiji bi opseg inače bio suviše uzak da bi bio koristan za pronalaženje.
Ako posmatramo spektar frekvencija sa slike na slajdu 14, čas 9, vidi se da transformacija tezaurusom uzima male frekvencije, tj. previše specifične termine i zamenjuje ih manje specifičnim “glavama” tezaurusa sa umerenom frekvencijom koje imaju pozitivnu diskriminatornu vrednost.
Da bi bio koristan, tezaurus tada mora da skupi pod opštijim indikatorima klasa višeg nivoa grupe međusobno povezanih specifičnih termina.

Tipičan izvod iz tezaurusa koji se koristi za inženjerske svrhe je prikazan u narednoj tabeli. Kada se koristi ovakav tezaurus, onda se termini kao što su prohibition ili veto, na primer, mogu zameniti indikatorom klase 761 iz tezaurusa, koji se tada može dodeliti svakom tekstu koji sadrži jednu od odrednica koje su pod ovom klasom.

Tipičan izvod iz tezaurusa koji se koristi za inženjerske svrhe je prikazan u narednoj tabeli. Kada se koristi ovakav tezaurus, onda se termini kao što su prohibition ili veto, na primer, mogu zameniti indikatorom klase 761 iz tezaurusa, koji se tada može dodeliti svakom tekstu koji sadrži jednu od odrednica koje su pod ovom klasom.
Korišćenje tezaurusa u sistemima za analizu teksta može da poboljša odziv jer klase tezaurusa imaju bolje mogućnosti sravnjivanja od originalnog rečnika indeksiranja.

U morfologiji u lingvistici stemming je proces kojim se reč izvedena iz osnove ili korena fleksijom ili derivacijom svodi na taj koren ili osnovu.

U morfologiji u lingvistici stemming je proces kojim se reč izvedena iz osnove ili korena fleksijom ili derivacijom svodi na taj koren ili osnovu.
Osnova ne mora u praksi da bude identična sa morfološkim korenom reči; često je dovoljno da se povezane reči svedu na zajedničku osnovu (“stem”) iako ona me mora da bude lingvistički validan koren.
Na izradi uspešnog algoritam koji bi ovo radio se radi u računarstvu odavno; prvi članak napisan o ovoj temi je objavljen 1968. godine.
Proces “stemiranja” je koristan u mašinama za pretraživanje, za proširivanje upita, kod indeksiranja i uopšte u obradi prirodnih jezika.
Programi koji ovo rade se obično nazivaju “stemeri” (stemmers).
Jedan od najpoznatijih stemera za engleski je Porterov stemer koji je izradio Martin Porter sa Kembričkog univerziteta.

Razvijeni su različiti sistemi za automatsko generisanje korena reči; njihova osnovna ideja je da se sufiksi rekurzivno uklanjaju s kraja reči sve dok se ne dođe do korena koji je dugačak bar tri karaktera.

Razvijeni su različiti sistemi za automatsko generisanje korena reči; njihova osnovna ideja je da se sufiksi rekurzivno uklanjaju s kraja reči sve dok se ne dođe do korena koji je dugačak bar tri karaktera.
Reč kao što je effectiveness se prvo svodi na effective uklanjanjem sufiksa -ness, a zatim na effect brisanjem -ive.
S druge strane, king se ne svodi na k, jer ta operacija ne ostavlja koren propisane dužine (a ne zato što u toj reči -ing nije sufiks).
Umesto da se koristi tezaurus za poboljšavanje odziva, u indeksu se mogu koristiti koreni reči, tj. “stemovi”.

Obično mali rečnik sufiksa kontroliše proces brisanja sufiksa, a dodatna morfološka pravila se pozivaju da bi rukovala operacijama kao što su:

Obično mali rečnik sufiksa kontroliše proces brisanja sufiksa, a dodatna morfološka pravila se pozivaju da bi rukovala operacijama kao što su:

Povratiti e posle uklanjanja sufiksa iz izvesnih reči (da bi se proizvelo hope iz originalnog hoping umesto hop.
Brisanje izvesnih udvostručenih konsonanata kakvi su b, d, g, l, m, n, p, r, s i t posle uklanjanja sufiksa, da bi se generisalo hop (skakati na jednoj nozi) iz hopping umesto hopp.
Zameniti finalno i sa y u oblicima kao što je easier tako da se generiše easy umesto easi.

Koriste se takođe i specijalna pravila da bi se izbrisali sufiksi iz izvesnih specijalnih reči, kakva je metallic koja se ne svodi na met iako je allic prihvatljiv sufiks. Umesto toga, metallic se mora svesti na metal uklanjanjem prvo sufiksa ic, a zatim i udvostručenog finalnog konsonanta. Rečnik izuzetaka se može koristiti da bi se identifikovale odrednice na koje se normalna pravila ne primenjuju.

Yüklə 492 b.

Dostları ilə paylaş:

Computer science ili computer program

Frazni termini koji se sastoje od sekvencija povezanih reči teksta nose specifičnije značenje od pojedinačnih termina koji su uključeni u fraze. Na primer, computer science ili computer program je specifičnije i od computer i od program i od science.

Frazni termini koji se sastoje od sekvencija povezanih reči teksta nose specifičnije značenje od pojedinačnih termina koji su uključeni u fraze. Na primer, computer science ili computer program je specifičnije i od computer i od program i od science.

Kada se fraze uvode kao identifikatori sadržaja, namera je da se profini značenje identifikatora koji su pojedinačni termini i koji bi bili suviše široki ako bi se sami koristili.

Korišćenjem spektra frekvencija sa slajda 14 (prethodni čas), izvodi se proces formiranja fraza kroz transformaciju s desna na levo koja transformiše nediskriminatorne visokofrekventne termine u srednjefrekventne fraze koje bi imale veću diskriminatornu snagu.

Kao polazna tačka za formiranje fraza može se koristiti sledeći jednostavan proces formiranja fraza:

Kao polazna tačka za formiranje fraza može se koristiti sledeći jednostavan proces formiranja fraza:

Prilikom izbora parametara za formiranje fraze, potreban je kompromis između strogog kriterijuma koji vodi odbacivanju mnogih korisnih fraza i opuštenog kriterijuma koji vodi kreiranju mnogih pogrešnih kombinacija termina.

Effective retrieval systems are essential for people in need of information.

Effective retrieval systems are essential for people in need of information.

Fraze za koje se pretpostavlja da su korisne za identifikaciju sadržaja označene su zvezdicom u tabeli. Uzorak izlaza pokazuje da su dve od pet fraza dobijenih korišćenjem kriterijuma susedstva značajne – retrieval systems i need information.

Kako se specifikovani kontekst širi još neke važne fraze se dobijaju, posebno retrieval information. Međutim, dodaje se i izvestan broj sumnjivih fraza, kao što su effective people i systems need koje neće biti korisne za pronalaženje.

Na primer, u ulaznoj rečenici “Effective retrieval systems are essential for people in need of information.” mogu se prepoznati sledeće glavne sintaksičke celine:

Na primer, u ulaznoj rečenici “Effective retrieval systems are essential for people in need of information.” mogu se prepoznati sledeće glavne sintaksičke celine:

Prethodnim primerom je demonstrirano da stroži uslovi za formiranje fraza proizvode manje fraza, i dobrih i loših, od manje strogih metodologija.

Prethodnim primerom je demonstrirano da stroži uslovi za formiranje fraza proizvode manje fraza, i dobrih i loših, od manje strogih metodologija.

Jednostavan sintaksički proces postavljen u koraku 5 procesa za formiranje fraza ne proizvodi uvek sintaksički ispravno pridruživanje predloških fraza niti sama sintaksa uvek može da rukuje zameničkim referencama nedvosmisleno.

Tako u rečenici

predloška faza može da modifikuje bilo man bilo girl.

U rečenici

zamenica it se ne može interpretirati osim ako kontekst ne ukaže da li je slomljen tanjir ili je slomljena noga.

Umesto potpune sintaksičke analize, koja za potrebe pronalaženja informacija izgleda preterana, mogu se koristiti metode plitke sintaksičke analize (shallow parsing).

Umesto potpune sintaksičke analize, koja za potrebe pronalaženja informacija izgleda preterana, mogu se koristiti metode plitke sintaksičke analize (shallow parsing).

Plitka sintaksička analiza ne teži da izvrši potpunu sintaksičku analizu rečenice, već pre teži prepoznavanju korisnih sintaksičkih konstrukata, kao što su imeničke fraze ili predloške fraze.

Za plitku sintaksičku analizu se često koriste metode zasnovane na konačnim automatima.

uspešno identifikovanje:

uspešno identifikovanje:

gde je rečeno da Srbija mora da ima 90-dnevne obavezne rezerve.

preokrenule su zbivanja u hali Atinskog olimpijskog sportskog kompleksa

je dužnosti dosadasnjeg saveznog kapitena za mlađe kategorije

Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.

Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.

Njihov cilj je da identifikuju delove teksta koji se odnose na ljude, ustanove, objekte i slično.

Oni se često nazivaju parcijalni ili plitki (shallow) parseri za razliku od kompletnih ili dubokih (deep) parsera.

Prepoznavanje imeničkih fraza je veoma važno sa stanovištva pronalaženja informacija i srodnih zadataka jer su informacije koje se traže najčešće u toj formi.

Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.

Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.

Oni se najčešće ne bave identifikovanjem predloških fraza i ne pokušavaju da razreše čemu su predloške fraze pridružene.

Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.

Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.

Na primer, u sledećoj engleskoj rečenici:

Italy bi bilo prepoznato kao mesto, last Thursday kao datum, Mr. Verdi kao osoba, a Music Masters of Milan, Inc i Arthur Andersen kao kompanije. U ovom slučaju bilo bi pogrešno ako bi Milan i Arthur Anderson bili označeno kao mesto, osnosno osoba.

Neka je dat tekst na srpskom jeziku:

Neka je dat tekst na srpskom jeziku:

Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila je opštinska komisija za procenu štete.

Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila je opštinska komisija za procenu štete.

Kako se navodi, komisija je zatražila od Vlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih preko pet miliona dinara.

Opštinska komisija zatražila je od Ministarstva za kapitalne investicije pomoć od preko 15 miliona dinara za saniranje velikih šteta na lokalnim putevima.

Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl.).

Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl.).

Neki od sistema koriste ručno izgrađena pravila, dok drugi uče pravila iz nekog skupa podataka za treniranje (mašinsko učenje) ili grade statističke modele.

Prepoznavanje imenovanih entiteta za srpski se zasniva na korišćenju iscrpnih rečnika i razrađenih pravila formulisanih korišćenjem konačnih automata.

Više o tome na kursu na master studijama Napredne metode u pronalaženju informacija doktorskim studijama Leksičko prepoznavanje u obradi prirodnih jezika (Cvetana Krstev)

prepoznavanje semantički ekvivalentnih ali strukturno različitih fraza je u okruženju indeksiranja od većeg interesa od generisanja kompletne semantičke interpretacije, jer korektno poklapanje fraza zavisi od normalizovanja formulacija fraza.

Fraze kakve su information retrieval i retrieval of information ne mogu se direktno poklopiti bez određenog podešavanja termina.

Fraze kakve su information retrieval i retrieval of information ne mogu se direktno poklopiti bez određenog podešavanja termina.

Umesto da se pokušava sa svođenjem svih ekvivalentnih fraza na zajednički kanonski oblik, može se uzeti obrnuti pristup koji dodaje svakoj raspoloživoj frazi sve moguće varijantne oblike.

Osnovni oblik text analysis system

Osnovni oblik text analysis system

Varijante

Zamene povezanim terminima

Ako posmatramo spektar frekvencija sa slike na slajdu 14, čas 9, vidi se da transformacija tezaurusom uzima male frekvencije, tj. previše specifične termine i zamenjuje ih manje specifičnim “glavama” tezaurusa sa umerenom frekvencijom koje imaju pozitivnu diskriminatornu vrednost.

Da bi bio koristan, tezaurus tada mora da skupi pod opštijim indikatorima klasa višeg nivoa grupe međusobno povezanih specifičnih termina.

Korišćenje tezaurusa u sistemima za analizu teksta može da poboljša odziv jer klase tezaurusa imaju bolje mogućnosti sravnjivanja od originalnog rečnika indeksiranja.

U morfologiji u lingvistici stemming je proces kojim se reč izvedena iz osnove ili korena fleksijom ili derivacijom svodi na taj koren ili osnovu.

U morfologiji u lingvistici stemming je proces kojim se reč izvedena iz osnove ili korena fleksijom ili derivacijom svodi na taj koren ili osnovu.

Osnova ne mora u praksi da bude identična sa morfološkim korenom reči; često je dovoljno da se povezane reči svedu na zajedničku osnovu (“stem”) iako ona me mora da bude lingvistički validan koren.

Na izradi uspešnog algoritam koji bi ovo radio se radi u računarstvu odavno; prvi članak napisan o ovoj temi je objavljen 1968. godine.

Proces “stemiranja” je koristan u mašinama za pretraživanje, za proširivanje upita, kod indeksiranja i uopšte u obradi prirodnih jezika.

Programi koji ovo rade se obično nazivaju “stemeri” (stemmers).

Jedan od najpoznatijih stemera za engleski je Porterov stemer koji je izradio Martin Porter sa Kembričkog univerziteta.

Razvijeni su različiti sistemi za automatsko generisanje korena reči; njihova osnovna ideja je da se sufiksi rekurzivno uklanjaju s kraja reči sve dok se ne dođe do korena koji je dugačak bar tri karaktera.

Razvijeni su različiti sistemi za automatsko generisanje korena reči; njihova osnovna ideja je da se sufiksi rekurzivno uklanjaju s kraja reči sve dok se ne dođe do korena koji je dugačak bar tri karaktera.

Reč kao što je effectiveness se prvo svodi na effective uklanjanjem sufiksa -ness, a zatim na effect brisanjem -ive.

S druge strane, king se ne svodi na k, jer ta operacija ne ostavlja koren propisane dužine (a ne zato što u toj reči -ing nije sufiks).

Umesto da se koristi tezaurus za poboljšavanje odziva, u indeksu se mogu koristiti koreni reči, tj. “stemovi”.

Obično mali rečnik sufiksa kontroliše proces brisanja sufiksa, a dodatna morfološka pravila se pozivaju da bi rukovala operacijama kao što su:

Obično mali rečnik sufiksa kontroliše proces brisanja sufiksa, a dodatna morfološka pravila se pozivaju da bi rukovala operacijama kao što su: