Microsoft Word Qasimov-ias docx



Yüklə 3,02 Kb.
Pdf görüntüsü
səhifə64/74
tarix17.10.2017
ölçüsü3,02 Kb.
#5225
növüDərs
1   ...   60   61   62   63   64   65   66   67   ...   74

233 
tinə çevrilmişdir. Bu istiqamətdə müəllif tərəfindən elmi 
araşdırmalar aparılmış, qeyri-səlis çoxluqlar və münasibətlər 
nəzəriyyəsinə əsaslanan üsullar təklif edilmişdir. 
İnformasiya ehtiyatlarının məzmunundan daha əhəmiy-
yətli terminlərin seçilib çıxarılmasına və onların vaciblik 
dərəcələrinin hesablanmasına imkan verən üsullar avto-
matik indeksləşdirmə üsulları  adlanırlar.  
Bu növ indeksləşdirmə üsullarını reallaşdıran axtarış sis-
temləri mütəxəssislərin və ekspertlərin iştirakı və müdaxiləsi  
olmadan işləyirlər. Yuxarıda qeyd olunduğu kimi, bu sistem-
lərin əsas komponentlərindən biri olan axtarış robotları inter-
net şəbəkəsinin saytlarını "gəzir", bu saytlarda olan informa-
siya ehtiyatları haqqında məlumatları toplayır və onları xü-
susi formada öz bazalarına daxil edirlər. Bu halda informa-
siya ehtiyatlarının tematik bölgüsü aparılmır və informasiya 
axtarışı yalnız açar sözlərə görə həyata keçirilir. 
İndeksləşdirmə zamanı saytlarda olan web-səhifələrin 
hansının indeksləşdiriləcəyini axtarış robotları müəyyən 
edirlər. Lakin web-səhifələrin sahiblərinin arzusunu nəzə-
rə almaq məqsədlə xüsusi standart – robotlar üçün istisna-
etmə standartı istifadə olunur. Robotlar üçün istisnaetmə 
standartının mahiyyəti aşağıdakından ibarətdir: web-sayt-
ların administratorları öz serverlərində "robot.txt" faylı ya-
radır və bu faylda saytın web-səhifələrinin indeksləşdiril-
məsinə icazənin verilməsini və ya müxtəlif məhdudiyyət-
lərin qoyulmasını göstərirlər. Başqa sözlə, bu faylda "kə-
nar" robotlar tərəfindən saytın indeksləşdirilməsi siyasəti 
təsvir olunur. 
Avtomatik indeksləşdirmə zamanı  əlavə  çətinlik yara-
dan aspektlər, yəni zəif cəhətlər aşağıdakılardan ibarətdir: 


 
 
234 
 
-  indeksləşdirilən sənədlərdə müəlliflər tərəfindən mə-
nası eyni (identik) olan anlayışların ifadəsi (təsviri) 
üçün müxtəlif terminlərdən istifadə oluna bilər. 
Məsələn, ingilis dilli mənbələrdə "informasiya axta-
rışı" termini bəzən "information retrieval", bəzən isə 
"information search" formalarında istifadə edilir;  
-  indeksləşdirilən sənədlərdə müvafiq sahədə geniş is-
tifadə olunmayan və ya tematik rubrikatora daxil ol-
mayan termin əhəmiyyətli açar söz kimi seçilə bilər, 
lakin bu terminin sinonimləri olan digər terminlər 
həmin sənəd üçün daha əhəmiyyətli ola bilər; 
-  bəzi terminlər tematika üzrə kifayət qədər yaxın olan 
başqa terminlərə assosiasiya yarada bilər; 
-  indeksləşdirilən sənədlərdə terminlər əvəzinə onların 
ingilis, latın və ya digər dillərdə ekvivalentləri istifa-
də oluna bilər; 
-  eyni tematika üzrə ayrı-ayrı sənədlərin dilləri müxtə-
lif ola bilər. 
Yuxarıda sadalanan amilləri nəzərə almadan axtarışın 
nəticəsinin bilavasitə asılı olduğu indeksləşdirmə prosesi-
nin arzu olunan səviyyədə keyfiyyətlə aparılmasını təmin 
etmək mümkün deyil. Burada sinonimlərdən və assosiativ 
sözlərdən, habelə onların başqa dillərə  tərcümələrindən 
ibarət lüğətlərin yaradılması və istifadəsi vəziyyətdən çıxış 
yolu ola bilər.  
Bundan  əlavə, axtarış sistemlərinin istehsalçıları  tərəfin-
dən indeksləşdirmənin keyfiyyətini yaxşılaşdırmaq və  əhə-
miyyətsiz sözlərin indeks qismində qəbul olunmasının qarşı-
sını almaq məqsədilə qadağan olunmuş ("stop-words"), 
ümumi təyinatlı, köməkçi və xidməti sözlərdən (bağlayıcılar, 
əvəzliklər, fellər, bəzi dillərdə sözönü şəkilçilər və s.) ibarət 


235 
lüğətlər istifadə olunur. Eyni zamanda indeksləşdirmə pro-
sesində leksik vahidlərin normallaşdırılması həyata keçirilir.  
Lüğətlərin və indekslər bazalarının süni surətdə şişirdil-
məməsi üçün sənədlərin axtarış obrazlarına daxil edilən 
terminlərə  çəki  əmsalları  mənimsədilir. Bu əmsallar hər 
bir terminin verilən sənəd üçün əhəmiyyətlilik dərəcəsini 
müəyyən edir.  
Çəki əmsalları [0,1] intervalında qiymət alır. Əgər əmsal 
0 qiyməti alırsa, bu o deməkdir ki, termin sənəddə rast gəlin-
məmişdir, yəni termin sənəd üçün heç bir yaxınlıq (rele-
vantlıq) münasibətinə malik deyildir. Əmsalın qiymətinin 1 
olması isə terminin sənədin məzmununa tam (100%) uyğun 
gəldiyini göstərir. 
Beləliklə, daha əhəmiyyətli terminlər, məsələn, 0.5-dən 
artıq çəkiyə malik olan terminlər, yəni çəki əmsalı [0.5;1] 
intervalında olan terminlər sistemin indekslər bazasına da-
xil edilir. 
Hazırda internet şəbəkəsində Google, Baidu, Bing, 
Yahoo, Excite, AltaVista, Lycos, Stars, Infoseek, Yandex, 
Rambler, Aport və s. kimi çoxlu sayda məşhur informasi-
ya-axtarış sistemləri fəaliyyət göstərir. Bu sistemlərə qo-
şulan istifadəçilərə bilavasitə  və ya dolayısı ilə internetin 
müxtəlif saytlarına giriş imkanı verilir. Onların köməyi ilə 
istifadəçilər öz sorğularını formalaşdırır, axtarışı  həyata 
keçirir və tapılan sənədlərin, eləcə  də web-səhifələrin 
URL ünvanlarını əldə edirlər.   
Qeyd olunan axtarış sistemlərinin əksəriyyəti istifadəçi-
lərə idman, kino, musiqi sahəsində  məlumatlardan, kom-
püter oyunlarından, eləcə də elmi məqalələrdən, kitablar-
dan, layihələrdən və s. kimi ehtiyatlardan ibarət olan müx-
təlif sənədləri, web-səhifələri, faylları özündə saxlayan te-


236 
matik kataloqlar təqdim edir. Avtomatik indeksləri reallaş-
dıran digər sistemlər isə açar sözlərə (terminlərə)  əsasən 
dünyanın ayrı-ayrı ölkələrində yerləşən saytlardan müxtə-
lif məzmunlu sənədlərin axtarışını  həyata keçirir. Bu sis-
temlər təqdim olunan xidmətlərin növlərinə, əhatə etdiklə-
ri mövzulara və saytlara, habelə indeksləşdirmə  və kata-
loqlaşdırma alqoritmlərinə görə bir-birindən fərqlənirlər. 
8.5.  Axtarış spamları və onlara qarşı mübarizə 
Axtarış spamı (spamdeksinq və ya web-spam) – axtarı-
şın nəticəsində yüksək mövqe qazanmaq məqsədilə infor-
masiya-axtarış sistemlərini aldatmaq və onun nəticələrini 
manipulyasiya etmək üçün çəhd edən web-saytlar və ya 
səhifələrdir. Axtarış spamları son nəticədə istifadəçilərin 
aldadılmasına yönəlmiş olur.  
Axtarış spamı informasiya-axtarış sistemləri tərəfindən 
axtarışın nəticələrinə daxil edilməsini (yeridilməsini) tə-
min etmək məqsədilə məqsədyönlü şəkildə saytların qeyri-
obyektiv (“qara”) optimallaşdırılması üçün nəzərdə tutul-
muş geniş istifadə olunan alətdir. 
Bu gün saytların internetdə irəliləməsi (daha geniş tanı-
dılması) məqsədilə axtarış spamlarının tətbiqinə qadağa 
qoyulmasına baxmayaraq, praktiki olaraq, bu texnologi-
yadan çox istifadə olunur. Axtarış spamlarını düzgün isti-
fadə edilməsi qısa zamanda web-saytın tanınmasına və 
ona müraciətlərin həcminin artmasına kifayət qədər  əhə-
miyyətli təsir göstərə bilər.  
Bir çox hallarda yeni fəaliyyətə başlayan web-sayt 
mütəxəssisləri bilmədən axtarış spamının bu və ya digər 


Yüklə 3,02 Kb.

Dostları ilə paylaş:
1   ...   60   61   62   63   64   65   66   67   ...   74




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə