257
ləri həmin saytları axtarış üçün hazır etdikdə, onlar həmin
zonadan çıxarılır.
İkinci yanaşma birincinin əksinə olaraq, bəzi aspektlər
(məsələn, avtoritetə malik saytlardan müraciət, aktual və
unikal məzmun və s.) nəzərə alınaraq, yeni yaranmış sayta
indeksləşdirmə zamanı birbaşa yüksək PageRank qiyməti
mənimsədilir və onlar axtarışın nəticəsində yaxşı yerləri
tuturlar. Lakin müəyyən vaxt keçdikdən sonra bu göstəri-
cilər həmin saytlardan götürülür və onlara real göstəricilər
mənimsədilir.
9.4.2. Sıralama (nizamlama) alqoritmi
Google sisteminin müasir alqoritmləri istifadəçilərin nə
axtardıqlarını dəqiq müəyyənləşdirmək və axtarış nəticə-
sində tapılmış sənədlərin onlara təqdim olunması ardıcıl-
lığını müəyyən etmək üçün 200-dən artıq müxtəlif siqnal
və açardan istifadə edir. Bu zaman sözlərin səhifələrdə
mövcud olması, səhifədə yerləşdirilmiş informasiyanın ak-
tuallığı, istifadəçinin yerləşdiyi yer, səhifənin malik ol-
duğu PageRank qiyməti və s. parametrlər nəzərə alınır.
PageRank – istinadlara görə nizamlama alqoritmidir.
Bu alqoritm bir-biri ilə hiperistinadlarla bağlı olan sənəd-
lər (web-səhifələr) kolleksiyasına tətbiq olunur. Burada
hər bir sənədə onun digər sənədlərlə müqayisədə “vacibli-
yini” və ya “avtoritetliyini” göstərən müəyyən ədədi qiy-
mət mənimsədilir. Bu ədədi qiymət web-səhifəyə istinad-
ların sayından və həmin istinadların məxsus olduğu web-
səhifələrin səviyyəsindən asılı olur. Belə ki, hər hansı
web-səhifəyə istinadların sayı nə qədər çox olarsa, o, bir o
qədər “vacib” hesab olunur. Eyni zamanda, web-səhifəyə
istinad edən digər web-səhifələrin çəkiləri (“vaciblikləri”)
258
nə qədər yüksək olarsa, istinad olunan səhifənin “vacib-
liyi” də bir o qədər yüksək olar.
Başqa sözlə, PageRank – web-səhifəyə başqa web-sə-
hifələrdən istinadların vacibliyini nəzərə almaqla onun
çəkisinin hesablanması üsuludur. Burada PageRank qiy-
məti (vaciblik dərəcəsi) hesablanan web-səhifə akseptor-
səhifə, bu web-səhifəyə istinad edən digər web-səhifə isə
donor-səhifə adlanır. PageRank axtarışın nəticələrində
saytların nizamlanması zamanı istifadə olunan köməkçi
amillərdən biri olub, sorğuya görə tapılmış saytların axta-
rışın nəticəsi kimi istifadəçiyə təqdim olunması ardıcıllığı-
nı müəyyən etmək üçün Google tərəfindən istifadə olunur.
S.Brin və L.Peyc tərəfindən təklif olunmuş PageRank
üsulunda web-səhifələrin vaciblik dərəcəsini müəyyən
etmək üçün aşağıdakı düsturdan istifadə edilir:
n
n
T
C
T
PR
T
C
T
PR
d
d
A
PR
...
1
1
1
,
Burada PR – web-səhifəyə mənimsədilən PageRank qiy-
mət, d – donor-səhifənin akseptor-səhifəyə ötürdüyü çəki
hissəsini əks etdirən əmsal (adətən onun qiymətini 0,85
götürürlər, yəni donor-səhifə akseptor-səhifələrə çəkisinin
85%-ə qədərini verə bilər), n – web-səhifəyə (akseptor-
səhifəyə) istinad edən web-səhifələrin (donor-səhifələrin)
sayı, T
i
– i-ci istinad edən web-səhifə, C – donor-səhifədə
olan kənar istinadların sayıdır.
9.4.3. Biliklər qrafı (Knowledge Graph)
Google tərəfindən reallaşdırılan bu texnologiyanın əsa-
sını semantik axtarış təşkil edir. Biliklər qrafı istifadəçinin
nə istədiyini daha dəqiq başa düşməyə, axtarış sahəsini
259
(zonasını) müəyyən etməyə və axtarışın dəqiqliyini artır-
mağa imkan verir. Biliklər qrafının tətbiqi aşağıdakı üs-
tünlükləri yaradır:
- axtarış sorğusunun məqsədini daha yaşxı başa düşmək;
- axtarış sorğusuna uyğun olan axtarış sahəsini (zona-
sını) genişləndirmək;
- axtarış sorğusuna cavab olaraq informasiyanın veril-
məsini sadələşdirmək (əgər üç ayrı-ayrı sorğu mahiy-
yət etibarı ilə eyni olarsa, Google onlara eyni cavab
verəcəkdir);
- axtarış ifadəsinin semantik təhlili hesabına daha dəqiq
axtarış nəticəsini təklif etmək;
- kontekst reklam üçün daha yaxşı axtarış nəticəsi təq-
dim etmək.
9.4.4. Google hummingbird (kolibri) alqoritmi
Google sistemi axtarış sorğusuna daha geniş cavab ver-
mək, nəticəni genişləndirmək və daha münasib variantın
seçilməsinə imkan yaratmaq məqsədilə sinonim sözlərdən
istifadə edir. Lakin bu zaman nəzərə alınır ki, sinonim
sözlər konteksdən asılı olaraq bəzən sinonim mənalarda
çıxış etmirlər. Ona görə də, daha münasib cavabların seçil-
məsi üçün sözlərin semantik (mənaya görə) təhlili prinsi-
pindən istifadə edilir. Bu isə Google sisteminə axtarış
ifadələrini daha yaxşı və tez başa düşməyə imkan verir.
9.4.5. Google sisteminin web-axtarış spamları ilə
mübarizəsi
Saytların indeksləşdirilməsi zamanı axtarış sistemləri
tərəfindən yalnız saytın relevantlığı, nüfuzluluğu, etibarlığı
260
və digər keyfiyyət göstəriciləri deyil, eləcə də spamlılıq
dərəcəsi nəzərə alınır. İnformasiya axtarışının təşkili üzrə
Google şirkətində müxtəlif qruplar fəaliyyət göstərir. Bu
qruplardan biri axtarışın və onun nəticəsinin keyfiyyətinin
təmin olunması ilə məşğul olur. Bu qrup tərəfindən 2011-ci
ildə işlənib hazırlanmış “Panda” alqoritmi axtarışın keyfiy-
yətinin yüksəldilməsinə xidmət edir.
Digər bir qrup axtarış spamları ilə mübarizə üzrə fəa-
liyyət göstərir. 2012-ci ildə bu qrup tərəfindən hazırlanmış
“Penguin” alqoritmi web-spamlarla mübarizə məqsədilə
yaradılmışdır.
Hər gün internetdə spamları olan milyonlarla web-sə-
hifə peyda olur. Google-da bu spamların istifadəçilərə ma-
ne olmaması üçün saytların avtomatik və əllə yoxlanması
üçün effektiv üsullardan istifadə edilir. Özündə spam sax-
layan web-səhifələr fırıldaqçılıq yolu (açar sözlərin süni
şəkildə çoxlu sayda təkrarlanması, yüksək PageRank ve-
rən istinadların alınması, görünməz, gizli mətnlərin istifa-
dəsi və s.) ilə yüksək reytinq qazanmağa və axtarışların
nəticələrində yuxarı yerlərə (sətirlərə) qalxmağa çalışırlar.
Nəticədə həqiqi faydalı saytlar axtarışın nəticəsi siyahısı-
nın sonuna doğru sıxışdırılır, lazımi məlumatların tapılma-
sı çətinləşir və axtarışın effektivliyini aşağı düşür.
Web-saytlarda müxtəlif növ web-spamlardan istifadə
olunur. Lakin Google-un alqoritmləri web-spamların əksər
növlərini identifikasiya etməyə (tanımağa) imkan verir.
Qalan (avtomatik aşkar olunmayan) web-spamları Google-
un əməkdaşları “əllə” müəyyənləşdirirlər. Google web-spam
aşkar olunmuş saytların reytinqini avtomatik olaraq aşağı
salır. Web-səhifələrdən web-spamların təmizlənməsi üçün
Google müxtəlif alqoritmlərdən istifadə edir. Onlardan əsas
ikisi Google Panda və Google Penguin alqoritmləridir.
Dostları ilə paylaş: |