Usul
Sinfi
Yutug’i
Kamchiligi
Ma’lumot
Tezligi
CURE
Iyerarxik
(aglomerativ)
Turli o‘lchamli
va murakkab
shakldagi
klasterlarni
quradi
Porog qiymati va
klasterlar sonini
talab qiladi
sonli
O(n
2
)
BIRCH
Iyerarxik
(divizim)
Klasterlash
tezligi baland,
Ikki etapli
2-etapda boshqa
algoritm ishlatiladi
sonli
O(n
2
)
CLARA
(Kafman-
Rassel
algoritmi)
Iterativ
Katta Mbda
ishlaydi, yaxshi
klasterlaydi
Obraz bo‘yicha
klasterlaydi va
uning sifatiga
bog‘liq
sonli
O(max(n, m)),
m < n(n-1)/2
MST
Iyerarxik
(divizim)
Qavariq va botiq
klasterlar quradi.
Klaster sonini talab
qilad
ixtiyoriy
O(ElogV)
k-means
Iterativ
Sodda va tez
ishlaydi,
Tez xatoga yo‘l
qo‘yadi
Kichik
xajmli
O(nkl), k –
klaster soni, l
– iterasiya
soni
PAM
Iterativ
Sodda va tez
ishlaydi,
xatolikka
sezgirligi k-
means dan
kamroq
klasterlar sonini
talab kiladi, katta
Mbda sekin
ishlaydi
sonli
O(nkl), k –
klaster soni, l
– iterasiya
soni
CLOPE
Iterativ
Tez hisob-laydi
va interpreta-
siyalanadi,
klasterlar sonini
avtomatik
tanlaydi
Tez xatoga yo‘l
qo‘yadi
kategoriyali
O(nkl), k –
klaster soni, l
– iterasiya
soni
Koxonena
Notiniq
O‘zi tashkil
qilinadagan
neyrotarmoq,
tadbiqi oson,
tarmoqni
o‘rganish
o‘qituvchisiz,
kafolatli
Faqat sonlar bilan
ishlaydi, tarmoq
o‘lchami minimal,
klasterlar sonini
talab qiladi
sonli
O(n
2
log n)
Hard C –
Means
Iterativ
Oson
qo‘llaniladi,
hisoblash sodda
klaster sonini talab
qiladi va optimal
yechim
kafolatlanmagan
sonli
O(nkl), k –
klaster soni, l
– iterasiya
soni
Fuzzy C-
means
Notiniq
Klaster
chegarasidagi
obyektlarni
aniqlaydi
Murakkab
xisoblashlar,
klaster sonini talab
qiladi
sonli
O(nkl), k –
klaster soni, l
– iterasiya
soni
51
3-jadval. Algoritmlarning ishlash vaqtini (sekundlarda) kiruvchi elementlar
soniga bog‘liqligi
Algoritmlar
turi
500
Elementlar
1000
Elementlar
1500
Elementlar
2000
Elementlar
2500
Elementlar
CLARA
(Kafman-
Rassel
algoritmi)
5,459
46,703
180,820
385,016
777,763
MST
0,344
2,832
12,212
23,095
55,579
k-means
0,020
0,084
0,221
0,375
0,596
PAM
0,357
2,837
10,782
22,940
49,787
CLOPE
0,339
2,813
10,054
22,505
43,669
Koxonena
0,347
2,828
10,789
23,195
55,752
Hard C –
Means
0,017
0,081
0,217
0,363
0,580
Fuzzy C-
means
0,036
0,162
0,483
0,717
1,352
52
II bob bo’yicha xulosalar
Ushbu bobda ma‘lumotlarni intellektual tahlil etish jarayonida
klasterizatsiya masalasi algoritmlari aks ettirilgan bo‗lib, paragrafning birinchi
qismida klasterizatsiya masalasini tizimli yechishning formal qo‘yilishi va
algoritmlar tahlillari to‘g‘risida ma‘lumotlar berilgan va ular qarab o‗tilgan. Bu
paragrfda kalasterizatsiya usuli algoritmlari qadamlari oydin yoritib berilgan.
Ushbu algoritmlar Aglomerativ algoritmlar, Divizim algoritmlari, noierarxik
algoritmlar, k-means, Fuzzy C-means, Gustafson-Kassel bo‘yicha klasterlash
kibi algoritmlar o‘rganildi va ushbu algoritmlar asosida II bobning ikkinchi
qismida esa klasterizatsiya algoritmlarida qo‘llaniladigan masofaga asoslangan
yaqinlik darajasining o‘lchovi keltirildi. Uchunchi qismida esa o‘rganilgan
algoritmlarning qiyosiy tahlili qilindi. Tahlillar natijasida algoritmlarning bir-
biridan farqli jihatlari algoritmning yutug‘i, kamchigi, ma‘lumotlar bilan ishlash
turlari, ishlash tezligi, qulaylilik darajasi ushbu qismda jadvallar asosida
keltirilgan.
53
III BOB. MA’LUMOTLARNI INTELLEKTUAL TAHLILIDA
KLASTERIZATSIYA ALGORITMLARI DASTURIY
TA’MINOTLARINING AMALIY TADBIQLARI
1.
Klasterizatsiya usullari uchun amaliy dasturiy paketlarda
ishlash
Ma‘lumotlar intellektual tahlili usullarining ayrimlari uchun professional
statistik va matematik paketlarda turli dasturiy modullar ishlab chiqilgan.
Masalan, MATLAB – matritsaviy laboratoriya paketi va qiymatlar statistik tahlil
qilishga mo‘ljallangan SPSS paketi, ma‘lumotlarni intellektual tahlil qilish
WEKE (
Waikato Environment for Knowledge Analysis
) dasturiy paketlarini
misol qilib keltirish mumkin. Bu paketlar yordamida turli sonli va analitik
(simvolli) ma‘lumotlarni klassifikatsiya va klasterizatsiya masalalari orqali tahlil
qilish, dendogrammalarni hosil qilish, vizuallashtirish imkoniyatlari mavzud.
1.1. SPSS – ijtimoiy fanlar statistik paketida klasterizatsiya moduli
SPSS (inglizcha
«Statistical Package for the Social Sciences»
—
«statistik fanlar uchun statistik paket») — ma‘lumotlarni statistik qayta ishlash
kompyuter dasturi bo‘lib, ijtimoiy ilm-fanda amaliy tadqiqotlar o‘tkazishga
mo‘ljallangan tijorat dasturlari bozorida peshqadamlaridan biri hisoblanadi
1
. Bu
dasturning birinchi versiyasi 1968 yilda Norman Nay, Xedli Xall va Deyl
Bentlar
(talabalar)
tomonidan
yaratilgan
va
Chikago
universitetida
rivojlantirilgan. 1975 yilda
SPSS Inc
alohida kompaniya bo‘lib, 1992 yilda
Microsoft Windows ostida paketning
birinchi versiyasi chiqqan. Xozirgi kunda
uning 10 dan ziyod paketlari Mac OS X va Linux OS lari uchun ham yaratilgan.
Ishda 2008 yil aprel oyida chiqqan SPSS16.0.1Evaluation versiyasida
klasterizatsiyalash usullarini tadqiq qilindi[32].
Misol uchun, bizga tibbiyot muassasasi tomonidan yig‘ilgan o‘smirlar
haqidagi ma‘lumotlar 1-ilovadagi 1-jadval ko‘rinishda berilgan bo‘lsin, bu
ma‘lumot asosida ularni maktab sinflariga sinflashtirishni SPSS – ijtimoiy fanlar
uchun statistik paketida bajarib ko‘ramiz.
1
http://ru.wikipedia.org/wiki/SPSS
54
Jadvaldagi
x
1
– o‘smirlar yoshini bildiradi,
x
2
– o‘smirlar jinsi 1 (o‘gil
bola) va 0 (qiz bola) bilan berilgan. Jami 861 ta satrni ob‘yekt sifatida
qaralganda, berilgan 861 ta ob‘yekt 2 ta belgi bilan berilgan deyiladi.
3.1-rasm. SPSS statistik paketining ma‘lumotlarni taxrirlash oynasi va
k
-means
usulida klasterizatsilash modulini ishga tushirish
SPSS paketida bu ma‘lumotlarni fayldan yuklash mumkin (3.1-rasm).
Taxrirlash oynasi yoki asosiy oynaning menyusida Analyze/Classify/K-means
bo‘limi tanlash orqali yuklangan ma‘lumotlarni
k
-means algoritmi asosida
klasterizatsiyalash mumkin.
k
-means klassifikatorning parametrlar (3.2-rasm)
oynasida natijalarni bayon qilish va asosiy faktorlarni tanlash mumkin.
55
a) b)
3.2-rasm.
k
-means klasteizatsiya uchun parametrlarni tanlash oynasi: a) –
parametr darchasi; b) – Options… - sozlash darchasi.
Number of Cluster: taxrir satriga bizga kerakli klasterlar soni kiritiladi,
ushbu misolda o‘smirlarni maktab sinflari bo‘yicha klasterlashimiz uchun
klasterizatsiya soni 9 deb olindi. Natijada SPSS paketi asosiy oynasida quyidagi
natijaviy jadvallar hosil qilindi (3.3-rasm).
1.1-jadval. Natijaviy klasterlar markazlari.
Dostları ilə paylaş: |