sözlə, kodlaşdırıcı qurğu real obyekti parametrlərdən ibarət obyektə çevirərkən
eyni real obyekti həmişə eyni parametrlər obyektinə çevirir. Aydındır ki, belə
fərziyyə həmişə ədalətli ola bilməz. Çünki, ixtiyari kodlaşdırıcı qurğunun özü
ş
uma malikdir və bundan başqa obyektin özü öz təbiətinə görə güclü şuma malik
ola bilər. Bütün bunlar x
1
,…x
n
əlamətlər çoxluğuna n ölçülü təsadüfi kəmiyyət
kimi baxmağa imkan verir. Bundan əlavə, bu və ya digər obyektin meyüdana
gəlməsi öz növbəsində ehtimal qanunlarına tabe ola bilər. Başqa sözlə, bu və ya
digər qrupa aid edilən obyektin meydana gəlməsi ehtimalından danışmaq olar.
Belə hesab edəcəyik ki, l ədəd n ölçülü şərti paylanma funksiyası mövcuddur
(onlar qeyri-müəyyəndir) F(x/k
j
). Burada x X çoxluğundan olan ixtiyari nöqtə, K
j
isə göstərir ki, obyekt (təsadüfi kəmiyyət) K
j
(j=1,…,l) qrupuna mənsubdur.
Meydana gələn obyektin j qrupuna mənsub olması ehtimalı p
j
-da mövcuddur (bizə
məlum olmaya da bilər). Bu halda müəyyən x obyektinin tanınması məsələsini l
statistik fərziyyənin (H
j
) sınağı məsələsi kimi də formalaşdırmaq olar. Burada, H
j
(j=1,…,l) fərziyyəsi x obyektinin K
j
qrupuna aid edilməsi haqqında fərziyyədir. Bu
halda öyrənmə çoxluğu general çoxluqdan F(x/k
j
) paylanma funksiyası və p
j
ehtimalına uyğun olaraq alınmış məhdud miqdarda obyektdir. Bu halda tanıma
məsələsinin həlli r(x) həlledici qaydasının qurulmasından ibarətdir. R(x)=k
j
H
j
fərziyyəsinin qəbul edildiyini müəyyən edir. Aydındır ki, fərziyyəni seçməyə
imkan verən həlledici qayda elə olmalıdır ki, müəyyən keyfiyyət kriteriyası
ekstremum qiymət alsın. Belə kriteriya kimi, məsələn, səhv təsnifləşdirmə
ehtimalını götürmək olar. Digər tərəfdən, öyrənmə üçün ixtiyarımızda olan
obyektlərin miqdarı məhdud olduğundan optimal həlledici qaydanın dəqiq
qurulması demək olar ki, mümkün deyil.
Həlledici qaydanın qurulmasının müxtəlif metodlarına baxaq.
Bayesov həllediji qaydası. Tutaq ki, həqiqətdə x obyekti K
i
qrupuna mənsub
olduğu halda r həlledici qaydası onu müəyyən j qrupuna aid edir. Bu vaxt meydana
gələn itkini L
i
r
-lə, orta itkini, başqa sözlə orta riski isə M
r
-lə işarə edək.
∫ ∑
=
=
x
l
i
i
r
i
i
r
k
L
P
M
x
dF
1
/
(
)
olduğunu müəyyən etmək olar.
Orta riskə r həlledici qaydasının keyfiyyətini xarakterizə edən funksional kimi
baxılır. Optimal həlledici qayda r* orta riski minimumlaşdırmalıdır. Belə qaydanı
Bayesov həlledici qaydası adlandırırlar.
Ehtimalın paylanmasının approksimasiyası. Bayesov həlledici qaydasının
qurulması və orta itkinin tapılması üçün öyrənmə çoxluğu əsasında F(x/k
i
)
paylanma funksiyası və ya P(x/k
i
), I=1,…,L paylanma sıxlığı və habelə P
1
, …,P
L
ehtimalları müəyyən edilməlidir. Əgər heç bir başqa aprior informasiya məlum
olmazsa, bu, qeyri-parametrik məsələ olur.
Adətən ehtimalın paylanmasını (paylanma sıxlığını) histoqramın köməyi ilə
approksimasiya edirlər. Lakin bu metod çoxlu sayda nöqtələrin məlum olmasını
tələb edir. Həm də nöqtələrin miqdarı paylanma ölçüsünün artması ilə kəskin artır.
Adətən X obyektlər fəzası böyük ölçüyə malik olur, öyrənmə çoxluğunda
obyektlərin miqdarı isə az olur. Buna görə də histoqramın qurulması praktiki
olaraq qeyri-mümkündür. Belə hallarda approksimasiya üçün başqa proseduralar
istifadə edirlər. Belə approksimasiya proseduralarının yığılan olması (ehtimal
mənasında) sualı əsas yer tutur.
Tanıma məsələlərinin həlli zamanı demək olar ki, çox tez-tez paylanma
funksiyası F(x/k
i
) ixtiyari olmayıb, parametrik verilən müəyyən funksiyalar
ailəsinə mənsüb olur. Başqa sözlə ailənin bütün funsiyaları =(
I
,…,
k
)
parametrlərindən asılı olub, eyni analitik görünüşə malik olur f=f().
I
,…,
k
parametrlərinə konkret qiymətlər verməklə bu parametrik ailənin müəyyən
funksiyalarını almaq olar. Məsələn, tutaq ki, n=1 və şərti paylanma funksiyası
F(x/k
i
) normaldır. Bu o deməkdir ki, paylanma sıxlığı aşağıdakı kimidir:
e
k
k
x
x
p
x
p
i
i
α
α
π
α
α
α
2
2
2
2
2
1
)
1
(
2
1
)
,
;
/
(
)
/
(
−
=
=
−
burada,
1
və
2
uyğun olaraq riyazi gözləmə və dispersiya mənasına malik
olan paylanma parametrləridir. Beləliklə, paylanmanın şərti funksiyasının normal
paylanma funksiyasının ikiparametrli ailəsinə mənsub olması güman edilir.
1
və
2
ümumiyyətlə, K
i
-dən asılıdır.
Bu halda şərti paylanma funksiyasının F(x/k
i
; ), (I=1,…,L) müəyyən edilməsi
məsələsi, parametrik adlanır. Aydındır ki, verilmiş halda paylanma funksiyasının
müəyyən edilməsi parametrlər vektorunun elə dədqiq qiymətlərinin axtarılması
deməkdir ki, bu qiymətlərdə paylanmanın şərti funksiyası tanınacaq obyektlərin
paylanmasının həqiqi funksiyası olur. Bu məsələni həll etmək üçün, adətən,
statistikada məlum olan maksimum həqiqətəuyğunluq metodu istifadə edilir.
2.4. Klaster-analizin elementləri.
Ə
vvəl olduğu kimi belə hesab edək ki, X obyektlər fəzası verilmişdir. Bu
fəzadan olan x
1
,…, x
m
obyekt qrupları da verilmişdir. Bu obyektlərin həqiqi
təsnifatı qəbaqcadan məlum olduqda, x
1
,…,x
m
-i öyrənmə çoxluğu adlandırırdıq.
Bu halda tanıma məsələsi x obyektinin öyrənmə çoxluqları ilə təqdim olunmuş
qruplardan birinə aid olunması kimi qoyulurdu. Indi məsələni mürəkkəbləşdirək.
Belə hesab edək ki, x
1
,…, x
m
obyektlərinin həqiqi təsnifləşməsi haqqında
informasiya yoxdur. Bu halda tanıma məsələsi dedikdə x
1
,…, x
m
obyektləri
çoxluğunun onların oxşarlığı üzrə qruplara bölünməsi başa düşülür. Bu məsələ
habelə, taksonomiya məsələsi, özü öyrənməklə tanıma məsələsi də adlandırılır.