kredit kartochkalari bo‘yicha
kunlik xaridlarning o‘rtacha
qiymati qancha?
Kredit kartochka bo‘yicha
qalloblik holatlari uchun bir xillik
sxemasi mavjudmi?
Data Mining uchun muhim holat – izlab topilgan shablonlarning
ma‘noliligi. Bu topilgan shablonlar maxfiy bilimlar (hidden knowledge) deb
ataluvchi ma‘lumotlarda tasavvur qilinmagan, kutilmagan (unexpected)
muntazamlikni tasvirlashi kerak. Jamiyat shunday fikrga keldiki, zarur
(cырые) ma‘lumotlar (raw data) chuqur bilim manbai bo‗lib, uni savodli
15
izlashdan haqiqiy bilimlar topiladi (1.2-rasm).
1.2-rasm. Ma‘lumotlardan olinadigan bilimlar darajasi
Data Mining texnologiyasiga, bu texnologiya asoschilaridan biri Grigoriy
Piatetskiy-Shapiro etarlicha to‗liq ta‘riflaydi:
Data Mining - bu zarur ma‘lumotlarda inson faoliyatining turli
sohalarida echimlarni qabul qilish uchun zarur bo‗lgan noma‘lum, ma‘noli,
amaliy foydali va kirish mumkin bo‗lgan bilimlar interpretatsiyasini topib olish
jarayonidir[9].
2. Ma’lumotlar to’plami va ularning atributlari. Ma’lumotlar bazalari.
Data Mining usullari va bosqichlari
Keng ma‘noda ma‘lumot tushunchasi faktlar, matnlar, chizmalar, rasmlar,
ovozlar, analogli yoki raqamli video tasvirlarni o‘zida aks ettiradi.
Ma‘lumot o‘lchovlar, tajribalar, arifmetik va mantiqiy amallarni bajarish
jarayonida olinishi mumkin.
Ma‘lumotlarni saqlash, uzatish va qayta ishlash qulay bo‘lishi uchun
ularni ma‘lum bir obyektlar majmuasi shaklida tasvirlash kerak.
16
Obyektni atributlar to‘plami deb ta‘riflash mumkin. Obyekt yozuv,
hodisa, misol, jadvalning qatori va h.k. bo‘lishi mumkin va ular ma‘lum bir
o‘zgaruvchilar orqali namoyon etiladi.
Atribut obyektning xususiyatini ifodalovchi ma‘lumot yoki ma‘lumotlar
majmuasidir.
O‘zgaruvchi – bir obyekt xususiyatlariga ko‘ra boshqa bir obyektni hosil
qiluvchi tushunchadir.
Ma‘lumotlar tahlili davomida juda katta hajmdagi ma‘lumotlarni
o‘rganish qimmatli jarayonlarni, ko‘p vaqt sarflanishini talab etishini hamda
inson faktorlari hisobga olinsa ushbu jarayonda muqarrar xatoliklar yuz berishi
mumkin.
Ma‘lumotlarning barcha to‘plamlarining ba‘zi bir qismlari to‘liq qarab
chiqilib ya‘ni tanlanmalar asosida ulardan qiziqarli axborotlar olinib xulosa hosil
qilinadi.
O‘lchovlar–aniqlangan qoidaga muvofiq o‘rganilayotgan obyektlar
xususiyatlarining miqdoriy ko‘rsatkichidir.
Ma‘lumotlarni tayyorlanish jarayoni obyekt bilan emas uning
xususiyatlari bilan o‘lchanadi [12].
Shkala–DMning ko‘p uskunalari boshqa manbalardan ma‘lumotlarni
import qilishi davomida har bir o‘zgaruvchi uchun shkalalar turini tanlashi va
kiruvchi hamda chiquvchi (belgili, sonli, diskretli va uzluksiz) o‘zgaruvchilar
uchun ma‘lumotlar turini tanlash ko‘rsatkichidir. O‘lchovlarning besh turdagi
shkalalari mavjud:
nominal, tartibli, oraliqli, nisbiy va dixotomik
.
Nominal shkala (nominal scale) – faqat kategoriyalardan tuziladigan
shkaladir, uning ma‘lumotlari tartiblanmasligi mumkin va bu shkalalar ustida
hyech qanday arifmetik harakatlarni o‘tkazib bo‘lmasligi mumkin.
Bu
shkala
nomlanishlar, kategoriyalar, obyektlarning klassisfikasiyasi va
tartiblanishi yoki ba‘zi belgilar bo‘yicha kuzatishlar uchun quyilgan nomlardan
tuziladi.
Unga misol: kasblar, yashash joyi, oilaviy ahvoli va shu kabilar.
17
Bu
shkala
lar uchun faqat tenglik (=) va teng emas (≠) operasiyalari
qo‘llaniladi.
Tartiblangan shkala (ordinal scale) – obyektni nisbiy holatini belgilash
uchun xizmat qiladigan obyektlardan o‘zlashtiriladigan sonlar shkalasidir, lekin
ular orasidagi farq kattaliklari mavjud emas.
Shkala
o‘lchovlarga o‘zgaruvchilar qiymatlarini safga tizish (ranjirovat)
imkoniyatini
beradi.
Tartibli shkaladagi o‘lchovlar faqat keladigan
kattaliklarning tartiblanganligi haqidagi informasiyalardan tuziladi, lekin «bir
kattalik boshqasidan qanchalik katta» yoki «u qanchalik boshqasidan kichik»
deb mulohaza yuritishga yo‘l qo‘ymaydi.
Tartiblangan shkalaga misol: guruhning musobaqada olgan o‘rni (1-, 2-,
3-), talabaning qobiliyatlik reytingidagi tartib raqami (1-, 15- va h.k.) keltirilgan
bo‘lsin. Bu bilan bir talabaning boshqasidan qanchalik qobiliyatligini aniqlab
bo‘lmaydi, uning faqat reytingdagi raqamigina ma‘lum xolos.
Bu shkalalar uchun faqat tenglik (=), teng emas (≠), katta (>), kichik (<)
operasiyalari ishlatish mumkin.
Oraliqli shkala (interval scale) – bu shkala ikki kattlik orasidagi farqni
topishga ruxsat beradi, nominal va tartibli shkalalarning xususiyatlariga ega
bo‘ladi, hamda belgilarning miqdoriy o‘zgarishlarini aniqlashga ruxsat beradi.
Nominal va tartibli shkalalar diskret, oraliqli shkala esa uzluksiz bo‘ladi.
U belgining aniq o‘lchovlarini amalga oshirishga ruxsat beradi va qo‘shish,
ayirish, ko‘paytirish, bo‘lish arifmetik operasiyalari bajariladi.[36]
Bu shkala uchun faqat tenglik (=), teng emas (≠), katta (>), kichik (<),
qo‘shish (+), ayirish (-) operasiyalaridan foydalaniladi.
Nisbiy shkala (ratio scale) – aniqlangan sanoq boshida va shkalalar qiymatlari
orasidagi munosabatlarda mavjud bo‘lgan shkaladir[11,12].
Ma‘lumotlar bazalari. Ma‘lumotlar bazasi (Database) – bu
ma‘lumotlarning tashkil etilishi va saqlanishining o‘ziga xos elektron
ko‘rinishidir.
18
Tashkil etilishining o‘ziga xosligi – bu ma‘lumotlarni qandaydir aniq
usullar bilan tashkil etilishidir, bu usullar ularni qidirish, bir yoki bir nechta
ilovalarning murojaat etishini yengillashtiradi, hamda ma‘lumotlarni bunday
tashkil etish bilan ularning ortiqchaligini kamaytirish ko‘zda tutiladi.
MB informasion texnologiyalarning turli ko‘rinishlaridan biri hamda
ma‘lumotlarni saqlash formasi hisoblanadi.
MBni yaratishdan maqsad EHMda ma‘lumotlarni dasturiy ta‘minotga,
texnik qo‘llanilish muhitiga va fizik joylashuviga bog‘liq bo‘lmaydigan
tizimlarini qurishdan iboratdir. Ma‘lumotlarning bu tizimlarini qurish
ma‘lumotlarning bir-biriga zid emasligi va yaxlitligini ta‘minlashi kerak. MBni
loyihalashda uni ko‘pmaqsadli foydalanish mo‘ljallanadi
Ma‘lumotlar sxemasi – ma‘lumotlarni maxsuslashgan tilda
tasvirlanadigan va MBBT da qayta ishlanadigan mantiqiy strukturasini bildiradi.
Foydalanuvchi sxemasi – jadval maydonining bir variantidagi tartibi aniq
foydalanuvchilar uchun fiksirlanadi.
Ma‘lumotlar bazasini boshqarish tizimi(MBBT)- bu MBni tashkil
etilishini, saqlanishini, yaxlitligini, o‘zgarishlarni kiritish, o‘qish va
informasiyalarni xavfsizligini nazorat qiluvchi dasturiy ta‘minotdir.
MBBT jadval strukturalarini qurish va ularni ma‘lumotlarga to‘ldirish
yordamida u yoki bu MB olinadigan qolipni taqdim etadi.
Relyasion ma‘lumotlar bazasini boshqarish tizimi – bu relyasion modellar
asosidagi MBBTdir[11].
Ma‘lumotlarning relyasion modelida har qanday ko‘rinishdagi
ma‘lumotlar relyasion jadvallarda (o‘ziga xos turdagi ikki o‘lchovli jadvallarda)
yig‘iladi. Relyasion ma‘lumotlar bazasini boshqarish tizimidan ma‘lumotlar
omborini qurish uchun foydalaniladi.
Quyida ma‘lumotlarning bir nechta sinflanishalrini keltiramiz:
Relyasion ma‘lumotlar – bu relyasion bazadagi ma‘lumotlardir.
Ko‘p o‘lchovli ma‘lumotlar– bu OLAP ning kublarida keltiriladigan
ma‘lumotlar.
19
O‘lchov yoki o‘q– ko‘p o‘lchovli ma‘lumotlarda bir yoki boshqa tip
bo‘yicha ko‘p o‘lchovli MBni tizimlashtirishga xizmat qiladigan ma‘lumotlarni
yig‘ishdir.
Doimiylik mezoni bo‘yicha masalalarni yechilishida ma‘lumotlarning
qiymatlari quyidagicha bo‘lishi mumkin:
o‘zgaruvchan;
doimiy;
sharlti-doimiy
O‘zgaruvchan ma‘lumotlar – masalalarni yechish jarayonida qiymatlari
o‘zgarib boradigan ma‘lumotlardir.
Doimiy ma‘lumotlar - masalalarni yechish jarayonida qiymatlarini saqlab
qoladigan va tashqi faktorlarga bog‘liq bo‘lmaydigan ma‘lumotlardir.
Shartli-doimiy ma‘lumotlar – o‘z qiymatlarini gohida o‘zgartirib turadi,
lekin bu o‘zgarishlar masalaning yechilishidagi faktorlarga bog‘liq bo‘lmay,
tashqi faktorlar ta‘sirida yuzaga keladi[11].
Ma‘lumotlar shunday funksiyalarga bog‘liq bo‘ladiki, ularning vazifalari
yordamida ma‘lumotlar – ma‘lumotnomali, tezkor, arxivli bo‘lishi mumkin.
Ma‘lumotlarni – davriy ma‘lumotlar va ayni vaqtdagi ma‘lumotlarga
bo‘linishiga olib keladi. Bu bo‘linish axborotlarni yig‘ish sistemalarini
loyihalashtirish uchun muhim hisoblanadi.
Davriy ma‘lumotlar – qandaydir vaqt oralig‘ini tavsiflaydi. Bu
ma‘lumotlarga misol sifatida korxonaning bir oylik foydasi, oyning o‘rtachi
harorati kabilarni qarash mumkin.
Ayni vaqtdagi ma‘lumotlar – bir nechta o‘zgaruvchilarning aniq paytdagi
qiymatlarini taqdim etadi.
Ma‘lumotlar birlamchi va ikkilamchi bo‘ladi. Ikkilamchi ma‘lumotlar
aniqlangan hisoblashlar natijasida birlamchi ma‘lumotlarga o‘zgaradigan
ma‘lumotlardir. Ikkilamchi ma‘lumotlar qoidadagidek, saqlanayotgan axborotlar
hajmini kengayishi hisobiga foydalanuvchining so‘roviga tezkor javob olishga
olib keladi[12].
20
Metama‘lumotlar – bu ma‘lumotlar haqidagi ma‘lumotlardir. Uning
tarkibiga kataloglar, ma‘lumotnomalar, reyestrlarni kiritishimiz mumkin.
Metama‘lumotlar – ma‘lumotlar tarkibidagi xabarlarni tashkil etadi;
tuzilishi, kelib chiqishi, joylashishi, sifati, tasvirlanishi, formatlari va shakllari,
murojaat etish mumkinligi shartlari, olinishi va foydalanilishi va boshqalar.
Ma‘lumotlarni saqlanish joyida qo‘llaniladigan metama‘lumotlar uning
o‘rnatilishi va foydalanilishi uchun zaruriy axborotlardan tuziladi. Ular biznes-
metama‘lumotlar va tezkor metama‘lumotlarga bo‘linadi.
Biznes-metama‘lumotlar – biznes-terminlari va ta‘riflari, ma‘lumotlarning
belgilari va saqlanish xizmatida to‘lov qoidalaridan tashkil etiladi.
Tezkor metama‘lumotlar – ma‘lumotlarni saqlanishi vaqtida yig‘ilgan
axborotlardir:
Ma‘lumotlarning ko‘chirilishi va o‘zgartirilishini;
Ma‘lumotlardan foydalanish haq-huquqi (faollashtirish, arxivlangan va
o‘chirilgan);
Monitoring ma‘lumotlari - statistika foydalanadigan xatoliklar
haqidagi xabar va boshqalar[12].
Ma‘lumotlar bazasi texnologiyasining rivojlanishi 1968 yilda IBM
firmasining birinchi MBBT IMS tizimi ishlab chiqarishga kiritilgan. 1975 yilda
ma‘lumotlarning tarmoqli modeli uchun hozirgacha asos bo‗lib xizmat qiladigan
ma‘lumotlar bazasi tizimining nazariyasida bir qator fundamental tushunchalarni
aniqlaydigan ma‘lumotlarni qayta ishlash tizimining tillari bo‗yicha
assotsiatsiyasining birinchi standarti – Conference of Data System Languages
(CODASYL) hisoblanadi. Ma‘lumotlar bazasining keyingi rivojlanishiga
ma‘lumotlarning relyasion modelining yaratuvchisi hisoblanadigan amerikalik
matematik E.F. Koddning hissasi katta.
1980 yillar bu vaqt mobaynida tadqiqotchilar MB sini qurishning
yo‗nalishida yangi qurilishni va unga ruxsatli kirishni ta‘minlashni tadqiq
etadilar. Bu izlanishlarning maqsadi ma‘lumotlarni yanada oddiy modellashtirish
uchun relyasion prototipni olish hisoblanadi. Natijada 1985 yilda SQL deb
21
ataladigan til yaratildi. Bugungi kunda barcha MBBT lar asosan shu interfeysni
ta‘minlaydi.
1990 yillar ma‘lumotlarning spetsifik turlari paydo bo‗ladi – ―grafli
tasvir‖, ―ovoz‖, ―hujjat‖, ―xarita‖. SQL tiliga vaqt uchun ma‘lumotlar turlari,
vaqtlar intervali, belgilarni tasvirlashning 2 baytli belgili qatori qo‗shilgan. Data
Mining texnologiyasi, ma‘lumotlar saqlanadigan joy, multimediyali ma‘lumotlar
bazasi va ma‘lumotlarning web-bazalari paydo bo‗ldi.
Data Mining ning paydo bo‗lishi va rivojlanishi turli faktrlarga
asoslangan, ularning asosiylari quyidagilar hisoblanadi:
apparatli va dasturiy ta‘minotning mukammalligi;
ma‘lumotlarni saqlash va yozish texnologiyasining mukammalligi;
retrospektiv ma‘lumotlarning katta sonini yig‗ish;
axborotlarni qayta ishlash algoritmlarining mukammalligi[12].
Data Mining uslublari va bosqichlari. DMning asosiy xossasi bu – keng
matematik instrumentlarni (avvalgi statistik tahlildan hozirgi yangi kibernetik
uslublargacha bo‘lgan) birgalikda olib borish va IT sohasidagi yutuqlarga
erishish. DM texnologiyasida qat‘iy formallashgan uslublar va uslublarning
formallashmagan tahlillari birlashadi.
DM ning uslublari va algoritmlariga quyidagilar aloqador bo‘ladi: sun‘iy
neyron tarmoqlari, qaror yoki yechimlar daraxti, simvolli qoidalar, qo‘shniga
yaqinlashish va k ta yaqin qo‘shni uslublari, tayanch vektorlar uslubi, bayes
tarmoqlari, chiziqli regressiya, korrelyasion-regression tahlil; klaster tahlilida
iyerarxik uslublar, klaster tahlilida iyerarxik bo‘lmagan uslublar, shu bilan birga
k-o‘rtacha va k-mediana algoritmlari; assosiyativ qoidalarni qidirish uslublari,
shu bilan birga Aprior algoritmi; chegaralangan perebor uslubi, evolyusion
dasturlash va genetik algoritmlar, ma‘lumotlarni vizuallashtirishning har xil
turdagi uslublari va boshqa uslublar to‘plamlari[12].
DM texnologiyalarida ishlatiladigan aksariyat analitik uslublar - bu aniq
bo‘lgan matematik algoritmlar va uslublardir. Ularning qo‘llanilishidagi
yangiliklar ularga texnikoviy va dasturiy muhitlarning shartli ravishda paydo
22
bo‘ladigan imkoniyatlari u yoki bu aniq muammolarni yechishda
foydalanadigan imkoniyatlarni vujudga keltiradi. Ta‘kidlab o‘tish kerakki,
DMning aksariyat uslublari sun‘iy intellekt nazariyasi doirasida ishlab chiqilgan.
Data Mining ni ishlatish sohasi chegaralanmagan – u hamma erda mavjud.
Ammo birinchi navbatda Data Mining metodlariga hozirgi vaqtda axborotli
ma‘lumotlar ombori (Data Warehousing) ga asoslangan loyihalarni ishlab
chiqarayotgan tijorat kompaniyalarining qiziqishi ortdi. Bunday tashkilotlarning
tajribasi shuni ko‗rsatdiki, Data Mining ni ishlatishdan unumdorlik 1000% ga
ko‗tariladi. Masalan, birinchi marta 350 dan 750 ming dollargacha sarflashlar
keyinchalik 10-70 marta ko‗p foyda bergan. 20 mln. dollarlik loyiha 4 oyda
harajatlarini qoplagan. Boshqa misol - Data Mining ni qo‗llash natijasida
Buyuk Britaniyadagi universamlar tarmog‗i yillik 700 ming dollar foyda ko‗ra
boshlagan[12].
Data Mining boshliqlar va analitiklarning kunlik faoliyati uchun katta
ahamiyatga ega. Ishbilarmon odamlar Data Mining metodlari yordamida katta
muvaffaqiyatlarga erishishlari mumkinligini tushunib etdilar. Data Mining ning
ba‘zi biznes-ilovalariga ta‘rif beramiz.
Data Mining amaliy statistika, tasvirlarni tanish, sun‘iy intellekt usullari,
ma‘lumotlar bazasi nazariyasi va bularning rivojlanishi natijasida paydo bo‗lgan
va rivojlanayotgan ko‗p tartibli soha hisoblanadi. Bundan esa Data Mining
sistemalarida qo‗llaniladigan usullar va algoritmlar ko‗pchilikni tashkil etadi.
Ko‗pgina bunday tizimlar o‗z ichiga bir nechta yondashuvlarni birlashtiradi.
Shunga qaramasdan, qoidaga ko‗ra, har bir tizimda qandaydir kalitli
komponenta bo‗lib, unga asosiy talab qo‗yiladi. Quyida ish asosida ko‗rsatilgan
kalitli komponentalar sinflanishi keltirilgan. Ajratilgan sinflarga qisqacha ta‘rif
beriladi[12].
23
1.3-rasm. Data Mining — ko‗p tartibli soha
Xozirgi kunda mavjud Data Mining uchun mahsulotlar sifatida
quyidagilarni qarashimiz mumkin.
1.4-rasm. Data Mining uchun taniqli mahsulotlar
Statistika – bu ma‘lumotlarni yig‗ish usullari, ularni qayta ishlash va
o‗rganilayotgan holatlarda qonuniyatni ko‗rsatish uchun tahlil etish haqidagi
fandir[12].
24
Statistika – tadqiqotlarni rivojlantirish, ma‘lumotlarni yig‗ish, ularni
tasvirlash va kengaytirish hamda bu ma‘lumotlar asosida natijalarni olish va
tahlil qilish usullari to‗plami hisoblanadi.
Statistika izlanishlar yoki tadqiqotlar natijasida olingan ma‘lumotlarga
asoslanadi. Keyingi boblardan biri ma‘lumotlar tushunchasiga bag‗ishlanadi.
Mashinali o‗qitish tushunchasi - yagona mashinali o‗qitish ta‘rifi hozirgi
kunda yo‗q. Mashinali o‗qitishni Yangi bilimlarni olish jarayoni kabi tavsiflash
mumkin. Mitchell 1996 yilda quyidagi ta‘rifni berdi: ―Mashinali o‗qitish – bu
ish vaqtida avtomatik Yaxshilanadigan kompyuter algoritmlarini o‗rgatadigan
fandir‖.
Sun‘iy intellekt – ilmiy yo‗nalish bo‗lib, uning sohasida intellektual
hisoblanadigan inson ish faoliyati ko‗rinishidagi apparatli yoki dasturli
modellashtirish masalalari qo‗yiladi va echiladi.
Intellekt tushunchasi (intelligence) lotincha intellectus so‗zidan kelib
chiqqan bo‗lib, aql, faoliyat, ong, insonning o‗ylash imkoniyati degan ma‘noni
bildiradi.
Shunga mos holda, sun‘iy intellekt (AI, Artifical Intelligence) avtomatik
tizim xususiyatlari sifatida inson intellektining alohida funksiyalarini o‗zida
olishni bildiradi. Sun‘iy intellekt deb inson prerogativi (ayrim huquqlari)
hisoblanadigan amaliy funksiyalarni bajaruvchi intellektual tizim xususiyatlariga
aytiladi.
Data Mining ni shakllantiradigan har bir yo‗nalish o‗zining
xususiyatlariga ega. Ularning ba‘zilarini taqqoslaymiz.
Statistika, mashinali o‗qitish va Data Mining ni taqqoslash va boshqalar.
Statistika. Data Mining ga ko‗ra nazariyaga asoslanadi. Gipotezni
tekshirishda muhimroq.
Mashinali o‗qitish. Yanada evristik. O‗qitish agentlari ishini yaxshilashga
mo‗ljallangan.
Data Mining. Nazariya va evristikaning integratsiyasi. O‗z ichiga
ma‘lumotlarni tozalash, o‗qitish, integratsiya va natijalarni vizuallashtirishni
oladi.
Data Mining tushunchasi MB texnologiyasi va keyingi ma‘ruzalarda
ko‗rib chiqiladigan ma‘lumotlar tushunchasi bilan bog‗langan.
Data Mining – bu yopiq qonuniyatdagi (axborotlar shablonlari)
ma‘lumotlarni izlashga asoslangan echimlarni qabul qilish jarayonidir.
Data Mining texnologiyasini shu yo‗nalishning asoschilaridan biri –
Grigoriy Piatetskiy-Shapiro (Grigoriy Piatetskiy-Shapiro) aniq ta‘riflab bergan.
25
Data Mining – bu xom ashyo ma‘lumotlarida hozircha noma‘lum,
noaniq, amaliy jihatdan inson ish faoliyatining turli sohalarida echimlarni qabul
qilish uchun zarur bo‗lgan amaliy jihatdan foydali va bilimlar interpretatsiyasi
uchun mumkin bo‗lgan jarayondir[12].
Dostları ilə paylaş: |