[211]
Genomning o„zgaruvchanligi va tartiblash xatolari.
Genomni haritalash ishlarida
asosiy muammo shundaki, har qanday
o‗rganilayotgan genomda o‗zgaruvchanlik mavjud bo‗lib, SNP ketma-
ketliklari va indellar orqali aniqlanadi, ushbu ketma-ketliklar albatta tartiblash
xatolari tufayli farq qiladi. SHu sababli, genomni o‗qishda va uning "to‗g‘ri"
holatda algoritm yozuvlarini hosil qilishda, genom har qanday joyida ko‗proq
farqlar bo‗lishi kuzatiladi va haritalash dasturlarida noto‗g‘ri joylarni topish
kerak bo‗ladi. Bu maqsadda turli xil yondoshuvlar qo‗llaniladi.
Bunday
tajribalarda RNK-seq usullari qo‗llanilganda, natijalar bilan ishlash muammo
yanada murakkablashadi. Ketma-ketliklarni aniqlash va o‗qish ishlarini
takroriy o‗tkazish natijasida qo‗shimcha xatolar kelib chiqishi mumkin.
Bunday holatlarda, ketma-ketliklarning haritalashda joyini aniqlash imkoni
bo‗lmaydi va ketma-ketliklarning tasodifiy joyini
aniqlash yoki bir necha
qismda joyini belgilash mumkin bo‗ladi.
Hisoblash muammosi.
Genom ketma-ketliklarin milliardlab nusxada
hosil qilinsa, haritalash vaqti jiddiy muammo bo‗lishi mumkin. Alignment har
doim juda katta resurs talab qiladi, lekin bunday hollarda asosiy
muammolardan biri protsessor vaqt va xotira uchun juda oqilona va samarali
algoritmlarni ishlatishni talab qiladi.
Yondashuvlar.
Bu muammolarni hal qilishda ikki asosiy yondashuv
mavjud: xesh-jadvallardan va suffiks shajaralaridan foydalanish mumkin.
Hashing yondashuv asoslari.
Aralash ketma-ketliklarni qidiruv jarayoni
Smit-Waterman algoritmi asosida dinamik dasturlash
yordamida klassik
algoritmlarga nisbatan ko‗p marta tezroq va iqtisoiy tejamkor usulardan
biridir.
Bu yondashuvda tez qidirish uchun Hash funksiyasidan foydalanadi.
Eng oson yo‗li ketma-ketliklar uzunligidagi mos nukleotidlarga qarab
bo‗linadi, lekin bu yondashuv ishlamaydi, uzoq so‗zlar noyob bo‗lishi
ehtimoli ko‗proq va ularning saqlash xotirasida juda ko‗p joy egallaydi.
[212]
Buning o‗rniga, ular ancha keng tarqalgan qisqa va aralash ketma-ketliklardan
foydalanish kerak. Hash funksiyasi tegishli o‗rinlarni olish uchun ishlatiladi.
O‗qishni bir necha qismga bo‗lib yondashish algoritmda almashtirishlar
imkoniyatini beradi. Demak, MAC dasturida ketma-ketliklar 4
qismga
bo‗linadi. Agar olingan ketma-ketliklar bo‗yicha mukammal mos bo‗lsa, unda
barcha 4 hil nukleotidlar mos keladi. Ehtimol SNP yoki tartiblash xatolarining
mavjudligi tufayli paydo bo‗lgan ketma-ketliklarda bitta almashtirish mavjud
bo‗lsa, u holda u nukleotidlardan biriga mos keladi, demak boshqa 3 hali ham
mukammal mos kelmagan. Xuddi shunday, tiklash dasturlaridan LED
mukammal hisoblanadi. SOAP, RMAP va SeqMAP shunga o‗xshash
tarzda
ishlaydi.
Hisoblash ishlarida bunday yondashuvlarning qo‗llanilishi bir
o‗zgartirish orqali o‗qish barcha chora-tadbirlarini ko‗rib chiqish imkoni
hisoblanadi. Masalan: ACGTni o‗qish uchun ulardan 3tasi bo‗lishi kerak: AC,
CG, GT.
Bu ma‘lumotlar xotirada ko‗p joy egallaydi, ishlatilayotgan xotira
miqdorini kamaytirish uchun, dasturlarda nukleotidlarning
bitta kodidan
foydalanish (A 00, C 01, G 10, T 11) taklif etiladi, lekin bunday o‗qishlar va
ketma-ketliklar genom uchun mavjud bo‗lishi mumkin noaniq ketma-ketlik
ma‘lumotlarini o‗rganishda ko‗p xatoliklarga olib keladi.
Turli algoritmlardan xisoblash ishlarini tezlashtirish va xatolarni oldini
olish uchun foydalanish mumkin. Masalan, ketma-ketliklarning joylashgan
joyini aniqlash ishlarida foydalanish mumkin. Ma‘lum nukleotidni x deb
belgilasak, LED
algoritmidan foydalanilganda, acgxacg ga acgaacg va
ACGCACGGA mos keladi, ushbu algoritm juda sezgir lekin ko‗p vaqt talab
qiladi.
Ko‗pincha algoritmlar ketma-ketliklar tarkibini emas,
balki ularning
pozisiyasini aniqlashda qo‗llaniladi. Aksariyat dasturlar Needleman —
Wunsch algoritmi yoki uning modifikatsiyasidan foydalanadi. Boshqalar,
[213]
masalan, GASST, Euler dasturlari masofani o‗lchash va oraliq qadamni
aniqlash dasturini qo‗shadilar, bunday dasturlar asosan bir xil harflardan
iborat ketma-ketliklar sonini hisobga oladi. Masalan, 5 ta G ni o‗z ichiga olgan
ketma-ketlik, 1 ta G ni o‗z ichiga olgan ketma-ketlik bilan haritaga
tushirilganda, kamida 4 ta almashtirishga ega bo‗lish mumkin. Bunday
yondashuv yaroqsiz hududlarning olib tashlanishiga va faqat istiqbolli ketma-
ketliklar hududlarining aniq qo‗llash imkonini beradi.
Demak Hash uslubi butun genom ketma-ketliklarini o‗qish uchun emas,
balkim bir xil uzunlikdagi genom qismlarini o‗qishda qo‗llanilishi mumkin.
MAC, RMAP va SeqMAPning dastlabki
versiyalari bu yondashuvdan
foydalangan, biroq hozirgi vaqtda bitta tajribada o‗qishlar soni sezilarli
darajada oshdi va bunday yondashuv hozirgi kunda samarali hisoblanmaydi.
Dostları ilə paylaş: