Mavzu: Ekspressiya va protoeomika bo`yicha ma`lumotlar bazasi reja: Kirish i-bob. Proteomika ma'lumotlarini qayta ishlash


II-bob Protein miqdori bo'yicha ma'lumotlarning statistik tahlili



Yüklə 393,45 Kb.
səhifə5/7
tarix29.11.2023
ölçüsü393,45 Kb.
#141470
1   2   3   4   5   6   7
Ekspressiya va protoeomika bo`yicha ma`lumotlar bazasi

II-bob Protein miqdori bo'yicha ma'lumotlarning statistik tahlili
Proteinning ko'pligi haqidagi ma'lumotlar ma'lumotlarni tozalash, filtrlash va normalizatsiya qilish jarayonidan o'tgandan so'ng , u keyingi statistik tahlil va keyingi tadqiqotlar uchun tayyor bo'ladi. Eng oddiy statistik tahlil bu ikki xil sharoitda protein darajasida sezilarli o'zgarishlar mavjudligini tekshirishdir. Bu odatda ikki xil guruhdagi kuzatilgan oqsil ko'pligi o'rtasida t-testini o'tkazish orqali amalga oshiriladi [124]. Agar taxmin qilish uchun ikki yoki undan ortiq omillar mavjud bo'lsa, uning o'rniga ANOVA (diferensial tahlil) [125] amalga oshirilishi mumkin. Biroq, proteomika ma'lumotlaridagi namuna hajmi cheklangan multiplekslik tufayli nisbatan kichikdir va bu t-testning statistik kuchini buzadi va katta qatlam o'zgarishiga ega bo'lgan oqsillar uchun ahamiyatsiz p-qiymatlariga olib keladi, ammo nisbatan katta farq. Ushbu muammoni hal qilish uchun bir nechta statistik modellar taklif qilingan. Masalan, Kammers va boshqalar. [126] differensial ravishda ifodalangan oqsillarni identifikatsiyalashda mikroarray ma'lumotlari uchun chiziqli modellar (LIMMA) empirik Bayes protsedurasidan mo''tadil t-statistik ma'lumotlarni qo'llash orqali yaxshiroq natijalarga erishish mumkinligini
ko'rsatdi. LIMMA modeli, nomidan ko'rinib turibdiki, mikroarray ma'lumotlaridagi sezilarli o'zgarishlarni aniqlashdan kelib chiqqan. LIMMA o'lchov tafovutlarini barcha namunaviy ma'lumotlarga asoslangan umumiy bahoga kamaytirish uchun mo'ljallangan va an'anaviy t-testga qaraganda, ayniqsa nisbatan kichik proteomik ma'lumotlar to'plamlarida yanada ishonchli va aniq natijalarga erishishi mumkin . Chiziqli aralash effektli modellar [127], o'rtacha / o'rtacha ko'rsatkichlar
[128] va "masterpool" normalizatsiyasi [128] nisbiy oqsil ko'pligini baholash va proteomik ma'lumotlarni statistik tahlil qilishda keng qo'llaniladigan boshqa usullardir.
2.1 Proteomikada boyitish tahlili
Boyitishni tahlil qilish - oldindan belgilangan genlar to'plamida haddan tashqari ko'rsatilgan genlar yoki oqsillarni aniqlashga yordam beradigan usul . Genlar to'plami odatda umumiy funktsiyalarni bajaradigan yoki bir xil yo'lda yoki tarmoqdagi genlar ro'yxatidan iborat . Proteomika ma'lumotlarini boyitish tahlilini o'tkazishning afzalligi shundaki, biz transkriptom o'rniga proteomaning tizimli o'lchovlari bo'yicha farazlarni sinab ko'rishimiz mumkin . Bundan tashqari, bunday tahlilning kiritilishi transkripsiya jarayonidan keyin differentsial tarjima tezligi va PTM kabi qo'shimcha ma'lumotlarni o'z ichiga olishi mumkin. DAVID [132] va STRING [133] kabi ommaviy foydalanish mumkin bo'lgan onlayn ma'lumotlar bazalari onlayn avtomatik boyitish tahlilini amalga oshirish uchun oldingi bilimlar va avtomatik vositalar asosida yaratilgan gen to'plamlarini taqdim etdi . PTMlar uchun PhosphoSitePlus [134] va Signor [135] kabi
maÿlumotlar bazalari oÿzgartirish pozitsiyasi/turi va ular bilan bogÿliq boÿlgan kasalliklar haqida qoÿshimcha maÿlumotni adabiyot qazib olishdan olgan . Bunday ish oqimlarida foydalanuvchilar gen identifikatorlari yoki modifikatsiyalari ro'yxatini taqdim etadilar va keyin o'zlarining tadqiqot qiziqishlari asosida genlar to'plami ma'lumotlar bazasini tanlaydilar. Uniprot va Ensembl kabi ma'lumotlar bazalari oqsil nomlarini kirish sifatida qabul qilishi mumkin bo'lsa-da, boshqa ko'plab ma'lumotlar bazalari keyingi bosqichlardan oldin protein nomlarini gen nomlariga aylantirishni talab qiladi. Biroq, identifikator konvertatsiyasi uchun bu hali ham qiyin vazifa bo'lib qolmoqda, chunki oqsil nomlari va mos keladigan genlar ko'pdan ko'pga bog'liq va bunday konvertatsiyalar ko'pincha mehnatni talab qiladi va ma'lumotlarning yo'qolishiga olib keladi. Hozirgi vaqtda PICR [136] yoki CRONOS [137] kabi konversiya vazifalarini hal qilish uchun bir nechta veb-aniqlash xizmatlari ishlab chiqilgan , ammo foydalanuvchilar ehtiyot bo'lishlari kerak, chunki bu vositalar dolzarb ma'lumotlarni taqdim etmasligi va qo'llanmani talab qilishi mumkin. tuzatish. Shuni ham ta'kidlash joizki ,
biologik ma'lumotlar bazalari hajmi va soni bo'yicha tez sur'atlar bilan o'sib bormoqda, shu bilan birga bu yangi ma'lumotlarning aniq kuratsiyasi ko'pincha orqada qolmoqda ("Ma'lumotlar ko'chkisi") [138]. Ma'lumotlar bazasining
etarli darajada yo'qligi va ma'lumotlar bazasiga o'zaro murojaat qilish uchun umumiy ma'lumotlar formatlarining yo'qligi ko'pincha boyitish bo'yicha tadqiqotlar oldidan ko'p mehnat talab qiladigan ishlarga olib keladi .
Gen ontologiyasi (GO) boyitish [139] boyitish tahlilida eng koÿp qoÿllaniladigan texnikadir. GO atamalarini funktsional xususiyatlariga ko'ra turli genlar tayinlangan oldindan belgilangan guruhlar to'plami sifatida ko'rib chiqish mumkin , bu esa terminologiyadagi ortiqchalikni kamaytirishga yordam beradi.
GO atamalari yuqori tugunlar bilan ierarxik tarzda to'plangan bo'lib, atamalarning uchta asosiy toifasini tavsiflaydi: "biologik jarayon", "molekulyar funktsiya" va "hujayra komponenti". Har bir atama o'ziga xos identifikatorga ega va boshqa tegishli atamalar bilan bog'langan. Amigo ma'lumotlar bazasi [140] ko'p turlar uchun GO atamasi izohini beradi , ammo barcha oqsillar to'liq va aniq izohga ega emas. To'liq izohga ega bo'lmagan oqsillar uchun o'rniga o'xshash ketma-ketlikka ega bo'lgan oqsillardan ma'lumot beruvchi GO atamalaridan foydalanish mumkin. ProLoc-GO [141], PFP [142] va IGNA [143] kabi GO
terminlarini bashorat qilish algoritmlari ushbu muammo uchun mo'ljallangan. GO ni boyitishda ishlatiladigan eng keng tarqalgan statistik testlar Fisherning aniq testi va gipergeometrik testdir. Statistik jihatdan ahamiyatli GO atamalari kirish oqsillari ro'yxatida tasodifan kutilganidan ko'ra tez-tez uchraydi va keyingi tadqiqotlar uchun qiziqarli biologik jarayonlarni ko'rsatishi mumkin. Biroq, GO atamalari odatda etuk proteoformlarni emas, balki ORF mahsulotlarini ifodalaganligi sababli , tadqiqotchilar proteoformlar va
mos keladigan genlar o'rtasida tegishli munosabatlarga ega ekanligiga ishonch hosil qilish uchun boyitish natijalarida GO shartlarini diqqat bilan o'rganishlari kerak .
GO atamalariga o'xshab, tartibga solish yo'llari tarmoqlari va kasalliklari haqidagi oldingi bilimlardan boyitish tahlilini o'tkazish uchun ham foydalanish mumkin [144]. Biologik yo'l ma'lum biologik jarayonlarga olib keladigan hujayra ichidagi molekulalar orasidagi biologik harakatlar va kimyoviy reaktsiyalarni tavsiflaydi. PANTHER [145] va Reactome [146] kabi ma'lumotlar bazalari ma'lumotlar bazasi veb-sahifasida to'g'ridan-to'g'ri boyitishni amalga oshirish uchun turli yo'llar uchun o'zaro ta'sir xaritalarini, shuningdek, boyitish vositalari to'plamini tuzdi. Ko'pgina mustaqil vositalar to'g'ridan-to'g'ri ma'lumotlar bazalarida tuzilgan ma'lumotlar asosida boyitish tahlilini amalga oshirish uchun umumiy interfeysdan foydalanishi mumkin. Masalan, Pathview [147] KEGG yoÿli [148] asosidagi
maÿlumotlarni integratsiyalashuvi va vizualizatsiyasi uchun R paketidir . Protein to'plamini boyitish tahlili (PSEA) hisoblanadi

PSEA, boyitish balli vaznli yugurish yig'indisi statistikasi va oqsillarsiz hisoblab chiqiladi PSEAda boyitish balli og'irlikdagi yugurish yig'indisi statistikasidan hisoblanadi va ko'pligida sezilarli o'zgarishlarsiz oqsillar boyitish balliga salbiy ta'sir ko'rsatishi mumkin.

Shakl 3. Proteomika ma'lumotlari bilan boyitish tahlilining tasviri. (a) Gen Ontologiyasi (GO) boyitish 3-rasm. Proteomika ma'lumotlari bilan boyitish tahlilining tasviri. (a) Circos uchastkasi bilan gen ontologiyasi (GO) . Doiraning chap qismida differensial ravishda ifodalangan oqsillar va ularning Circos syujeti bilan boyitilganligi ko'rsatilgan. Doiraning chap qismida differensial ravishda ifodalangan oqsillar va muhim darajalar ko'rsatilgan. O'ng tomonda boyitilgan GO shartlari ko'rsatilgan. (b) yo'lning muhim darajalarini nuqta bilan boyitish . O'ng tomonda boyitilgan GO shartlari ko'rsatilgan. (b) nuqtali chizmada yo'lni boyitish. Nuqtalarning ranglari sozlangan p-qiymatini va tugunlarning o'lchamlari chizmani ifodalaydi . Nuqtalarning ranglari sozlangan p-qiymatini va tugunlarning o'lchamlari yo'ldagi umumiy oqsillarga differentsial ravishda ifodalangan oqsillarning nisbatini ifodalaydi.



Nazorat ostidagi ta'limning keng tarqalgan modellariga Bayes klassifikatorlari, Logistik regressiya, qaror daraxtlari, tasodifiy o'rmon, vektorni qo'llab-quvvatlash mashinalari (SVM) va sun'iy neyron tarmoqlar kiradi. Proteomikaning turli xil ilovalari bir nechta ishlarda bayon etilgan. Deeb va boshqalar. [151] diffuz katta B-hujayrali limfoma bilan og'rigan bemorlarni tasniflash uchun protein ekspresyon profillaridan foydalangan . Ularning tadqiqotiga ko'ra , o'qitilgan modellarning yuqori darajadagi oqsillari turli xil subtiplar uchun patobiologiyada asosiy signal molekulalari sifatida tan olinishi mumkin. Dan va boshqalar. [152] qon zardobidan proteomik barmoq izlari yordamida sil kasalligining diagnostik belgilarini aniqlash uchun SVM klassifikatoridan foydalangan . Ularning modeli, shuningdek, yangi diagnostika usullari uchun bir nechta potentsial biomarkerlarni aniqlashga yordam berdi . Tyanova va boshqalar. [153] ko'krak bezi saratoni subtiplari o'rtasidagi funktsional farqlarni aniqlash uchun proteomik profillardan foydalangan. Bundan tashqari, ular gen nusxalari sonining o'zgarishlarisiz kichik tiplar bo'ylab turli ifoda
belgilariga ega bo'lgan bir nechta oqsillarni aniqladilar. Ushbu topilmalar kelajakdagi subtiplarga xos terapevtik rivojlanish haqida yangi
Protein subhujayra lokalizatsiyasi nazorat ostida o'rganish usullari uchun yana bir samarali sohadir [154]. Proteomik ma'lumotlar uchun yuqori o'lchamlilik xususiyatiga ko'ra , modellarni yaratishdan oldin ko'pincha asosiy komponentlar tahlili (PCA), chiziqli diskriminant tahlili (LDA) va t-taqsimlangan stokastik qo'shni joylashtirish (t-SNE) kabi o'lchamlarni kamaytirish usullari qo'llaniladi . 155]. Regularizatsiya nazorat ostida o'qitishda keng qo'llaniladigan yana bir usuldir. U ko'proq parametrlarga ega modellarga katta jarimalar qo'shish orqali modelning murakkabligini va bashorat qilish uchun zarur bo'lgan xususiyatlar sonini kamaytiradi .
Chuqur o'rganish proteomikada ham mashhur yondashuvga aylanadi, chunki u ko'p sonli xususiyatlardan foydali
ma'lumotlarni olishda yaxshi . Masalan, Ding va boshqalar. genomika va proteomika ma'lumotlaridan informatsion xususiyatlarni aniqlash uchun chuqur avtokoder modelini yaratdi , keyinchalik u saraton hujayralari liniyalarida dorilarning samaradorligini bashorat qilish uchun ishlatilgan [156]. Keyinchalik ular chuqur o'rganish modellaridan olingan xususiyatlar uyali signalizatsiya tizimining tegishli ma'lumotlarini o'z ichiga olishini va model aniqligini oshirishga hissa qo'shishini ko'rsatdi. O'zaro tekshirish nazorat ostida o'qitishda samaradorlikni baholash uchun keng qo'llaniladi [157]. Bu, shuningdek, haddan tashqari moslashish muammosining oldini olishga yordam
beradi, chunki modellarning ishlashi har doim modelni o'qitishda ishlatiladigan namunalar emas, balki alohida tekshirish ma'lumotlar to'plamidan baholanadi.
Nazoratsiz ta'limning eng oddiy shakli oqsil ko'pligi qiymatlariga ko'ra ierarxik klasterlashdir . Klasterlash MS eksperimenti natijalari uchun sifatni baholash sifatida ishlatilishi mumkin, chunki biz ko'r-ko'rona guruhlangan namunalarni namuna o'xshashliklari haqidagi oldingi bilimlar bilan solishtirishimiz mumkin. Bir nechta murakkab nazoratsiz o'rganish usullari haqida xabar berilgan: Peptid identifikatsiyasi Arbiter by Machine Learning (PepArML) [158] MS tandem spektri bilan bog'langan peptidni aniqlash uchun yaratilgan nazoratsiz o'rganish usulidir . ProtVec [159] biologik ketma-ketliklar uchun nazoratsiz taqsimlangan vakildir va oqsillar oilasini tasniflash va strukturani bashorat qilish kabi proteomikaning ko'plab keng tarqalgan muammolariga qo'llanilishi mumkin . Nazorat ostidagi o'rganish bilan solishtirganda, nazoratsiz o'rganish proteomikada kamroq qo'llaniladi. Biroq, u modelni o'rgatish uchun asosiy haqiqatni talab qilmaydi va ayniqsa, xususiyatlarni olish kabi ma'lumotlarga asoslangan og'ir vazifalarda foydalidir.
Protein tarmoqlarini qayta tiklash
Biyomedikal tadqiqotlarda yangi tendentsiya hujayra muhitidagi qiziqish molekulalari o'rtasidagi murakkab kontekstual munosabatlarni o'rganishdir. Ushbu paradigma hayot haqidagi fanlarda tizim biologiyasi yoki tarmoqlar biologiyasi deb nomlangan yangi sohani yaratdi [160]. "Bir gen, bitta oqsil, bitta funktsiya" tamoyiliga amal qiladigan an'anaviy mexanizm tadqiqotlaridan farqli o'laroq , tizim biologiyasi genlar va ularning funktsiyalari o'rtasidagi o'zaro ta'sirni katta tarmoq sifatida ko'rib chiqadi. Ushbu tarmoqda tugunlar genlar yoki oqsillar kabi hujayralardagi funktsional molekulalarni ifodalaydi. Tugunlar orasidagi qirralar molekulalar orasidagi funktsional munosabatni ko'rsatadi. Bog'lanish kinazlar va ularning substratlari o'rtasidagi kimyoviy reaktsiyalar kabi to'g'ridan- to'g'ri o'zaro ta'sirlar yoki transkripsiya omillari va ularning maqsadlari o'rtasidagi transkripsiyani
tartibga solish kabi bilvosita aloqalar bo'lishi mumkin. Tarmoqlarning grafik modeli yordamida biologik jarayonlarni tahlil qilish genotiplar va fenotiplar o'rtasidagi yangi istiqbolni ta'minlaydi va shuningdek, omiks ma'lumotlarining katta hajmidan samarali foydalanishi mumkin.

Hozirgi vaqtda proteomikaga asoslangan tarmoq biologiyasida ikkita asosiy toifa mavjud: oqsil- oqsil o'zaro ta'siri (PPI) tarmoqlari va signalizatsiya tarmoqlari. PPI tarmog'i ikkita oqsil o'rtasidagi to'g'ridan-to'g'ri o'zaro ta'sirlarni tavsiflaydi va yaqinlik tozalash-mass spektrometriyasi (AP-MS) [161] yordamida oqsil komplekslarini tahlil qilish orqali tasdiqlanishi mumkin . AP-MSda qiziqish uyg'otadigan ma'lum oqsillar yorliqlanadi va keyin MS tomonidan tozalangan oqsil komponentlaridan aniqlanadi.
Biroq, tajriba davomida noto'g'ri-musbat o'zaro ta'sirlar ham kiritilishi mumkin. Eksperimental dizayndagi cheklovlarni va AP-MSda tegishli boshqaruvlarning etishmasligini qoplash uchun bir nechta hisoblash tizimlari yaratilgan .
Rinner va boshqalar. [162] yorliqsiz MS bilan miqdoriy protein komplekslarini tahlil qilishni osonlashtiradigan MasterMap tizimini taklif qildi . Glatter va boshqalar. [163] PP2A integratsiyalangan ish oqimini taklif qildi, bu inson oqsiliga asoslangan global AP-MS tahlilida ma'lumotlarning o'tkazuvchanligi, sezgirligi va mustahkamligini sezilarli darajada yaxshiladi. Superparamagnit klasterlash [164] va giperklik naqshni aniqlash [165] kabi ko'plab grafiklarga asoslangan klasterlash usullari ham haqiqiy funktsional protein komplekslarini aniqlash uchun samarali yondashuvlar ekanligini isbotladi .
Signal tarmoqlarini o'rganishning maqsadi fermentlar va ularning substratlari o'rtasidagi munosabatlarni izohlashdir . Kinazlar va ularning maqsadlari o'rtasidagi o'zaro ta'sir ayniqsa qiziqarli, chunki ular muhim hujayra signalizatsiya molekulalari bo'lib, ko'pincha saraton va endokrin kasalliklar kabi kasalliklar bilan bog'liq [166,167]. Kinaz signalizatsiyasining MS asosidagi fosfoproteom tahlili bakteriyalardagi oqsillarni tartibga soluvchi modifikatsiya naqshini aniqlashga yordam beradi [168-170]. Bundan tashqari, proteomika so'nggi paytlarda epigenetika va uyali signalizatsiyaga katta qiziqish sifatida paydo bo'lgan atsetilatsiya modifikatsiyasini aniqlashga yordam beradi [171-174]. MS-ga asoslangan texnikadagi yutuqlar bilan endi PTM hodisalarining keng doirasini, masalan, yuqori qamrovli va sifatli bitta MS ishida fosforlanishni aniqlash mumkin. Bundan tashqari, PTM ma'lumotlari signalizatsiya tarmoqlaridagi tugunlar va qirralarning holatini taxmin qilishga yordam beradi . Ushbu sohadagi muhim qo'llanmalardan biri fosforlangan oqsillarning ko'pligiga asoslangan kinaz faolligi haqidagi xulosalardir. Ushbu vazifa uchun IKAP [175], KSEA [176] va kinact [177] kabi bir nechta mashinani o'rganish usullari qo'llanilgan. Signal uzatish tarmog'ini rekonstruksiya qilish yana bir muhim mavzudir. Teskari muhandislik baholash va usullari uchun dialog (DREAM) tomonidan o'tkaziladigan HPN-DREAM tanlovida asosiy toifalardan biri ko'krak bezi saratoni proteomik ma'lumotlaridan sabab signalizatsiya tarmoqlarini aniqlashdir . Taqdim etilgan barcha modellarni har tomonlama baholash bilan tizimli baholash [178] chop etildi . O'shandan beri PerseusNet [48], GNET2 [179], Neglog [180] va HIPPIE 2.0 [181] kabi ko'plab yangi tarmoq xulosasi algoritmlari ishlab
chiqildi . Vaqt seriyali proteomika ma'lumotlari uchun tarmoqni dinamik qayta qurish modellari ham xabar qilingan. Odatda, ular turli fiziologik sharoitlarga javoban yoki ogohlantiruvchi omillar kiritilganda tarmoqdagi o'zgarishlarni miqdoriy aniqlash uchun mo'ljallangan . COVAIN [182] - bu uyali kontekstlarning turli ierarxiyalari bo'yicha javoblarni tekshirish uchun vaqt seriyasi va korrelyatsion tarmoq tahlilidan foydalanadigan integratsiyalangan asboblar to'plami . Biologiyadagi tarmoq tadqiqotlarining ommabopligini hisobga olgan holda, ko'pchilik tarmoq xulosalari vositalari R va Python kutubxonalari yoki akademik hamjamiyat orasida yaxshiroq foydalanish uchun integratsiyalashgan veb-xizmatlari sifatida paketlangan .
Tarmoq ko'rinishida kasallikning patogenezini tushuntirish uchun juda katta harakatlar qilingan.
Vang va boshqalar. [183] Se-va Zn bilan bog'liq oqsillar protein ekspresyon profilidan tuzilgan tarmoqlardan Keshan kasalligining endemik kengaygan kardiyomiyopatiyasida muhim rol o'ynashini ko'rsatdi.
Pirhoji va boshqalar. [184] Xantington kasalligida sfingolipidlar, yog 'kislotalari va steroidlar almashinuvidagi g'ayritabiiy signalizatsiya yo'llarini o'rganish uchun PIUMet deb nomlangan tasodifiy o'rmonga asoslangan algoritmni ishlab chiqdi. KEGG [148], Pathway Commons [185] va BioGRID [186] kabi ko'plab biologik tarmoq ma'lumotlar bazalari jamoatchilikka bepul taqdim etiladi . Odatda, ushbu ma'lumotlar bazalari bioinformatikachilarga saqlangan ma'lumotlarning tuzilishi va formatini tushunmasdan har tomonlama
tahlil qilish imkonini beradigan dasturiy interfeyslarni ham ta'minlaydi. Biroq, protein tarmoqlarini tizimli ravishda aniqlash hali ham qiyin vazifa, chunki ko'pchilik turlar katta proteinlar hovuziga ega. Shunday qilib, tarmoq xulosasi bilan bog'liq muammolar odatda juda yuqori hisoblash narxiga ega va ko'pincha mavjud hisoblash resurslari bilan cheklanadi .

Munozara va kelajak istiqbollari
MS asosidagi proteomika inson salomatligi va kasalliklari asosida yotgan murakkab biologik mexanizmlar haqidagi tushunchamizni ancha yaxshiladi . Hozirgi vaqtda MS asosidagi proteomik tahlilning yuqori oqimi, jumladan, oqsillarni identifikatsiyalash, tavsiflash va miqdorini aniqlash tobora qulay va ishonchli bo'lib bormoqda, chunki eksperimental platformalarning aksariyatida avtomatlashtirilgan quvurlar ta'minlangan.
Yangi multiplekslash texnologiyalari yuzlab namunalarni yuqori o'tkazuvchanlikda tahlil qilish imkonini berdi. Eng so'nggi izobarik tegga asoslangan multiplekslash bilan bitta MS ishida 11 tagacha namunani tahlil qilish mumkin [187]. So'nggi yutuqlarga qaramay, proteomika uchun bir nechta asosiy muammolar hali ham mavjud . Keyingi avlod sekvensiyasiga o'xshab, past ko'plik darajasida oqsillarni aniq aniqlash hali ham qiyin. Bundan tashqari, etishmayotgan qiymatlar sonini kamaytirish har doim ham mumkin emas.
Ion manbalari, spektrlarning o'lchamlari va kengroq diapazonga ega dinamik detektorlarning samaradorligini oshiradigan yangi usullar kelajakda yuqori oqim proteomikani rivojlantirish tendentsiyasiga aylanishi mumkin.
Proteom ma'lumotlarini boshqa omik texnologiyalar bilan birlashtirish bioinformatikada yangi paradigma sifatida paydo bo'ladi . Masalan, proteomika va transkriptomika o'rtasidagi nuqtaviy taqqoslashlar o'rnatilishi mumkin, chunki genlar va oqsillarning identifikatorlari ikkita omik bo'shliq o'rtasida joylashtirilishi mumkin.
Mos kelmaydigan tendentsiyalarga ega bo'lgan oqsillar/genlar muhim transkripsiya va post-translatsion tartibga solish mexanizmlarining ishtirokini ko'rsatishi mumkin . In vivo SILAC sichqoncha texnologiyasidan foydalangan holda miqdoriy proteomika jigarning sirkadiyalik regulyatsiyasidagi post-transkripsiya mexanizmlarini o'rganishda muvaffaqiyatli qo'llanildi [188]. Protein signalizatsiya tarmoqlarining teskari muhandisligi boshqa omik ma'lumotlardan ham foyda olishi mumkin. Enriched Regulon (VIPER) algoritmi boÿyicha oqsil faolligining virtual xulosasi [189] transkripsiya omillari va ularning transkriptom maÿlumotlaridan aniqlangan potentsial maqsadlari oÿrtasidagi munosabatlarga asoslangan holda oqsil faolligini hisoblash tahlilini amalga oshirishi mumkin . Har xil turdagi omiks ma'lumotlari ko'pincha bir-birini to'ldiruvchi ekanligini hisobga olsak, MS-ga asoslangan proteomika multi-omika nuqtai nazaridan tahlil qilinganda ancha kuchliroq bo'ladi.
MS asosidagi proteomika texnologiyasi rivojlanishda davom etar ekan, tegishli bioinformatika vositalari mos ravishda yangilanishi kerak. Hozirgacha ushbu sharhda aytib o'tilgan tahlil usullarining aksariyati qulay
va foydalanuvchilarga qulay interfeys bilan ta'minlangan. 3 -jadvalda ushbu sharhda aytib o'tilgan proteomikani tahlil qilish uchun barcha quyi oqimdagi bioinformatika vositalari va ma'lumotlar bazalari keltirilgan . Biz kelgusida fanlararo tadqiqotlardan ko'proq bioinformatika usullari paydo bo'lishini va murakkab tizimlar biologiyasi haqidagi hozirgi tushunchalarni kuchaytirishini kutamiz.
Jadval 3. Pastki oqim bioinformatikasini tahlil qilish dasturiy vositalari.


Sakkiz vaqt nuqtalari va etishmayotgan qiymatlari bo'lmagan SGSDS asosidagi filtrlangan ma'lumotlar to'plamlarida barcha sinovdan o'tgan usullar nisbatan yaxshi ishladi ( 2b -rasm ). Shunga qaramay, IQR o'rtacha pAUC 0,997 bilan RolDE ishlashi keyingi eng yaxshi usullar Limma va LimmaSplines_H ( p <10 -11 ) dan sezilarli darajada yaxshi edi.


Turli xil tendentsiya toifalaridagi usullarning ishlashini batafsil ko'rib chiqish, taklif qilingan RolDE usuli Timecourse va BaselineROTS bilan birgalikda UPS1 va SGSDS-ga asoslangan ma'lumotlar to'plamlarida har bir toifada izchil yaxshi ishlaganligini ko'rsatdi (Qo'shimcha rasm. 1a, b ). Umumiy regressiyaga asoslangan yondashuvlarning ishlashi kutilganidek regressiya darajasiga mos keldi. Lineer yondashuv Lme toifalar chiziqli yoki chiziqliga yaqin bo'lganda yaxshi ishladi; Pme_L polinom regressiyasi tekshirilayotgan toifalar chiziqli yoki ikkinchi tartibli ko'phadga yaqin bo'lganda yaxshiroq ishladi. Pme_H eng yuqori tartibli polinom regressiyasi toifalarning eng keng spektrida yaxshi ishladi, lekin tekshirilgan toifalar yuqori tartibli polinom bo'lganida unumdorlik eng yaxshi bo'ldi. EDGE_L va EDGE_H regressiya spline-asoslangan usullari va OmicsLonDA usuli tekshirilayotgan shartlar oʻrtasida faqat ifoda darajasidagi farqlar mavjud boʻlganda uzunlamasına differentsial ifodani samarali aniqlay olmadi ( Stable_Stable toifasi, Qoʻshimcha 1- rasm ).
Bitta trend toifalari va etishmayotgan qiymatlarni o'z ichiga olgan yarim simulyatsiya qilingan spike-in proteomik ma'lumotlaridagi ishlash
Ikkinchidan, biz har bir holat uchun bitta trend toifasiga ega bo'lgan to'liq yarim simulyatsiya qilingan spike-in ma'lumotlar to'plamidagi usullarning ishlashini, shuningdek, tahlilga kiritilgan qiymatlari etishmayotgan oqsillarni tekshirdik. Xuddi shunday, hech qanday etishmayotgan qiymatlarni o'z ichiga olmagan filtrlangan ma'lumotlar to'plamlarida bo'lgani kabi, RolDE etishmayotgan qiymatlar mavjud bo'lganda to'liq ma'lumotlar to'plamida eng yaxshi natijani ko'rsatdi ( 2c, d -rasm ). UPS1-ga asoslangan ma'lumotlar to'plamlarida faqat haqiqiy manfiy oqsillarda qiymatlar yo'q bo'lganda, RolDE IQR o'rtacha pAUC 0,976 bilan eng yaxshi natija ko'rsatdi, ammo umumiy ishlashda ikkinchi eng yaxshi usul Timecourse ( p = 0,257) dan sezilarli farqlarsiz . SGSDS-ga asoslangan to'liq ma'lumotlar to'plamida, shuningdek, haqiqiy musbat ko'tarilgan oqsillarda qiymatlar etishmayotgan, IQR o'rtacha pAUC ko'rsatkichlari mos ravishda 0,995 va 0,993 bo'lgan RolDE va LMMS boshqa usullardan yaqqol ustun bo'ldi, RolDE ikkinchisiga qaraganda ancha yaxshi ishlaydi. eng yaxshi usul LMMS ( p <10 -9 ). BETR va EDGE yo'qolgan qiymatlarga toqat qilmaydi va shuning uchun to'liq ma'lumotlar to'plamini tahlil qilishdan chiqarib tashlandi.
Turli xil tendentsiya toifalaridagi usullarning ishlashini o'rganish shuni ko'rsatdiki, RolDE , LMMS va BaselineROTS ning qiymatlari etishmayotgan to'liq ma'lumotlar to'plamidagi ishlashi filtrlangan ma'lumotlar to'plamlari bilan teng bo'lib qoldi (Qo'shimcha 1c , d ), holbuki aksariyati Boshqa usullarning SGSDS-ga asoslangan to'liq ma'lumotlar to'plamidagi barcha toifalar bo'yicha ishlashi pasaygan (Qo'shimcha rasm). 1b, d ).
Aralash trend toifalari bilan yarim simulyatsiya qilingan spike-in proteomika ma'lumotlaridagi ishlash
Keyinchalik, usullarning ishlashini chuqurroq o'rganish uchun, besh vaqt nuqtalari va spike-oqsillardagi aralash tendentsiya farqlari bilan yarim simulyatsiya qilingan UPS1-ga asoslangan ma'lumotlar to'plami yaratildi, bu erda bir nechta turli xil bo'ylama bo'ylamalarga ega bo'lgan oqsillar tipik real bo'ylama proteomika ma'lumotlarini aks ettiradi. tendentsiyalar birgalikda mavjud (UPS1 aralashmasi, qo'shimcha ma'lumotlar 1 ).
Filtrlangan UPS1 Mix ma'lumotlar to'plamlarida qiymatlar yo'qolgan holda, IQR o'rtacha pAUC 0,953 bo'lgan BaselineROTS eng yaxshi natija ko'rsatdi, so'ngra 0,948 IQR o'rtacha pAUC bilan RolDE ( p <0,05, 2e -rasm ). BaselineROTS va RolDE ikkalasi ham IQR o'rtacha pAUC 0,937 ( p <0,05) bilan keyingi eng yaxshi usul Timecourse- dan sezilarli darajada yaxshi ishladilar. Yagona trend toifasi ma'lumotlar to'plamida bo'lgani kabi, yuqori tartibli regressiya modellari ham past tartibli modellardan ustun keldi.
To'liq UPS1 Mix ma'lumotlar to'plamida etishmayotgan qiymatlarni o'z ichiga olgan holda, IQR o'rtacha pAUC 0,945 bo'lgan RolDE eng yaxshi natija ko'rsatdi, undan keyin IQR o'rtacha pAUC 0,942 ( p = 0,279, 2f -rasm ) bilan Timecourse . RolDE ham , Timecourse ham keyingi eng yaxshi BaselineROTS usulidan sezilarli darajada oshib ketdi , IQR o‘rtacha pAUC 0,939 ( p <0,05), qolgan usullar esa ancha yomonroq ishladi, filtrlangan va to‘liq ma’lumotlar to‘plamlarida IQR o‘rtacha pAUC 0,9 dan past bo‘ldi.
RolDE UPS1 Mix ma'lumotlar to'plamidagi barcha trend toifalari bo'yicha eng kuchli muvozanatli ishlashni ko'rsatgan bo'lsa -da, BaselineROTS , Timecourse , Limma va LimmaSplines_H ham toifalar bo'yicha yaxshi natijalarga erishdi (Qo'shimcha rasm 1e, f ). Xuddi bitta toifali ma'lumotlar to'plamida bo'lgani kabi, tendentsiyalarning murakkabligi asosan qaysi toifalarda regressiyaga asoslangan yondashuvlar yaxshi ishlaganligi aniqlangan; yanada murakkab modellar kengroq toifalar spektrida yaxshiroq ishladi, oddiyroq modellar esa tendentsiyalarning polinom murakkabligi oshganida kurash olib bordi. Umuman olganda, Linear_Sigmoid va Linear_LogLike trend farqlari bo'lgan oqsillar barcha usullarda eng qiyin bo'lgan.

Yüklə 393,45 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©genderi.org 2024
rəhbərliyinə müraciət

    Ana səhifə