Mavzu: Ekspressiya va protoeomika bo`yicha ma`lumotlar bazasi reja: Kirish i-bob. Proteomika ma'lumotlarini qayta ishlash

Proteinlar uchun MS/MS peptid ma'lumotlarini o'zgartirish

Yüklə 393,45 Kb.

səhifə	3/7
tarix	29.11.2023
ölçüsü	393,45 Kb.
	#141470

1 2 3 4 5 6 7

Ekspressiya va protoeomika bo`yicha ma`lumotlar bazasi

1.2 Proteinlar uchun MS/MS peptid ma'lumotlarini o'zgartirish.
Katta miqyosli ma'lumotlar to'plamlarida oqsillarni aniqlash uchun noto'g'ri kashfiyotlar tezligini ishonchli baholaydigan yangi strategiya.
Tegishli kirish parametrlarini tanlash ma'lumotlar bazasini qidirish uchun kalit hisoblanadi. Prekursor massasi va parcha massasi uchun tolerantlik ikkita muhim parametr bo'lib, ularni oqilona tanlash kerak. Birinchisi har bir spektr uchun ko'rib chiqilgan peptid nomzodlarini nazorat qiladi, fragment massasi bardoshliligi esa mos keladigan aniqlangan va nazariy fragment massalari o'rtasidagi farqning mutlaq qiymatining yuqori chegarasini nazorat qiladi . Ikkala parametr uchun juda tor qiymatlarni o'rnatish mumkin bo'lgan haqiqiy PSMlarni istisno qiladi, qiymatlarning juda keng bo'lishiga ruxsat berish esa katta miqdordagi noto'g'ri PSMlarni keltirib chiqaradi. Ushbu ma'lumotlar bazasini qidirish parametrlarini optimallashtirish uchun bir nechta usullar ishlab chiqilgan. Ular ko'pincha MSQuant [52], DtaRefinery
[53] va parametrik bo'lmagan regressiya modeli [54] kabi asboblarni kalibrlashdan xulosa chiqarish uchun eksperimental ma'lumotlarda ma'lum ionlarning kuzatilgan m / z qiymatlariga tayanadilar . Bundan tashqari, Preview
[55] eksperiment davomida prekursor va fragment massasi xatosi va nospesifik hazm qilishni baholash uchun tezkor ma'lumotlar bazasini qidirishni qo'llashi mumkin. Param-Medic [47] - bu bir xil peptid ionidan prekursor va fragment massasi xatosi haqida xulosa chiqarishi mumkin bo'lgan juft spektrlarni yig'ish va tahlil qilish orqali optimal qidiruv parametrlarini aniqlash uchun mo'ljallangan qidiruv parametrlarini aniqlash vositasi . Ko'rib chiqishdan farqli o'laroq,
Param-Medic Python-da mustaqil vosita sifatida amalga oshiriladi va Linux foydalanuvchilari uchun oqim quvuriga integratsiya qilish uchun
Ma'lumotlar bazasini qidirish yondashuvida PSMlarning skoring funktsiyasi ham muhim rol o'ynaydi.
Turli spektrlarni farqlash uchun yaxshi kalibrlangan ball tizimi zarur.
Masalan, Mascot ehtimollikka asoslangan balldan foydalanadi, bunda umumiy ball kuzatilgan o'yin tasodifiy hodisa bo'lish ehtimoli bilan bog'liq . SEQUEST [56] ikkita ball funktsiyasini qo'llaydi: birinchisi har bir spektr uchun peptid nomzodlarining cheklangan diapazonini tanlash uchun ishlatiladi (Sp), ikkinchisi esa kuzatilgan va nazariy spektrlar (Xcorr) o'rtasidagi o'zaro bog'liqlikdan foydalanadi.
MaxQuant dasturining so'nggi versiyasi Andromeda qidiruv tizimini o'z ichiga oldi. Andromeda filtrlangan MS/MS spektridan tasodifan n ta nazariy massadan kamida k ga mos kelish ehtimoliga asoslangan balldan foydalanadi, bunda n - nazariy ionlarning umumiy soni va k - mos keladigan ionlar soni . Cox va boshqalarning baholashiga ko'ra. [57], MaxQuant va Andromeda tomonidan qo'llaniladigan ball funktsiyalari juda o'xshash kamsituvchi kuchga ega, Andromeda esa yuqori fosforlangan peptidlarda yaxshiroq aniqlikka erishadi. Yordam vektor mashinalari (SVM) asosidagi peptid statistik skoring Int. J. Mol. Sci. 2020 yil, 21, 2873 yil 25 tadan 5 tasi usul peptidlarni identifikatsiyalashda noto'g'ri kashfiyot tezligini (FDR) kamaytirishning samarali usulidir [58]. Nomzod peptidning mavjudligi keyinchalik turli ma'lumotlar bazasini qidirish ko'rsatkichlaridan peptidlarning vektor ko'rinishlari bilan o'qitilgan SVM modeli tomonidan aniqlanishi mumkin. Lin va boshqalar. [59] “qoldiq dalillari” ballini taklif qildi va bu ball funksiyasi yangi oÿrgatish mumkin boÿlgan parametrlarni kiritmasdan turli xil maÿlumotlar toÿplamlarida ishlashning yaxshilanishiga olib kelishi mumkinligini koÿrsatdi. PepHMM [22] deb nomlangan yana bir
dastur xom maÿlumotlarning aniqligi, eng yuqori intensivligi va maÿlum va aniqlangan peptidlar oÿrtasidagi korrelyatsiya haqidagi maÿlumotlarni yashirin Markov modeliga integratsiyalash orqali peptid identifikatsiyasining aniqligini oshirish uchun yangi skorlama funksiyasini taqdim etdi . statistik ahamiyati haqida.
Ma'lumotlar bazasini qidirish yondashuvi ko'pincha FDRlarni kamaytirish uchun ma'lumotlar bazasiga qarshi qidiruvning ikkinchi bosqichidan so'ng amalga oshiriladi [60,61]. Ushbu protsedura qolgan barcha peptidlar ma'lumotlar bazasidan aniqlangan peptidlar uchun oldindan belgilangan chegaradan yuqori FDRga ega bo'lishini ta'minlaydi. Decoy ma'lumotlar bazasini qidirish statistik ishonchi past bo'lgan identifikatorlarni o'chirish chegarasini baholaydi, bu esa haqiqiy ijobiy xitlarning yuqori foiziga olib keladi. Spektrlarni moslashtirish uchun bir nechta tez-tez ishlatiladigan oqsil ketma-ketligi ma'lumotlar bazalari 1-jadvalda keltirilgan. MASCOT
[17] va MaxQuant [18] kabi keng qo'llaniladigan tahlil platformalari ushbu strategiyani standart tahlil quvurlariga birlashtirgan.
Biroq, oqsil ketma-ketligi ma'lumotlar bazasi hajmining ortishi bilan maqsadli qidiruv strategiyasi hisoblash samarasiz bo'lib bormoqda, chunki uning qidiruv maydoni dastlabki maqsadli ma'lumotlar bazasi qidiruvidan ikki baravar katta. Ushbu muammoni hal qilish uchun so'nggi yillarda ko'plab yangi qidiruv strategiyalari haqida xabar berilgan . Gonnelli va boshqalar. [46] Nokoyni taklif qildi, bu peptidlarni aniqlashning aniqligini oshirish uchun hiyla-nayrangsiz yondashuv.
Ushbu yondashuv Mascot tomonidan PSMlar uchun haqiqiy belgilar sifatida taqdim etilgan darajalardan foydalangan
holda katta heterojen ma'lumotlar to'plamida o'qitiladigan L1-regularizatsiyalangan logistik regressiya modeliga asoslangan . Kim va boshqalar. maqsadli ma'lumotlar bazasini teskari o'zgartirish va tasodifiy oqsillarni kichik va maqsadli ma'lumotlar bazasi o'lchamlariga nisbati bo'yicha tanlash orqali amalga oshiriladigan maqsadli va ma'lumotlar bazalarining o'lchamlari farq qiladigan holatlarni hal qila oladigan maqsadli-kichik yolg'on qidiruv strategiyasini ishlab chiqdi . Ularning baholashi shuni ko'rsatadiki, bu yondashuv ma'lumotlar bazasi hajmini va qidiruv vaqtini qisqartiradi, shu bilan birga oddiy maqsadli qidiruv bilan bir xil aniqlik darajasini saqlaydi [62].
De novo peptidlar ketma-ketligida peptidlar ketma-ketligi faqat parchalanish spektrlari ma'lumotlari va parchalanish usuli xususiyatlaridan aniqlanadi . De novo peptidlar ketma-ketligini tahlil qilish strategiyasida PepNovo [14] va NovoHMM [29,63] kabi Grafik ehtimollik modeli va Yashirin Markov modeli (HMM) ga asoslangan usullar ustunlik qildi . Biroq, o'shandan beri ketma-ketlik ramkalarining ko'plab variantlari haqida xabar berilgan. Elektron uzatish dissotsiatsiya spektrlari va yuqori energiyali to'qnashuvli dissotsiatsiya spektrlarida ishlashning yomonlashuvini hal qilish uchun , Jeong va boshqalar. UniNovo deb nomlangan universal de novo peptidlar ketma-ketligi algoritmini taklif qildi [34].
UniNovo har xil turdagi ionlar orasidagi bog'liqlikni aniqlash uchun o'zgartirilgan ofset chastotasi funksiyasidan hisoblangan yangi baholash mezonini o'z ichiga oladi . Kam ion qoplamasi de novo peptidlar ketma-ketligidagi yana bir mashhur muammodir, chunki agar barcha qo'llab-quvvatlovchi fragment ionlari yo'q bo'lsa, ketma-ket aminokislotalarning tartibini osongina aniqlash mumkin emas . Ushbu muammoni hal qilish uchun Yang va boshqalar. [32] yaqinda pNovo 3 ni taklif qildi, u har bir spektrdagi peptid nomzodlarini o'rganish doirasi bilan farqlash uchun maxsus ishlab chiqilgan. pNovo 3, shuningdek , chuqur o'rganish orqali bashorat qilingan haqiqiy eksperimental spektr va nazariy spektrlarning o'xshashligini o'lchaydigan turli ko'rsatkichlarni yaratishi mumkin .
So'nggi yillarda yuqori darajada multiplekslangan spektrlarni echish uchun boshqa chuqur o'rganishga asoslangan usullar [27,64] joriy etildi . Ushbu modellar ko'pincha konvolyutsion va takroriy neyron tarmoqlarining yuqori darajada moslashtirilgan arxitekturasini o'z ichiga oladi va ularni yangi ketma-ketlik uchun erishish mumkin bo'lgan xususiyatlar bilan o'rgatish mumkin, masalan, spektrlar ma'lumotlari, fragmentlar ionlari ma'lumotlari va aminokislotalarning ketma-ketlik naqshlari.
Bundan tashqari, de novo peptidlar ketma-ketligini ma'lumotlar bazasiga mos keladigan yondashuv bilan birlashtirib, yaxshi ishlashga erishish mumkin . Bunday gibrid yondashuvlar birinchi navbatda peptid yorlig'i ketma-ketligi asosida qidirish uchun eng mos protein ma'lumotlar bazasini tanlaydi va keyin tanlangan ma'lumotlar bazasiga nisbatan xatoga chidamli qidiruvni amalga oshiradi. Qidiruv strategiyasining ushbu turkumiga InsPecT [37], DirecTag [36] va
JUMP [38] kiradi. Bundan farqli o'laroq, PEAKS Studio [39] har qanday spektrlardan oldin de novo ketma-ketlikni amalga oshiradi.

Ma'lumotlar bazasini qidirish. Yaqinda Cifani va boshqalar. [40] gibrid proteomika asosi bo'lgan ProteomeGeneratorni taklif qildi . Ushbu yangi yondashuv namunaga xos boshqaruv elementlari bilan maqsadli ma'lumotlar bazasidan mos natijalarni kalibrlaydi va kanonik bo'lmagan proteomalarda izoformani aniqlashning aniqligini sezilarli darajada yaxshilaydi . Katta miqyosdagi proteomik ma'lumotlar to'plami uchun parallel PSM ishlov berish algoritmlari ham amalga oshirildi [33].
Ma'lumotlardan mustaqil yig'ish (DIA) massa spektrometriyasi endi peptid aralashmalarini tizimli tahlil qilish uchun yangi strategiya sifatida paydo bo'ladi . An'anaviy ma'lumotlarga bog'liq yig'ish (DDA) dan farqli o'laroq, prekursor ionlarining aralashmalari birgalikda tanlash va birgalikda dissotsiatsiya asosida tanlanadi, DIA oldindan belgilangan m/z diapazonidagi har bir xromatografik vaqt nuqtasida barcha parchalangan ionlarni aniqlaydi yoki m
dan foydalanadi. Izolyatsiya va parchalanish vaqtida /z diapazonlari [65]. DIA ning kuchliligi shundaki, barcha prekursor ionlari egilishsiz tanlanadi va quyi oqimdagi tizimli tahlil uchun yanada ishonchli ma'lumot beradi. Turli yondashuvlar bilan DIA yondashuvi uchun turli tahlil strategiyalari ishlab chiqilgan. Misol uchun, MSPLIT-DIA [19] kutubxonani moslashtirish usuli bo'lib, unda DIA spektridan kiritilgan ma'lumotlar kutubxona spektrlariga nisbatan qidiriladi va
spektr proektsiyalari normallashtirilgan nuqta mahsuloti asosida baholanadi. Biroq, kutubxonaga asoslangan ushbu usullarning natijalari kutubxonada mavjud ma'lumotlardan oldingi bilimlar bilan cheklangan . Ushbu muammoni hal qilish uchun ko'plab kutubxonalarsiz usullar ham taklif qilingan. Ushbu vositalar odatda DIA-Umpire [42] kabi multiplekslangan spektrlarni yoki yuqori korrelyatsiya qilingan prekursor ion guruhlarini dekonvolyutsiyadan soxta spektrlarni qayta tiklaydi yoki FT-ARM [66] kabi DIA ma'lumotlaridan har bir so'rov peptidining mavjudligi ishonchini to'g'ridan-to'g'ri hisoblab chiqadi. va PECAN [31]. Yaqinda Searle va boshqalar. [67] model bo'lmagan organizmlar va kanonik bo'lmagan ma'lumotlar bazalari uchun DIA-MS uchun tezkor, eksperimentga xos kutubxona yaratish ish jarayonini taklif qildi . Ularning tizimida birinchi navbatda proteomadagi har bir peptidni o'z ichiga olgan kutubxonalar
quriladi, so'ngra to'g'ridan-to'g'ri protein ketma-ketligi ma'lumotlar bazalaridan tuzilgan empirik ma'lumotlardan foydalangan holda tozalash
Proteinlardagi posttranslatsion modifikatsiyalar (PTM) MS bilan ham aniqlanishi mumkin. Biroq, barcha mumkin bo'lgan o'zgartirish pozitsiyalari bilan ma'lumotlar bazasini oddiygina qidirish juda ko'p vaqt talab qilishi mumkin, chunki barcha mumkin bo'lgan pozitsiya/modifikatsiya kombinatsiyalarining ko'pligi. Hisoblash talablarini kamaytirish yoki natijalarning aniqligini oshirish uchun ModifiComb [45], PTMselect [51] va G-PTM-D [68] kabi
bir qancha usullar mavjud . PEAKS PTM [69] PEAKS Studio dasturiga integratsiyalangan PTM identifikatsiya usulidir . PEAKS PTM da yuqori de novo ballga ega tayinlanmagan spektrlar aniqlangan oqsillarga nisbatan qidiriladi . Genomik yoki transkriptomik ma'lumotlar bazalaridan olingan ketma-ketlik ma'lumotlari, shuningdek, mumkin bo'lgan protein ketma-ketligini ta'minlash orqali peptidlarni aniqlashga yordam beradi. Ushbu strategiya proteogenomikada keng qo'llaniladi , u MS asosidagi proteomika ma'lumotlaridan yangi peptidlarni aniqlashni osonlashtirish uchun genomik va transkriptomik ma'lumotlar bazalari ma'lumotlaridan foydalanadigan tadqiqotning yangi sohasi hisoblanadi [70]. MetaMorpheus [50] global PTM kashfiyotida ko'p bosqichli qidiruvlarni o'z ichiga olgan yana bir yangi vositadir . G-PTM-D yondashuvi bilan solishtirganda, qidiruv tezligi sezilarli darajada oshishi bilan aniqlangan PTMlarning ko'proq soniga erishadi .
Peptid identifikatsiyasi tugallangandan so'ng, keyingi qadam peptid ketma-ketligini asl oqsillarga qayta tiklashdir. Ushbu protsedura oqsil xulosasi deb ataladi. Uzunroq peptidlar o'zlarining noyobligi tufayli ushbu bosqichda ko'proq ma'lumotga ega . Taqqoslash uchun, odatda, qisqaroq peptidlardan oqsillarning ishonchli ro'yxatini tuzish oson emas, chunki peptidlarning ba'zilari ikki yoki undan ko'p oqsillar tomonidan taqsimlanishi mumkin. Ushbu "degeneratsiyalangan peptidlar" odatda oqsillarni tayinlash uchun bir nechta optimal echimlarga ega. Peptidlarni yig'ish uchun yaratilgan ko'plab modellar aniqlangan peptidlarni hisobga olgan eng kichik oqsillar to'plamini bildiradigan parsimon qoidani moslashtiradi [41,43,71]. Probabilistik modellar oqsil xulosasida ham keng qo'llaniladi va birinchi marta ProteinProphet [72] tomonidan kiritilgan. O'shandan beri ierarxik statistik model [73] va Bayes xulosasi modeli [74] kabi ko'proq statistik modellashtirish ramkalari taklif qilindi. Bayes xulosasi modeli posterior ehtimollar asosida qurilgan Bayesian modellarini qo'llaydi va original ProteinProphet ish faoliyatini taxminan 6% ga yaxshilagan. Protein xulosasining ishlashi ko'pincha kuzatilgan peptidlardan PSM balli kabi dalillarning kuchiga ta'sir qiladi [75]. Odatda, katta proteomik ma'lumotlar to'plamlari uchun noto'g'ri xabar qilingan oqsillar sonini kamaytirish uchun oqsillarni identifikatsiyalash FDRlari uchun qattiq chegara o'rnatiladi . Protein xulosasi uchun yangi FDR baholash asoslari ham ishlab chiqilgan.
Int. J. Mol. Sci. 2020 yil, 21, 2873 yil 25 tadan 7 tasi
Reiter va boshqalar. taklif qilingan MAYU [44], bu PSM ni FDR baholash uchun maqsadli aldash strategiyasini oqsil darajasiga kengaytiradi. Turli yirik proteomik ma'lumotlar to'plamlarida tekshirish shuni ko'rsatadiki, ma'lumotlar to'plamining o'lchami oqsillarni identifikatsiyalash natijalarining ishonchliligiga ta'sir qiladi. Yaqinda Wu va boshqalar. [76] yangi FDR baholash yondashuvini taklif qildi , unda null taqsimot logistik regressiya modelining Permutation + BH (Benjamini-Hochberg) usuli bilan kombinatsiyasidan hosil bo'ladi . Bundan tashqari, mualliflar ushbu yondashuv MAYUga qaraganda doimiy ravishda yaxshiroq ishlashga erishishini ko'rsatdi.

Yüklə 393,45 Kb.

Dostları ilə paylaş:

1 2 3 4 5 6 7