Ma `lumot

Yuqori nomuvofiqlik va bo'shliq jazolarini belgilash mukammal xaritalash o'qishlarini ajratish uchun etarlimi?

Yuqori nomuvofiqlik va bo'shliq jazolarini belgilash mukammal xaritalash o'qishlarini ajratish uchun etarlimi?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Menda sifat nazoratidan o‘tgan 125bp butun genom ov miltig‘ining yog‘li to‘plami bor va men faqat shu o‘qishlarni chiqarib tashlamoqchiman. bunday qilma genom bilan mukammal xaritalash. Men nomuvofiqliklar va bo'shliqlarni ochish/kengaytmalar uchun juda yuqori jarimalar qo'yganimda (bilanbwa mem -B 1000 -O [1000,1000] -E [1000,1000]), bu kabi ko'rinadi o'qishlarni mukammal xaritalash uchun hizalamalar ko'rsatiladi va qolgan o'qishlar xaritasiz deb xabar qilinadi. Agar bu to'g'ri bo'lsa, men xaritalanmagan o'qishlarni olib tashlashim mumkinsamtools -f 4.

Bu yerda mening fikrlashimda biron bir teshik bormi yoki genomga to'liq mos keladigan barcha o'qishlarni olib tashlashga yordam beradimi?


Qisqa javob: Yo'q, o'ta yuqori jarimalar belgilash (100 yoki 1000) ish bermaydi. Sababini bilmayman.

O'rtacha javob: Savolni joylashtirganimdan beri men biroz o'rganib chiqdim va CIGAR satri va NM yorlig'i bilan ko'rsatilganidek, yumshoq qirqilmagan va tahrirlash masofasi nolga teng bo'lgan o'qishlar juda mos keladi. mos ravishda.

Uzoq javob: https://standage.github.io/how-to-distinguish-perfectly-mapped-reads-from-a-sambam-file.html ga qarang.


Ma'qul yo'l oddiy xaritalash va quyi oqimdagi nomukammal mosliklarni filtrlashdir:

bwa mem ref.fa reads.fq | perl -ane 'print if /^@/ || ($F[5]=~/^d+M$/ && /	NM:i:0/)'

Baholash sxemasini o'zgartirish xaritalashning aniqligiga putur etkazadi.


Zamonaviy mos yozuvlar genomlariga qarshi qadimgi DNK o'qish xaritasini takomillashtirish

Keyingi avlod ketma-ketligi qadimgi shaxslar va yo'qolib ketgan turlarning to'liq genomik ketma-ketligini ta'minlash orqali qadimgi DNK (aDNK) tadqiqotlariga bo'lgan yondashuvimizni inqilob qildi. Biroq, uzoq o'lik organizmlardan genetik materialni tiklash hali ham bir qator muammolar, jumladan o'limdan keyingi DNKning shikastlanishi va atrof-muhit ifloslanishining yuqori darajasi. Amaldagi sekvensiya platformalarining turiga xos xato profillari bilan birga, bu o'ziga xosliklar bizning zamonaviy mos yozuvlar genomlariga nisbatan ketma-ketlik o'qishlarini xaritalash qobiliyatini cheklashi va shuning uchun endogen qadimiy o'qishlarni aniqlash qobiliyatimizni cheklab qo'yishi mumkin, bu esa aDNK sekvensiyasining samaradorligini pasaytiradi.

Natijalar

Ushbu tadqiqotda biz Illumina GAIIx va Helicos Heliscope platformalaridan foydalangan holda pleystosen otlari ekstraktidan olingan ov miltig'i ketma-ketligi o'qishlari asosida aDNK ketma-ketligini aniqlashning aniqligi va sezgirligini oshirish uchun turli hisoblash usullarini solishtiramiz. Biz ko'rsatamizki, Burrows Wheeler Aligner (BWA), ketma-ketlik xatoliklarining indel-tiplari past bo'lgan platformalar yordamida zararsiz ketma-ketlik o'qishlarini xaritalash uchun ishlab chiqilgan, standart parametrlarni o'zgartirish orqali maqbul ish vaqtlarida foydalanish mumkin. platformaga xos uslub. Shuningdek, biz o'qish uchlaridagi ehtimoliy shikastlangan pozitsiyalarni kesish haqiqiy aDNK fragmentlarining tiklanishini oshirishi mumkinmi yoki yo'qligini va eng yaxshi zarba filtrlash asosida ilgari tavsiya etilgan strategiya yordamida odamning ifloslanishini aniq aniqlash mumkinligini tekshiramiz. Turli xil xaritalash va filtrlash yondashuvlarimizni birlashtirish yuqori sifatli endogen xitlar sonini 33% gacha oshirishi mumkinligini ko'rsatamiz.

Xulosa

Biz aDNK ekstraktlaridan olingan Illumina va Helicos ketma-ketliklarini xaritalash parametrlari ushbu platformalar tomonidan yaratilgan xatolarning muayyan turlari uchun optimallashtirilmasa, bir xil samaradorlik bilan zamonaviy mos yozuvlar genomlariga moslashtira olmasligini ko'rsatdik. o'limdan keyingi DNK shikastlanishi. Bizning topilmalarimiz kelajakdagi aDNK tadqiqotlari uchun muhim ahamiyatga ega, chunki biz haqiqiy aDNK ketma-ketliklarini aniqlash qobiliyatimizni yaxshilaydigan xaritalash ko'rsatmalarini aniqlaymiz, bu esa o'z navbatida qadimgi namunalarning genotiplash aniqligini oshirishi mumkin. Bizning tizimimiz ifloslanish va ko'pincha kam miqdordagi DNK materiali bilan bog'liq bo'lgan qadimgi genomlarni tavsiflash uchun ishlatiladigan standart protseduralarni sezilarli darajada yaxshilashni ta'minlaydi.


Fon

Yuqori o'tkazuvchanlik sekvensiyasi (HTS) texnologiyasi yaqinda tez va ta'sirchan rivojlanishni ko'rsatdi va bu avvalgi xarajatlarning atigi bir qismiga bir necha soat ichida ketma-ketlikning gigabazalarini ishlab chiqarishga olib keldi [1]. HTS genomlarni qayta sekvensiyalash (butun genom sekvensiyasi va maqsadli sekvensiya) kabi maxsus ilovalarni ishlab chiqish tufayli genetika va genomikada bilim portlashini yaratdi. Ushbu texnologik evolyutsiya ishlab chiqarilgan o'qishlar miqdori va sifati bilan shug'ullanish uchun yangi algoritmlarni ishlab chiqish bilan parallel ravishda amalga oshirildi. Yondashuvlarni qayta tartiblashda asosiy tahlil bosqichlari o'qishlarni mos yozuvlar genomiga xaritalashdir. O'qishlarni mos yozuvlar genomlari ketma-ketligiga to'g'ri joylashtirishni o'z ichiga olgan ushbu bosqich juda muhim, chunki u quyi oqim tahlillarining global sifatini belgilaydi. Ushbu bosqichda ishlatiladigan algoritmlar xaritachilar deb ataladi. Xaritachilar sezgir va aniq bo'lishi kerak, agar iloji bo'lsa, tezkor va hisoblashni talab qilmasligi kerak. Ular mos yozuvlar genomidagi har bir o'qishning haqiqiy pozitsiyasini topa olishlari va texnik ketma-ketlik xatolari va tabiiy genetik o'zgarishlarni ideal tarzda ajrata olishlari kerak.

So'nggi yillarda ko'plab xaritachilar ishlab chiqildi va tarqatildi (60 dan ortiq xaritachilar [2] da keltirilgan). Ikkita tadqiqot [2, 3] xaritachilarni turli xil xususiyatlardan foydalangan holda tasnifladi: ma'lumotlar turi, ularni qo'llash, ketma-ketlik platformasi, o'qish uzunligi, ruxsat etilgan xato darajasi, parallel amalga oshirish, ko'p muammolar bilan ishlash qobiliyati. xaritalangan o'qishlar (ya'ni bir nechta joylarga moslashtirilgan o'qishlar), kirish va chiqish formatlari va mavjud parametrlar. Xaritachilar ko'paydi va shuning uchun mumkin bo'lgan sozlamalar oralig'i ham oshdi. Shu sababli, xaritachini tanlashda tobora ortib borayotgan qiyinchilik ko'p taqqoslash mezonlari orqali xaritalash ishini baholashga qaratilgan so'nggi tadqiqotlarda ko'tarildi. Ushbu tadqiqotlarning ba'zilari mapper sezgirligiga (to'g'ri xarita o'qish qobiliyati) e'tibor qaratdi [4-6]. Shbat va boshqalar. aniq uchta nomuvofiqlikka ega o'qishlarni o'z ichiga olgan yaxshi boshqariladigan benchmark yordamida xaritachilarning noyob va ko'p xaritali o'qishlarni aniqlash qobiliyatini o'rgandi [7]. Hatem va boshqalar. kiritish xususiyatlari va algoritmik xususiyatlarni qamrab oluvchi testlardan tashkil topgan xaritalash vositalarini [8] tahlil qilish uchun benchmarking to‘plamini taqdim etdi.

Baholash mezonlarini aniqlash, tegishli baholash usulini tanlashda qiyinchiliklarga qo'shimcha ravishda, ya'ni xaritachilarni baholash mezonlari bo'yicha qanday taqqoslash va tegishli ko'rsatkichlardan foydalanish ham muammoli. Xaritachining ishlashini baholash uchun haqiqiy ma'lumotlar to'plamidan foydalanish xaritalangan o'qishlar foizini solishtirish orqali xaritachilarni faqat taxminiy baholash va tasniflash imkonini beradi, lekin xaritachilarning haqiqiy aniqligini aniqlamaydi. Asl o'qish pozitsiyalari ma'lum bo'lgan simulyatsiya qilingan ma'lumotlar to'plamidan foydalanib, ushbu tuzoqdan qochishga urinishlar qilindi. Yana bir qiyinchilik to'g'ri xaritalangan o'qish nima ekanligini aniq ta'riflashda yotadi. Asosiy ta'rif, agar asl joy olinsa, o'qishni to'g'ri xaritalangan deb hisoblashdir [4]. Ruffalo va boshqalar. berilgan chegaradan yuqori bo'lishi kerak bo'lgan sifat ko'rsatkichiga shart qo'shish orqali ushbu ta'rifni kengaytirdi [5]. Yaqinda chop etilgan maqolada [8], agar xaritalash mezonlari buzilmagan bo'lsa, o'qish to'g'ri xaritalangan deb hisoblangan yangi ta'rif kiritildi. ya'ni foydalanuvchi tomonidan belgilangan chegara parametridan kamroq xatolarni o'z ichiga olgan.

Simulyatsiya qilingan ma'lumotlardan foydalanish raqamli qiymatlarni olish va xaritachilar to'plami o'rtasida taqqoslash imkonini beradi. Biroq, simulyatsiya qilingan ma'lumotlar haqiqiy ma'lumotlarga o'xshash xususiyatlarga ega emas, hatto haqiqiy ma'lumotlarga asoslangan xato modeli ishlatilganda ham. Haqiqiy HTS ma'lumotlarida simulyatsiya qilish juda qiyin bo'lishi mumkin bo'lgan noto'g'ri fikrlar [9] mavjud. Bundan tashqari, faqat asl boshlanish joyiga asoslangan xaritalash to'g'riligining joriy ta'rifi ba'zi kamchiliklarni ko'rsatadi: o'qish mos yozuvlar ketma-ketligida bir nechta to'g'ri pozitsiyalarga ega bo'lishi mumkin va ketma-ketlik xatolari yoki haqiqiy genetik variatsiyalar genom pozitsiyasini yaxshiroq moslashtirishga olib kelishi mumkin. asl. Holtgreve va boshqalar. o'qish xaritasini tavsiflash uchun genom pozitsiyasini emas, balki interval ta'rifini kiritdi [6] va har bir o'qish uchun berilgan xato darajasi oralig'ida barcha mumkin bo'lgan mos keladigan intervallarni aniqlash uchun to'liq sezgirlik algoritmidan foydalangan. Ushbu usul RABEMA (Read Alignment BEnchMARk) da amalga oshirildi, bu SAM chiqish formatini real va simulyatsiya qilingan ma'lumotlar to'plamlari bilan qo'llab-quvvatlaydigan o'zboshimchalik bilan o'qish xaritalari natijalarini baholovchi vositadir. Xaritachilarni baholash bo'yicha nashr etilgan adabiyotlarni tahlil qilish bizni xaritachilarni to'liq va ishonchli taqqoslash uchun haqiqiy va simulyatsiya qilingan ma'lumotlar to'plamidan foydalanish kerak degan xulosaga keldi. Haqiqiy ma'lumotlar to'plamidan foydalanish simulyatsiya tarafkashliklaridan qochadi va xaritachi xatti-harakatining haqiqiy rasmini beradi, simulyatsiya qilingan ma'lumotlar to'plami esa barcha parametrlarni nazorat qilish mumkin bo'lgan mezondir. Bundan tashqari, to'g'ri xaritalangan o'qishni tashkil etuvchi aniqroq, to'liqroq ta'rifni hisobga olish kerak (pastga qarang).

Oldingi barcha tadqiqotlarda xaritachining ishlashi katta eukaryotik genomlar (asosan inson genomi) yordamida baholangan va ko'pincha Illumina yoki Illuminaga o'xshash qisqa o'qish ma'lumotlari ishlatilgan, [4, 6] bundan mustasno, 454 ma'lumotlar to'plami baholangan. xaritachilar va ko'rsatkichlar soni kamayadi. Sekvensiya xatolarining turi va ularning tezligi ketma-ketlik texnologiyasiga, aniqrog'i nukleotid cho'zilishini aniqlash usullariga xosdir. Misol uchun, Life Technologies oligonukleotidlarni bog'lash va aniqlash (SOLiD) texnologiyasi bo'yicha ketma-ketlik takrorlanuvchi elementlarni qamrab olishda kuchli tarafkashlikni ko'rsatdi [10], Illumina teskari bo'yoq-terminator sekvensiyasi texnologiyasi (HiSeq) asosan almashtirishlarga sabab bo'ldi [11]. Qattiq qo'llab-quvvatlash (454/Roche) va ion yarimo'tkazgichlar ketma-ketligi texnologiyasi (Ion Torrent, Life Technologies) bo'yicha pirosequencing gomopolimer-mintaqalari bilan bog'liq indel xatolarini keltirib chiqardi [12]. Nashr etilgan baholashlarda sinovdan o'tgan mezonlar va xaritachilarning standart parametrlari odatda almashtirish tipidagi xatolarni bartaraf etish yoki ularni hal qilish uchun tanlangan va shuning uchun Ion Torrent platformasi kabi yangi texnologiyalardan o'qishlarni xaritalash uchun kamroq ma'lumotga ega.

Bundan tashqari, katta eukaryotik genomlarni tahlil qilish bilan solishtirganda kichik mikrobial genomlarni tahlil qilish boshqa qiyinchiliklarni keltirib chiqaradi, chunki mikrobial genomlar GC tarkibining keng doirasini o'z ichiga oladi, bu ba'zan ekstremaldir. Juda yuqori yoki juda past GC tarkibi genom ketma-ketligida gomopolimerlar bilan uchrashish ehtimoli yuqori ekanligini anglatadi va bu pirosekvensiya va ion yarimo'tkazgich sekvenserlari uchun o'ziga xos muammo ekanligi ma'lum. HTS texnologiyalaridagi so'nggi ishlanma kichik va o'rta o'lchamdagi genomlarni, asosan, bakteriyalar, viruslar, zamburug'lar va parazitlarni tez va arzon ketma-ketlashtirishga qaratilgan stol usti sekvenserlarini taqdim etdi. Kichik mikrob genomlari ketma-ketligi katta eukaryotik genomlar uchun xaritalash jarayoni bilan solishtirganda oddiyroq, kamroq talabchan xaritalash jarayonini taqdim etishi mumkin. Biroq, bu faqat qisman to'g'ri, chunki kichik mikrobial genomlarning xususiyatlari eukaryotik genomlarniki bilan bir xil emas. Qiziqarli savollar ham odatda har xil bo'ladi va shuning uchun kutilayotgan xaritalash sifati mezonlari mutlaqo bir xil emas. Butun genom sekvensiyasi yoki qayta sekvensiyasi HTS yordamida mikroorganizmlarni tavsiflashning yangi sohasida muhim dastur hisoblanadi. Masalan, klinik diagnostika va mikrob shtammlarining aylanishini epidemiologik o'rganish yaqin kelajakda HTS yordamida chuqur o'zgartiriladi, bu juda tez orada patogenlarni tavsiflash yondashuvi sifatida ishlatilishi kerak va ehtimol asta-sekin hozirgi PCR o'rnini bosadi. va biokimyoviy asosli tavsiflash usullari [13, 14]. Ushbu kontekstda qayta tartiblash ilovalari va olingan tahlillar tadqiqot va ishlanmalarning oldingi qatorida. Asosiy e'tibor mikrobial genomning butun uzunligini ketma-ketlashtirishni va o'rganilayotgan genomdagi potentsial tegishli o'zgarishlarni aniqlash uchun ularni bir yoki bir nechta mos yozuvlar shtammlariga solishtirish orqali olingan o'qishlarni tahlil qilishni o'z ichiga oladi. Maqsad potentsial yangi fenotip yoki olingan yangi patogenlik profilini bashorat qilish uchun genetik elementlarning (genlar yoki genlarning qismlari, profaglar va plazmidlar), shuningdek kichik o'zgarishlar (mutatsiyalar va indellar)dagi daromad yoki yo'qotishlarni aniq aniqlashdir. Bu talab bir qancha muammolarni keltirib chiqaradi, ulardan eng muhimi haqiqiy genetik o'zgarishlarni ketma-ketlik xatolaridan ajratish zaruratidir.

Ushbu maqolada biz kichik mikroblar, asosan bakterial genomlar uchun butun genom ketma-ketligi yoki qayta tartiblash kontekstida xaritachilarni baholashga e'tibor qaratamiz. Biz 14 ta mapperni sinovdan o'tkazdik, ular asosan nomutaxassis foydalanuvchilar uchun umumiy kontekstda bo'lish uchun ularning standart sozlamalaridan foydalangan. Biz ushbu kontekstga mos keladigan to'rtta mezonni tanladik: (i) hisoblash resurslari va vaqt talablari, (ii) aniqlik, eslab qolish va F o'lchovini baholash orqali xaritalashning mustahkamligi, (iii) takrorlanadigan hududlarda o'qish uchun pozitsiyalar haqida xabar berish qobiliyati va (iv) haqiqiy genetik o'zgaruvchanlik pozitsiyalarini olish qobiliyati. Simulyatsiya qilingan ma'lumotlar to'plamida xaritachining mustahkamligini baholash uchun biz to'g'ri xaritalangan o'qishning yangi ta'rifini kiritdik. Dastlabki boshlang'ich pozitsiyasiga qo'shimcha ravishda (ya'ni Ko'pgina oldingi tadqiqotlarda qo'llanilgan o'qish taqlid qilingan pozitsiya), o'qishni to'g'ri deb tasniflash uchun oxirgi pozitsiya, shuningdek, hizalamadagi kiritish, o'chirish va almashtirishlar soni ham ishlatilgan. Ushbu ta'rif avvalgilariga qaraganda qat'iyroqdir, chunki u to'liq uzunlikdagi o'qish moslashuvi va xatolar soni to'g'ri ekanligini anglatadi. Darhaqiqat, ketma-ketlik xatolari o'qishning asl joylashuvi har doim ham eng yaxshi moslashtirish joyi emasligini anglatishi mumkin. Barcha mumkin bo'lgan xitlar haqida xabar berish uchun sozlangan xaritachilardan foydalanish ("barcha" rejimi) va simulyatsiya qilingan o'qishlarda kiritilgan xato darajasidan yuqoriroq xatolik darajasini qabul qilish uchun potentsial ekvivalent yoki yaxshiroq xitlarga qo'shimcha ravishda asl joylashuvni olish mumkin bo'lishi kerak. Ushbu tadqiqotda ishlatilgan to'g'ri xaritalangan o'qishning yangi ta'rifi bilan biz xaritalashchi o'qishdagi muqarrar ketma-ketlik xatolariga qaramay, kutilgan asl hizalanishni olishiga ishonch hosil qildik va shu bilan xaritachining mustahkamligini haqiqiy baholash imkonini berdi.

Tahlil Ion Torrent Personal Genome Machine (PGM) tomonidan yaratilgan ma'lumotlarga nisbatan qo'llanildi, bu asosan kichik genomlarni ketma-ketlashtirishga bag'ishlangan yangi texnologiya bo'lib, ular uchun xaritachining ishlashi hali baholanmagan. Haqiqiy ma'lumotlar to'plamidan o'qishlar va sun'iy simulyatsiya qilingan o'qishlar ishlatilgan. Simulyatsiya qilingan o'qishlar yangi sozlanishi mumkin bo'lgan o'qish simulyatori CuReSim yordamida yaratilgan bo'lib, u qo'shish, o'chirish va almashtirishlar bilan boshqariladigan tezlikda kiritilgan va o'qish davomida sozlanishi mumkin bo'lgan xatolar taqsimoti bilan foydalanuvchi tomonidan aniqlangan uzunliklarning o'qishlarini yaratishi mumkin. CuReSim va CuReSimEval, xaritalash sifatini baholash uchun ishlatilishi mumkin bo'lgan skript Java-da barcha operatsion tizimlarda ishlash uchun ishlab chiqilgan (batafsil ma'lumot uchun 1-qo'shimcha faylning 2-bo'limiga qarang) va http://www.pegase- saytida bepul mavjud. biosciences.com/tools/curesim/. Biz mikrobial genom sekvensiyasida segemehl kabi ba'zi xaritachilar boshqalardan ko'ra yuqori mustahkamlikka ega ekanligini ko'rsatdik, ayniqsa ketma-ketlik xatolar soni yuqori bo'lsa. Boshqa mapperlar boshqa sifat mezonlarini talab qiladigan boshqa ilovalar uchun mustahkamroqdir. Masalan, BWASW, SHRiMP2, SMALT, SSAHA2 va TMAP, ayniqsa, noyob variantni topishga qaratilgan ketma-ketlik uchun yaxshi ishlashi mumkin, chunki ular o'zgarishlarning kuchli diskriminatsiyasini ko'rsatadi. SMALT takroriy hududlarda joylashgan o'qish pozitsiyalarining ko'p qismini mahalliylashtirishi mumkin. Novoalign, SMALT va SRmapper kabi ba'zi xaritachilarga juda kichik xotira resurslari kerak edi (taxminan 20 MB), SNAP esa juda tez edi va ushbu tadqiqotda foydalanilgan kattaroq ma'lumotlar to'plamini qayta ishlash uchun atigi ikki daqiqa kerak edi. Ushbu natijalar xaritachini tanlash dasturga bog'liqligini va foydalanuvchilar xaritachini tanlashdan oldin maqsadli maqsadni diqqat bilan ko'rib chiqishlari kerakligini ta'kidlaydi. Bu erda taqdim etilgan baholash yondashuvi ishlab chiqilgan vositalar bilan (simulyatsiya qilingan o'qishlarni yaratish uchun CuReSim va xaritalash sifatini baholash uchun CuReSimEval) mavjud yoki ishlab chiqilayotgan xaritachilarni baholashning umumiy usuli sifatida ko'rib chiqilishi mumkin va ularning ishlashini baholashda qiziqarli bo'lishi mumkin. Keyingi uchinchi avlod sekvenserlari uchun mapperlar, ularda xatoliklarning boshqa turi va tezligi bo'lishi mumkin.


Natijalar

Nukleotid konversiyasini raqamli ravishda ochish k-mers

DUNK to'rtta asosiy bosqichni bajarish orqali yuqori o'tkazuvchanlikdagi ketma-ketlik ma'lumotlar to'plamlaridagi nukleotid konversiyalarini ketma-ketlik xatosi va haqiqiy SNPlardan farqlash muammolarini hal qiladi (1-rasm): Birinchidan, nukleotid konversiyasidan xabardor o'qish xaritalash algoritmi o'qishlarni moslashtirishni osonlashtiradi (k- mers) ko'tarilgan nomuvofiqliklar bilan (1a-rasm). Ikkinchidan, 3' UTR kabi takrorlanuvchi yoki past murakkablikdagi hududlarda nukleotid konversiyasining ishonchli o'qishini ta'minlash uchun DUNK ixtiyoriy ravishda ko'p xaritali o'qishlar uchun tiklash strategiyasidan foydalanadi. Barcha ko'p xaritalash o'qishlarini bekor qilish o'rniga, DUNK faqat o'sha xaritani ikki xil 3' intervalgacha teng darajada yaxshi tashlaydi. Bir xil 3' oralig'iga yoki bitta 3' oralig'iga va genomning 3' oralig'iga kirmaydigan hududiga bir nechta hizalamalar bilan o'qishlar saqlanadi (1b-rasm). Uchinchidan, DUNK SNP pozitsiyalarida noto'g'ri musbat nukleotid konversiyalarini maskalash uchun yagona nukleotidli polimorfizmlarni (SNP) aniqlaydi (1c-rasm). Nihoyat, yuqori sifatli nukleotid-konversiya signali ketma-ketlik xatosidan ajratiladi va o'qish qamrovi va intervalning asosiy mazmunini hisobga olgan holda barcha 3' intervallar uchun konversiya chastotalarini hisoblash uchun ishlatiladi (1d-rasm).

Nukleotid konversiyasini raqamli ochish k-mers: Legend: Berilgan nukleotid-konversiya uchun mumkin bo'lgan asosiy natijalar: mos yozuvlar bilan moslik (oq), nukleotid-konversiya nomuvofiqlik (qizil), nukleotid-konversiya nukleotid-konversiyasini hisobga olgan holda ball (ko'k), past sifatli nukleotid konversiya (qora) va filtrlangan nukleotid-konversiya (shaffof) a Nukleotid-konversiyani sodda tarzda qayta ishlash va DUNKga qarshi: sodda o'qish xaritasi (chapda) mos yozuvlar genomiga 11 o'qishni (kulrang) xaritalaydi va ko'plab konvertatsiya qilingan nukleotidlarni (qizil) o'z ichiga olgan besh o'qishni (och kulrang) o'chiradi. DUNK mapper (o'ngda) barcha 16 o'qishni xaritalaydi. b DUNK ko'p xaritalash o'qishlarini (R5, R6, R7, chap) shunday qayta ishlaydiki, 3' oralig'iga aniq belgilanishi mumkin bo'lganlar (R3, R6) aniqlanadi va shu hududga tayinlanadi, R5 va R7 bir hududga tayinlanmaydi. 3′ interval va quyi oqim tahlillaridan oʻchiriladi. R2 umumiy past tekislash sifati tufayli o'chiriladi. c Yagona nukleotidli polimorfizmlardan kelib chiqqan noto'g'ri musbat nukleotid konversiyalari niqoblangan. d Yuqori sifatli nukleotid konversiyalari qoplanish va asosiy tarkib uchun miqdoriy me'yorlashtirilgan

Quyida biz DUNKni bir nechta nashr etilgan va simulyatsiya qilingan ma'lumotlar to'plamiga qo'llash orqali har bir tahlil bosqichining samaradorligi va haqiqiyligini namoyish qilamiz.

Nukleotid konversiyasidan xabardor xaritalash nukleotid konversiyasi miqdorini yaxshilaydi

O'qishlarni mos yozuvlar genomiga to'g'ri moslashtirish ko'pchilik yuqori samarali sekvensiya tahlillarining markaziy vazifasidir. O'qish va mos yozuvlar genomlari o'rtasidagi optimal moslashuvni aniqlash uchun xaritalash algoritmlari nomuvofiqlik va bo'shliqlar uchun jazolarni o'z ichiga olgan ball funksiyasidan foydalanadi. Jazolar mos kelmaslik yoki bo'shliqni kuzatish ehtimolini aks ettirishga qaratilgan. Standart yuqori o'tkazuvchanlik ketma-ketligi tajribalarida nukleotidlar nomuvofiqligi turidan (standart ball) mustaqil ravishda bitta nomuvofiqlik jazosi qabul qilinadi. Aksincha, SLAMseq yoki shunga o'xshash protokollar ma'lumotlar to'plamini ishlab chiqaradi, bu erda ma'lum bir nukleotid konvertatsiyasi boshqalarga qaraganda tez-tez sodir bo'ladi. Buni hisobga olish uchun DUNK konversiyadan xabardor skorlash sxemasidan foydalanadi (1-jadvalga qarang). Masalan, SLAM-DUNK havola va gtread o'rtasidagi T & gt C nomuvofiqligini jazolamaydi.

Biz 0% (konversiya yoʻq), 2.4 va 7% (sichqonchaning embrion ildiz hujayralari (mESC) SLAMseq maʼlumotlarida kuzatilgan konversiya tezligi [4] va HeLa SLAMseq maʼlumotlarida (nashr qilinmagan) 4SU yorligʻi bilan toʻyingan holda) konversiyalash tezligi bilan simulyatsiya qilingan SLAMseq maʼlumotlaridan foydalandik. ) va 1-jadvalda ko'rsatilgan baholash sxemasini baholash uchun haddan tashqari konversiya tezligi 15% (2-jadvalga qarang). simulyatsiya qilingan "haqiqiy" konversiyalarga va simulyatsiya qilingan haqiqatdan nisbiy xatolarning medianasini hisoblab chiqdi [%] (Usullarga qarang). 0% “konversiya tezligi” uchun har ikkala skorlama sxemasi < 0,1% median xatolikni ko'rsatdi (2a-rasm, 1-qo'shimcha fayl: S1-rasm). Shunisi e'tiborga loyiqki, standart baholash sxemasining o'rtacha xatosi konversiyadan xabardor skorlash sxemasidan pastroq (0,288 ga nisbatan 0,297 nukleotid konversiyasi), shuning uchun eksperimental ravishda kiritilgan nukleotid konversiyalarisiz ma'lumotlar to'plamlari uchun standart ballni qo'llab-quvvatlaydi. 2,4% konvertatsiya tezligi uchun standart va konversiyadan xabardor skorlash sxemasi mos ravishda 4,5 va 2,3% xatolikni ko'rsatdi. Konvertatsiya tezligini 7% ga oshirish standart ball xatosini 5% ga oshirdi. Aksincha, SLAM-DUNK skoring funksiyasining xatosi 2,3% da qoldi. Shunday qilib, konversiyadan xabardor ball standart baholash sxemasi bilan solishtirganda o'rtacha konvertatsiya miqdorini aniqlash xatosini 49-54% ga kamaytirdi.

Nukleotid konversiyasidan xabardor o'qish xaritasi: a Nukleotid konversiyasini hisobga olgan holda baholash va oʻqish xaritasidagi naif ballni baholash: oʻqish uzunligi 100 bp boʻlgan simulyatsiya qilingan maʼlumotlar uchun haqiqiy va tiklangan nukleotid konversiyalarining oʻrtacha xatosi [%] va 100x qamrovda nukleotid konversiyasi tezligi. b Odatda uchraydigan nukleotidlarning 0,0, 2,4 va 7,0% konversiya tezligi, shuningdek, 15, 30 va 60% haddan tashqari konversiya tezligi uchun ularning 3' kelib chiqish oralig'iga to'g'ri tayinlangan o'qishlar soni. c Standart xaritalash va DUNK uchun nukleotid-konversiya tarkibi ortib borayotgan 21 ta sichqoncha ES hujayra puls-quvib vaqti kursi namunalarini xaritalashdan so‘ng saqlangan o‘qishlar va 95% CI diapazonlari bilan chiziqli regressiya foizlari

DUNK nukleotid-konversiya tezligidan qat'iy nazar o'qishni to'g'ri xaritalaydi

SNP yoki ketma-ketlik xatolaridan kelib chiqadigan nomuvofiqliklar o'qish xaritalash vositalarining asosiy muammolaridan biridir. Odatda RNK-Seq ma'lumotlar to'plamlari SNP tezligini 0,1 dan 1,0% gacha va 1% gacha bo'lgan ketma-ketlik xatosini ko'rsatadi. Kimyoviy induktsiyalangan nukleotid konversiyasidan foydalanadigan protokollar mos kelmaslik chastotalarining keng diapazoniga ega bo'lgan ma'lumotlar to'plamini ishlab chiqaradi. Nukleotid-konversiyasiz (yorliqsiz) o'qishlar RNK-Seq ko'rsatkichlari bilan bir xil nomuvofiqliklarni ko'rsatsa-da, nukleotid-konversiyani o'z ichiga olgan (yorliqlangan) ko'rsatkichlar tajribaning nukleotid-konversiya tezligiga va nukleotidlar soniga qarab qo'shimcha nomuvofiqliklarni o'z ichiga oladi. o'qishga aylantiriladi. Nukleotid-konversiya tezligining o'qish xaritasiga ta'sirini baholash uchun biz chop etilgan mESC 3' yakuniy izohidan olingan 1000 genomik 3' intervalli ifodalangan transkriptlarni tasodifiy tanladik va nukleotid konversiya tezligi 2,4 va 7% bo'lgan etiketli o'qishlarning ikkita ma'lumotlar to'plamini simulyatsiya qildik. (2-jadvalga qarang). Keyinchalik, SLAM-DUNK simulyatsiya qilingan ma'lumotlarni sichqonchaning genomiga joylashtirdi va biz har bir ma'lumot to'plami uchun to'g'ri 3' oralig'iga moslashtirilgan o'qishlar sonini hisoblab chiqdik. Shakl 2b ko'rsatadiki, 50 bp o'qish uzunligi va 2,4% nukleotid-konversiya tezligi uchun xaritalash tezligi (91%), yorliqsiz o'qishlar ma'lumotlar to'plami bilan solishtirganda sezilarli darajada farq qilmaydi. Nukleotid-konversiya tezligini 7% ga oshirish to'g'ri xaritalangan o'qishlarning 88% gacha o'rtacha pasayishiga olib keldi. Ushbu pasayish o'qish uzunligini 100 yoki 150 bp ga oshirish orqali tuzatilishi mumkin, bu erda xaritalash tezligi 15% gacha bo'lgan nukleotid konversiya tezligi uchun kamida 96% bo'ladi (2b-rasm).

Qisqaroq o'qishlar (50 bp) uchun yuqori konversiya stavkalari (> 15%) uchun to'g'ri ko'rsatilgan o'qishlar foizida sezilarli pasayish kuzatilayotgan bo'lsa-da, SLAM-DUNKning uzoqroq o'qishlar uchun xaritalash tezligi (100 va 150 bp) ma'lumotlar to'plamlari uchun 88% dan yuqori bo'lib qoldi. mos ravishda 15 va 30% gacha konversiya stavkalari bilan, bu SLAM-DUNK xaritalari nukleotid konvertatsiyasi bilan ham, konversiyasiz ham yuqori konversiya chastotalarida ham bir xil darajada yaxshi o‘qishini ko‘rsatadi.

Ushbu topilmani haqiqiy ma'lumotlarda tasdiqlash uchun biz SLAM-DUNK-dan mESC-larda puls-ta'qib vaqt kursidan (3-jadvalga qarang) e'lon qilingan 21 ta (har biri uchta takroriy 7 vaqt nuqtasi) SLAMseq ma'lumotlar to'plamini [4] xaritalash uchun foydalandik. 2,4%. Tajribaning biologik xususiyatidan kelib chiqib, biz kutamizki, birinchi vaqt nuqtasidagi SLAMseq maʼlumotlari (4SU- yuvish/quvgʻin boshlanishi) eng koʻp yorliqlangan oʻqishlar sonini oʻz ichiga oladi, oxirgi vaqt nuqtasidagi maʼlumotlarda esa deyarli hech qanday yorliqli oʻqishlar yoʻq. .

Shakl 2c kutilgan ijobiy korrelyatsiyani ko'rsatadi (Spearman's rho: 0,565, p-qiymati: 0,004) xaritalangan o'qishlar ulushi va vaqt nuqtalari o'rtasida, agar konversiyadan bexabar mapper ishlatilsa (standart qiymatlarga ega NextGenMap). Keyinchalik, SLAM-DUNK yordamida tahlilni takrorladik. Ushbu ma'lumotlar to'plamidagi etiketli o'qishlar sonining o'zgarishiga qaramay, biz barcha namunalar bo'ylab 60-70% xaritalangan o'qishlarning doimiy qismini kuzatdik (2c-rasm) va vaqt nuqtasi va xaritada o'qishlar soni (Spearman's) o'rtasida sezilarli korrelyatsiyani kuzatmadik. rho: 0.105, p-qiymati: 0,625). Shunday qilib, DUNK xaritalari nukleotidlarning konversiya tezligidan qat'iy nazar eksperimental ravishda yaratilgan ma'lumotlarda ham o'qiydi.

Ko'p mapperni qayta tiklash 3' yakuniy ketma-ketlik tahlili uchun kirish mumkin bo'lgan genlar sonini oshiradi

Genomik past murakkablikdagi hududlar va takroriy takrorlashlar o'qish moslashtiruvchilari uchun katta qiyinchiliklar tug'diradi va ma'lumotlarni tahlil qilishda xatolarning asosiy manbalaridan biridir. Shuning uchun, noto'g'ri ko'rsatilgan o'qishlardan kelib chiqadigan chalg'ituvchi signallarni kamaytirish uchun ko'p xaritalash o'qishlari ko'pincha o'chiriladi: Ko'pgina transkriptlar genomning etarlicha uzun noyob hududlarini qamrab olish uchun etarlicha uzun bo'lganligi sababli, barcha ko'p xaritali o'qishlarni rad etishning ifoda tahliliga umumiy ta'siri toqat qilinadi ( o'rtacha sichqoncha (GRCm38) RefSeq transkript uzunligi: 4195 bp). Faqat ketma-ketlik bilan

Transkriptning 3' uchida 250 nukleotid, 3' oxiri ketma-ketligi o'tkazuvchanlikni oshiradi va o'zgaruvchan gen uzunligini hisobga olgan holda normalizatsiyani oldini oladi. Natijada, 3' oxiri ketma-ketligi odatda transkriptlarning kodlash ketma-ketligiga qaraganda kamroq murakkab bo'lgan 3' UTR mintaqalarini qamrab oladi [9] (Qo'shimcha fayl 1: S2a-rasm). Shuning uchun, 3 ′ uchi ketma-ketligi ko'p xaritalash o'qishlarining yuqori foizini (50 bp mESC namunalarida 25% gacha) hosil qiladi. Ushbu o'qishlarni istisno qilish signalning katta yo'qolishiga olib kelishi mumkin. Asosiy pluripotentlik omili 4 oktyabr misol [10]: 4-oktabr mESClarda yuqori darajada ifodalangan boʻlsa-da, koʻp xaritalash oʻqishlarini bekor qilganda mESC namunalarining 3′-sonli ketma-ketligida deyarli hech qanday xaritalangan oʻqishlar koʻrsatilmagan (Qoʻshimcha fayl 1: S3a-rasm). Ko'p xaritalash o'qishlarining yuqori ulushi 340 bp uzunlikdagi kichik ketma-ketlik bilan bog'liq. 4 oktyabr 3' UTR va intronik mintaqasi Rfwd2.

3′ end ketma-ketlikda o‘qishlar soniga 3′ UTR ning past murakkabligining ta’sirini baholash uchun biz har bir 3′ UTR uchun xaritalash imkoniyati ballarini [11] hisoblab chiqdik. Xaritalash qobiliyatining yuqori balli (0,0 dan 1,0 gacha) a k3' UTRdagi -mer bu k-merning o'ziga xosligini bildiradi. Keyinchalik, biz har bir 3' UTR uchun %-o'ziga xoslikni hisoblab chiqdik, ya'ni uning ketma-ketligining xaritalash qobiliyati 1 ball bilan ulushi. 3' UTRlar keyinchalik %-o'ziga xosligiga ko'ra 5% qutilarga bo'lingan. Har bir quti uchun biz mos keladigan 3' intervallarning o'qish sonlarini (3 x 4SU 0 soat namunalari, 3-jadvalga qarang) RNK-Seq ma'lumotlar to'plamidan mos keladigan genning o'qish soni bilan solishtirdik [4]. 3a-rasmda %-o‘ziga xoslik ortishi bilan korrelyatsiya ortishi ko‘rsatilgan. Agar ko'p xaritachilar kiritilgan bo'lsa, korrelyatsiya faqat noyob xaritachilarni hisoblash bilan solishtirganda kuchliroq bo'ladi. Shunday qilib, yuqorida tavsiflangan multi-mappersni tiklash strategiyasi 3' UTR kabi past murakkablikdagi hududlarda o'qishni samarali va to'g'ri tiklaydi. Shunisi e'tiborga loyiqki, umumiy korrelyatsiya noyob ketma-ketlikning 10% dan ko'prog'i bilan barcha 3' intervallar uchun doimiy ravishda 0,7 dan yuqori edi.

Kam murakkablikdagi hududlarda multimapperni tiklash strategiyasi: a mESC -4SU SLAMseq va mESC RNK-seq namunalari (har biri 3 ta replikatsiya) o'rtasidagi o'zaro bog'liqlik noyob xaritalash o'qishlari va ko'p xaritali tiklash strategiyasi uchun. Spearman barcha namunalar va barcha namunalarning o'rtacha korrelyatsiyasi y o'qi bo'yicha RNAseq tpm > 0 bo'lgan genlar uchun mos keladigan 3' UTRda noyob bp foizini kesish uchun ko'rsatilgan. Xato chiziqlari qora rangda ko'rsatilgan. b Multimapperlarni qayta tiklashda yoki noyob xaritalash o'qishlaridan foydalanishda nukleotid konversiya tezligi mos ravishda 0, 2,4 va 7% va 50, 100 va 150 bp o'qish uzunligi uchun to'g'ri (chap panel) yoki noto'g'ri (o'ng panel) 3' oralig'iga moslashtirilgan o'qishlar foizi faqat c Noyob va ko'p xaritali o'qishlar sonining tarqalishi (log2).

20 000 3' interval > 0 noyob va ko'p xaritali o'qish soniga ega genlar uchun 5% nisbiy xato chegarasi bilan ranglangan

Ko'p xaritachini qayta tiklash yondashuvining samaradorligini qo'shimcha baholash uchun biz SLAMseq simulyatsiya qilingan ma'lumotlar to'plamlariga murojaat qildik: Biz to'g'ri 3' oralig'ida (simulyatsiyadan ma'lum) o'qishlar foizini va noto'g'ri 3 bilan taqqoslangan o'qishlar sonini aniqladik. ′ interval, yana 0,0, 2,4 va 7,0% nukleotid-konversiya tezligi va o'qish uzunligi 50, 100 va 150 bp (2-jadvalga qarang): Ko'p xaritali qayta tiklash yondashuvi to'g'ri xaritalangan o'qishlar sonini 1 va 7% gacha oshiradi. , faqat < 0,03% ga kichik o'sish bilan noto'g'ri xaritalangan o'qishlar (3b-rasm).

Keyinchalik, biz nukleotid-konversiyasiz mESC namunasida eksperimental ravishda yaratilgan 3 ′ end ketma-ketlik ma'lumotlarini tahlil qildik (3-jadvalga qarang). Har bir 3 ′ interval uchun biz ko'p mapperni qayta tiklash bilan va bo'lmagan o'qish sonlarini solishtirdik (3c-rasm). Multimapperlarni qo'shganda, 19,592 3' intervalning 82% xaritalangan o'qishlar sonini 5% dan kamroqqa o'zgartirdi. Biroq, qolgan 18% 3' oraliqlarning ko'pchiligi uchun ko'p xaritachini tayinlash strategiyasi bilan xaritalangan o'qishlar soni sezilarli darajada oshdi. Biz ushbu intervallar sezilarli darajada pastroq bog'langan 3' UTR xaritalash qobiliyatini ko'rsatishini aniqladik, bu bizning ko'p xaritalashchini tayinlash strategiyamiz xaritalash qobiliyati past bo'lgan intervallarni aniq maqsad qilganligini tasdiqlaydi (Qo'shimcha fayl 1: S2b, c-rasm).

3c-rasmda, shuningdek, ko‘p xaritachilar kiritilganda 4-oktabr o‘qishlar soni sezilarli darajada oshgani ko‘rsatilgan (3 x 4SU namunalari yo‘q, o‘rtacha noyob xaritalashchi CPM 2.9 va o‘rtacha multimapper CPM 1841.1, o‘rtacha RNK-seq TPM 1673.1, 1-qo‘shimcha fayl, S3b-rasm) va o'qishlar soni taqsimotining eng yuqori 0,2% ball. Simulyatsiya bular haqiqatan ham 4-oktyabr lokusidan kelib chiqqan o'qishlar ekanligini tasdiqladi: ko'p mapper tayinlanmasdan, simulyatsiya qilingan o'qishlarning atigi 3% to'g'ri ko'rsatilgan. 4 oktyabr, ko'p xaritali tiklashni qo'llashda barcha o'qishlar to'g'ri xaritalangan.

Yagona nukleotid polimorfizmlarini niqoblash nukleotid-konversiya miqdorini yaxshilaydi

Haqiqiy SNP nukleotid-konversiya miqdorini aniqlashga ta'sir qiladi, chunki T & gt C SNPni qamrab olgan o'qishlar nukleotid konversiyasini o'z ichiga olgan o'qishlar sifatida noto'g'ri talqin qilinadi. Shuning uchun, DUNK haqiqiy SNPlarni aniqlash va ularning genomdagi tegishli pozitsiyalarini maskalash uchun xaritalangan o'qishlarda SNP chaqiruvini amalga oshiradi. DUNK genomdagi har bir pozitsiyani haqiqiy SNP pozitsiyasi deb hisoblaydi, agar barcha o'qishlar orasida muqobil asosga ega bo'lgan o'qishlar ulushi ma'lum bir chegaradan oshsa (bundan keyin variant fraktsiyasi deb ataladi).

Optimal chegarani aniqlash uchun biz uchta nukleotidsiz mESC QuantSeq ma'lumotlar to'plamida 0 dan 1 gacha bo'lgan variant fraktsiyalarini 0,1 ga o'sish bilan taqqosladik (3-jadvalga qarang). Benchmark uchun asosiy haqiqat sifatida biz bir xil hujayra chizig'ining genom ketma-ketligi orqali yaratilgan haqiqiy SNP ma'lumotlar to'plamidan foydalandik. Biz 0 dan 0,8 gacha bo'lgan variant fraktsiyalari uchun DUNKning SNP chaqiruvi haqiqat to'plamida (sezuvchanlik) mavjud bo'lgan SNPlarning 93 dan 97% gacha aniqlanishini aniqladik (4a, -4SU-rasm). E'tibor bering, ushbu tadqiqotda ishlatiladigan mESClar haploid mESC lardan olingan [12]. Shuning uchun, SNPlar tegishli genomik pozitsiyada o'qishlar bo'ylab to'liq kirib borishi kutilmoqda. Variant fraktsiyalari 0,8 dan yuqori bo'lsa, sezgirlik barcha namunalar uchun doimiy ravishda 85% dan pastga tushadi. Bundan farqli o'laroq, barcha namunalar uchun haqiqat to'plamida mavjud bo'lmagan aniqlangan SNP soni (noto'g'ri musbat ko'rsatkich) variant fraktsiyalarini ko'paytirish uchun tez kamayadi va ko'pchilik namunalar uchun 0,8 atrofida tekislashni boshlaydi. Nukleotid konversiyasining SNP chaqiruviga ta'sirini baholash uchun biz nukleotid konversiyasining yuqori miqdorini o'z ichiga olgan uchta mESC namunasi bilan tajribani takrorladik (24 soat 4SU bilan davolash). Yorliqsiz va yuqori yorliqli replikatsiyalar o'rtasida sezgirlikdagi ajoyib farqni kuzatmagan bo'lsak-da, past variant fraktsiyalari uchun noto'g'ri-musbat stavkalar kattaroq bo'lib, past variant fraktsiyasi chegarasidan foydalanganda nukleotid konversiyalari SNP sifatida noto'g'ri talqin qilinishi mumkinligini ko'rsatadi. ROC egri chiziqlaridan kelib chiqib, biz sezuvchanlik va noto'g'ri musbat ko'rsatkich o'rtasida o'rtacha 94,2% sezgirlik va o'rtacha noto'g'ri-musbat 16,8% nisbati bilan yaxshi muvozanat bo'lgan 0,8 variant fraktsiyasini topdik.

Yagona nukleotidli polimorfizm niqobi: a 0 dan 1 gacha variant kasrlar bo‘yicha 0,1 bosqichda uchta etiketlanmagan mESC replikatsiyasi (−4SU) va uchta etiketli replikatsiya (+4SU) uchun ROC egri chiziqlari. b Log10 nisbiy xatolar simulyatsiya qilingan T & gt C va tiklangan T & gt C konversiyalari uchun sodda (qizil) va SNP niqobli (ko'k) ma'lumotlar to'plamlari uchun nukleotid konversiya tezligi 2,4 va 7%. c T & gt C o'qish soni bo'yicha tartiblangan 3' intervalli shtrix-kod jadvali, shu jumladan SNP tomonidan induktsiya qilingan T & gt C konversiyalari. Qora chiziqlar asl SNP larni o'z ichiga olgan 3' intervalni bildiradi. d SNP maskeli T> C konversiyalariga e'tibor bermasdan, T > C o'qish soni bo'yicha tartiblangan 3' intervalli shtrix-kod jadvali

Nukleotid konversiyasi miqdorini aniqlashdan oldin SNP-larni maskalashning ta'sirini ko'rsatish uchun biz SLAMseq ma'lumotlarini simulyatsiya qildik (2-jadval): Har bir 3' interval uchun biz simulyatsiya qilingan va aniqlangan nukleotid konversiyalari soni o'rtasidagi farqni hisoblab chiqdik va uni simulyatsiya qilinganlar soni bo'yicha normallashtirdik. konvertatsiya (nisbiy xatolar) - bir marta va bir marta SNP niqobisiz (4b-rasm). SNP maskalanishini qo'llashda nisbiy xatolik SNP maskalanmagan ma'lumotlar to'plamlari bilan solishtirganda sezilarli darajada kamaydi: 2,4% konversiya tezligi bilan o'rtacha nisbiy xato 53 dan 0,07% gacha va 7% konversiya tezligi uchun 17 dan 0,002% gacha kamaydi.

Haqiqiy ma'lumotlarda SNP maskalanishining ta'sirini tekshirish uchun biz aniqlangan nukleotid konversiyalari sonini va haqiqiy T & gt C SNP sonini 3 'oraliqda korrelyatsiya qildik. Shu maqsadda biz uchta etiketli mESC namunasidan (24 soat 4SU yorlig'i) barcha 3' intervallarni T & gt C o'qishlar soni bo'yicha tartibladik va ushbu reytingda haqiqiy T & gt C SNP ni o'z ichiga olgan 3' oraliqlarning taqsimlanishini tekshirdik. (4c va d-rasm, bitta nusxa ko'rsatilgan). Har uch nusxada ham kuchli boyitish kuzatilgan (p-qiymatlari < 0,01, 0,02 va 0,06) SNP ning 3' oralig'ida T > C o'qishlari soni yuqori bo'lgan (rasm 4c, bitta nusxa ko'rsatilgan). T & gt C SNPlari T & gt C konversiyalari bilan bog'lanmaganligi sababli, biz nukleotid konversiyasidan to'g'ri ajratilgan bo'lsa, ularning barcha 3 'oraliqlari bo'ylab teng taqsimlanishini kutamiz. Darhaqiqat, SNP-niqoblashni qo'llash SNPni 3' oraliqda ko'proq T & gt C ni o'z ichiga olgan holda boyitishni ta'minladi.p-barcha replikatsiyalarda 0,56, 0,6 va 0,92 qiymatlari (4d-rasm, bitta nusxa ko'rsatilgan).

SLAM-DUNK: SLAMseq ma'lumotlar to'plamlarida nukleotid konversiyalarini miqdoriy aniqlash

SLAMseq eksperimentining asosiy o'qilishi 4SU bilan belgilangan transkriptlar soni bo'lib, keyinchalik ma'lum bir namunadagi ma'lum gen uchun etiketli transkriptlar deb ataladi. Biroq, etiketli transkriptlarni bevosita kuzatish mumkin emas, faqat aylantirilgan nukleotidlarni ko'rsatadigan o'qishlar sonini hisoblash orqali. Shu maqsadda SLAM-DUNK namunadagi barcha 3' intervallar uchun T & gt C o'qish sonining aniq miqdorini beradi. SLAM-DUNKning T > C o'qishlarini aniqlash qobiliyatini tekshirish uchun biz SLAM-DUNKni simulyatsiya qilingan mESC ma'lumotlar to'plamiga qo'lladik (batafsil ma'lumot uchun 2-jadvalga qarang) va to'g'ri aniqlangan T > C o'qishlar foizini, ya'ni etiketli transkriptdan (sezuvchanlik) kelib chiqadigan qismini aniqladik. ). Bundan tashqari, biz etiketlanmagan transkriptlardan (o'ziga xoslik) kelib chiqadigan o'qishlar foizini hisoblab chiqdik. Belgilangan transkriptlardan kelib chiqqan barcha oʻqishlar T> C konvertatsiyasini oʻz ichiga olgan mukammal simulyatsiya uchun SLAM-DUNK oʻqish uzunligi va konversiya tezligidan qatʼiy nazar sezgirlik > 95% va oʻziga xoslik > 99% koʻrsatdi (Qoʻshimcha fayl 1: S4-rasm. ). Biroq, haqiqiy ma'lumotlar to'plamida etiketli transkripsiyadan kelib chiqadigan barcha o'qishlar T & gt C konversiyalarini o'z ichiga olmaydi. O‘qish uzunligi va konversiya tezligining SLAMseq yorliqli transkriptlar mavjudligini aniqlash qobiliyatiga ta’sirini ko‘rsatish uchun biz aniqroq simulyatsiya o‘tkazdik, bunda har bir o‘qish uchun T> C konversiyalari soni binomial taqsimotga (0 T & gt C ga ruxsat beradi) mos keladi. har bir o'qish uchun konvertatsiyalar).

Kutilganidek, o'ziga xoslik bu o'zgarishdan ta'sirlanmadi (Fig.5a). Biroq, sezgirlik o'qish uzunligi va T & gt C konvertatsiya tezligiga qarab keskin o'zgardi.Biz 150 bp o'qish uchun 94% sezgirlikni va 7% konvertatsiya tezligini kuzatgan bo'lsak, o'qish uzunligi 50 bp va 2,4% konvertatsiya tezligi bilan u 23% gacha tushadi. Ushbu topilmalar asosida biz har xil ketma-ketlik chuqurliklari, o'qish uzunliklari va konversiya tezligi uchun ushbu gen uchun etiketli va etiketlanmagan transkriptlarning ulushi (yorliqlangan transkript fraktsiyasi) hisobga olingan holda, 3' oralig'ida kamida bitta T & gt C o'qilganligini aniqlash ehtimolini hisobladik ( Usullarga qarang) (5b-rasm, 1-qo'shimcha fayl: S5-rasm). Aksincha, qisqaroq o'qish uzunliklari yorliqli transkriptdan kelib chiqqan kamida bitta o'qishni aniqlash uchun, ayniqsa etiketli transkriptlarning kichik fraktsiyalari uchun uzunroq o'qish uzunligidan ustundir. 0,1 fraktsiyada va 2,4% konversiya tezligida mavjud bo'lgan etiketli transkriptdan o'qishni aniqlash uchun 150 bp o'qish uchun 26 X qamrov talab qilinadi, 50 bp o'qish uchun faqat 22 X qamrovi talab qilinadi (Qo'shimcha fayl 1: S1-jadval) . Bu shuni ko'rsatadiki, qisqa o'qishlar soni ko'p bo'lsa, uzoqroq o'qishlarning T & gt C konvertatsiyasini kuzatish ehtimoli yuqori bo'lganidan ko'ra, belgilangan transkriptdan o'qishlarni aniqlash ehtimoli ko'proq hissa qo'shadi. Konvertatsiya stavkasini 7% ga oshirish talab qilinadigan qoplamani kamaytiradi

Belgilangan transkriptlarning fraktsiyalari bo'yicha 50%, yana 50 bp o'qish uzunligi o'sishdan ko'proq foyda keltiradi. Umuman olganda, 1.0 kabi yuqori yorliqli transkript fraktsiyalari uchun aniqlash ehtimoli barcha oʻqish uzunliklari uchun mos ravishda 2.4 va 7% konversiya tezligi uchun 2–3 X va 1 X qamroviga yaqinlashadi (Qoʻshimcha fayl 1: S5-rasm). Garchi, bu natijalar eng yaxshi taxminiy taxmin bo'lsa-da, ular yorliqli transkriptlarni aniqlash uchun T & gt C o'qish soniga tayanadigan SLAMseq tajribasini loyihalashda qamrov miqdori talab qilinishi haqida ko'rsatma bo'lib xizmat qilishi mumkin.

Nukleotid konversiyalarining miqdoriy ko'rsatkichlari: a SLAM-DUNKning simulyatsiya qilingan yorliqli o'qishlarda sezuvchanligi va o'ziga xosligi, o'qish uzunligi 50, 100 va 150 bp va nukleotidlarni konversiyalash tezligi 2,4 va 7% uchun qayta tiklangan T & gt C o'z ichiga oladi. b Belgilangan transkriptlarning ma'lum bir qismidagi yorliqli transkriptdan kelib chiqqan kamida bitta o'qishni aniqlash ehtimolining issiqlik xaritasi va konversiya tezligi 2,4% va o'qish uzunligi 50 bp uchun qamrov. Oq rang kodi 0,95 ehtimollik chegarasini belgilaydi. c O'qishga asoslangan va SLAM-DUNKning normallashtirilgan T-kontentining nisbiy xatolarini taqsimlash belgilangan transkriptning bir qismi Har biri 1000 ta simulyatsiya qilingan replikatsiya uchun turli T-tarkibiga ega 18 ta gen uchun hisob-kitoblar. d SLAM-DUNK T-kontentining nisbiy xatolarining taqsimlanishi normallashtirildi belgilangan transkriptning bir qismi T & gt C konversiya tezligi 2,4 va 7% va ketma-ketlik chuqurligi 25 dan 200x gacha bo'lgan 1000 ta gen uchun taxminlar

T > C o'qish sonidan etiketli transkriptlar sonini baholash bir xil genlarni turli sharoitlarda taqqoslash va differensial gen ekspressiyasiga o'xshash tahlillarni o'tkazish uchun etarli bo'lsa-da, u turli genlarni solishtirganda umumiy transkriptlarning turli ko'pligini hisobga olmaydi. Ushbu muammoni hal qilish uchun ma'lum bir gen uchun etiketli transkriptlar soni ushbu gen uchun mavjud bo'lgan transkriptlarning umumiy soni bilan normallashtirilishi kerak. Buni biz deb ataymiz etiketli transkriptlarning bir qismi. Hisoblash uchun to'g'ridan-to'g'ri yondashuv etiketli transkriptlarning bir qismi Belgilangan o'qishlar sonini ma'lum bir gen uchun ketma-ket o'qishlarning umumiy soniga solishtirishdir (Usullarga qarang). Biroq, bu yondashuv 3' oralig'idagi Uridinlar sonini hisobga olmaydi. U ga boy transkriptdan yoki mos keladigan genomik 3' oralig'ining T ga boy qismidan olingan o'qishlar T> C konversiyasini ko'rsatish ehtimoli yuqori. Shuning uchun, T & gt C o'qish soniga transkriptning asosiy tarkibi va qamrov naqshlari ta'sir qiladi. Shunday qilib, etiketli transkriptlarning bir qismi T-boy uchun ortiqcha baholanadi va T-kambag'al 3' oralig'ida kam baholanadi. Asosiy kompozitsiyani normallashtirish uchun SLAM-DUNK T-kontentni va o'qish qamrovini baholash uchun normallashtirilgan yondashuvni qo'llaydi. etiketli transkriptlarning fraktsiyalari (Usullarga qarang). Ikkala yondashuvni ham baholash uchun biz 3′ intervalda, 3′ oraliq uzunligi va xaritalash qobiliyatida o‘zgaruvchan T tarkibiga ega bo‘lgan 18 ta misol genlarini tanladik (1-qo‘shimcha faylga qarang: To‘liq ro‘yxat uchun S2 jadvali), har bir gen uchun 1000 ta SLAMseq ma’lumotlar to‘plamini simulyatsiya qilgan (2-jadvalga qarang). va tiklanganlarni solishtirdi etiketli transkriptlarning bir qismi simulyatsiya qilingan haqiqat bilan (5c-rasm). O'qishni hisoblash usuli o'rtacha 15% nisbiy xatolikni ko'rsatdi. Bundan farqli o'laroq, SLAM-DUNKning T-kontentni normallashtirilgan yondashuvi faqat o'rtacha nisbiy xatolikni ko'rsatdi.

2%. 18 genni tekshirish o'qishni hisoblashga asoslangan usulning baholarida yuqori o'zgaruvchanlikni aniqladi. Har ikkala usul ham bir xil darajada yaxshi ishlaydi Tep1, qolgan 17 genning o'rtacha xatosi o'qishga asoslangan usul uchun 6 dan 39% gacha va SLAM-DUNK uchun faqat 1 dan 4% gacha o'zgarib turadi. Biz nisbiy xatolik va T-kontentning o'qishga asoslangan usuli (Pirson r: 0,41) yordamida kuchli korrelyatsiyani va SLAM-DUNKning T-kontentni normallashtirilgan yondashuvidan foydalanganda juda zaif assotsiatsiyani kuzatdik (Pearson r: - 0,04). Tahlilni 18 dan 1000 gengacha kengaytirish natijani tasdiqladi. T & gt C o'qishga asoslangan yondashuv uchun 3' intervallarning 23% nisbiy xatolikni 20% dan kattaroq ko'rsatdi. SLAM-DUNKning T-kontentni normallashtirilgan yondashuvi uchun u atigi 8% edi.

Biz qanchalik ishonchli baholay olishimiz uchun muhim omillar etiketli transkriptlarning bir qismi ma'lum bir genning T & gt C konversiya tezligi, o'qish uzunligi va ketma-ketlik chuqurligi. Berilgan o'qish uzunligi uchun qancha SLAMseq o'qish qamrovi kerakligini baholash uchun biz nisbiy xatoni hisobladik. etiketli transkriptlarning bir qismi SLAM-DUNK ning T tarkibidan foydalanib, konvertatsiya tezligi 2,4 va 7%, o'qish uzunligi 50, 100 va 150 bp va ketma-ketlik chuqurligi 25 dan 200 gacha bo'lgan ma'lumotlar to'plamlari uchun normallashtirilgan yondashuvni baholash (5d-rasm). Birinchidan, biz T & gt C konvertatsiya tezligi 2,4% bo'lgan ma'lumotlar to'plamini ko'rib chiqdik. O'qish uzunligi 50 bp bo'lgan SLAM-DUNK kam baholangan etiketli transkriptlarning fraktsiyalari taxminan 10% ga. Bunga bitta 3' intervalga tayinlab bo'lmaydigan ko'p xaritali o'qishlar sabab bo'ladi. O'qish uzunligini 100 yoki 150 bp ga oshirish SLAM-DUNK-ga genomga ko'proq o'qishlarni belgilash imkonini beradi. Shunday qilib, ushbu ma'lumotlar to'plami uchun o'rtacha nisbiy xatolik 3% gacha kamayadi. Tartiblash chuqurligi o'rtacha nisbiy xatoga ta'sir qilmadi. Biroq, bu taxminlarning o'zgarishiga ta'sir qiladi. O'qish uzunligi 100 bp va 50X qamrovi bilan 3' intervallarning 18% > 20% nisbiy xatolikni ko'rsatadi. Qoplashni 100X yoki 150X ga oshirish, bu raqamni mos ravishda 6 va 0,8% ga kamaytiradi.

T > C konvertatsiya tezligini 7% ga oshirish umumiy yaxshilandi etiketli transkriptlarning bir qismi taxminlar sezilarli. 100 bp o'qish va 50X, 100X va 200X qamrovi uchun nisbiy xato > 20% bo'lgan 3' intervallarning ulushi mos ravishda 3, 0,2 va 0% gacha kamayadi. O'qish uzunligi, qamrovi va T & gt C konvertatsiya tezligidan qat'i nazar, T & gt C o'qishga asoslanadi etiketli transkriptlarning bir qismi hisob-kitoblar SLAM-DUNK hisob-kitoblaridan yomonroq bajarildi (qarang. Qo'shimcha fayl 1: S6-rasm).

Ikkalasi ham etiketli transkriptlarning bir qismi hisob-kitoblar, shuningdek, xom T & gt C o'qish soniga, ayniqsa, T & gt C konvertatsiya tezligi past bo'lsa, ketma-ketlik xatosi ta'sir qiladi. Sekvensiya xatosining tegishli miqdor ko'rsatkichlariga ta'sirini yumshatish uchun SLAM-DUNK ixtiyoriy ravishda konversiya chaqiruvlarida asosiy sifat filtrini qo'llaydi. 6c-rasmda ko'rsatilganidek, bu strategiya noto'g'ri ketma-ketlik davrlaridan signalni sezilarli darajada kamaytiradi. Bundan tashqari, SLAM-DUNK miqdorini aniqlashga imkon beradi etiketli transkriptlarning bir qismi taxminlar, shuningdek, xom T & gt C o'qish soni > 1 nukleotid-konversiyalarini olib yuradigan o'qishlar bilan cheklanishi kerak. Muhar va boshqalar. [5] ushbu strategiyadan foydalangan holda, 1 T & gt C konvertatsiyasi bilan o'qishlar fon signalining hissasi 2 T & gt C konvertatsiyalari bilan o'qishlardan foydalanganda deyarli butunlay yo'q qilinganligini ko'rsatdi. Shu bilan bir qatorda, Herzog va boshqalar tomonidan bajarilgan sekvensiya xatosini hal qilish uchun 4SU yo'q fon signalini ayirish mumkin. [4].

Integratsiyalashgan sifat nazorati: a 6 ta vakili mESC vaqt kurslaridagi oʻqish toʻplamlarining nukleotid-konversiya stavkalari T> C konversiyalarining tegishli taʼqib qilish vaqtiga mutanosib ravishda kamayishini koʻrsatadi. b 6 mESC vaqt nuqtalarining oʻqishga asoslangan PCA ni oʻz ichiga olgan T > C konvertatsiyasi (har biri 3 ta takroriy). c T > C bo'lmagan nomuvofiqliklarning o'qish pozitsiyalari bo'yicha taqsimlanishi past T > C konvertatsiya kontenti (4SU yo'q) va yuqori T > C konversiyasi (12 soat ta'qib) namunasi uchun xatolik ko'rsatkichlarining keskin ko'tarilishini (sariq rang bilan belgilangan) ko'rsatadi. asosiy sifatli filtrlashni qo'llashda yo'q qilinadi. d mESC vaqt kursi uchun statik 250 bp da 3′ UTR oxirida nukleotid konversiyasining 3′ so‘nggi pozitsiyalari bo‘ylab taqsimlanishi, ularning taxminiy T > C konversiya mazmuniga (vaqt nuqtasi) va 3′ ga kuchli asosiy konversiya moyilligini ko‘rsatadigan xarakterli egri chiziqni ko‘rsatadi. oxiri (sariq rang bilan ta'kidlangan) 3' UTR ning oxirgi asoslarida odatda kamaytirilgan T-kontenti tufayli kelib chiqadi.

SLAMseq ma'lumotlar to'plamining sifatini nazorat qilish va talqin qilish

SLAMseq namunasini talqin qilishni osonlashtirish uchun biz har bir namuna asosida SLAM-DUNK-ga bir nechta QC modullarini kiritdik. Namunalarni eksperimental kontekstda talqin qilish zaruratini hal qilish uchun biz SLAM-DUNK uchun MultiQC [13] yordamini taqdim etamiz. SLAM-DUNK ning MultiQC moduli konvertatsiya stavkalarini tekshirish, tizimli noaniqliklarni aniqlash va namunalar bo'yicha umumiy statistikani aniqlash imkonini beradi.

SLAM-DUNKning QA imkoniyatlarini namoyish qilish uchun biz uni nukleotid konversiyasining ortishi kutilayotgan 6 ta mESC taym kursi maʼlumotlar toʻplamiga qoʻlladik (3-jadvalga qarang). Birinchidan, biz barcha vaqt nuqtalarining umumiy nukleotid konversiyalarini solishtirdik va keyingi vaqt nuqtalarida T & gt C nukleotid konversiyalarining kutilayotgan pasayishini kuzatdik (6a-rasm, bitta nusxa ko'rsatilgan). Keyinchalik, biz T & gt C konvertatsiyasiga asoslangan PCA ni o'tkazdik, bu uchta replikatsiyadan foydalangan holda o'qishni o'z ichiga oladi. Biz kutilganidek klasterni takrorlashini aniqladik. Bundan tashqari, 24 soat davom etgan ta'qib va ​​4SU namunalari bitta kattaroq klasterni hosil qildi. Buni tushuntirish mumkin, chunki ta'qib qilishning 24 soatida namunalar T & gt C konvertatsiyasisiz bo'lishi kutilmoqda (6b-rasm).

Ikki vakillik namunasi uchun o'qish pozitsiyalari bo'yicha nomuvofiqlik stavkalarini tekshirish orqali biz xatolik darajasi oshgan o'qish davrlarini aniqlashimiz mumkin (6c-rasm). O'qish davriga bog'liq bo'lgan nukleotidlar nomuvofiqligi shovqinini kamaytirish uchun biz SLAM-DUNK-da T & gt C konversiyasi qo'ng'irog'i uchun asosiy sifat chegarasini amalga oshirdik. Asosiy sifat chegaralarini qo'llash umumiy ma'lumotlar sifatini sezilarli darajada oshirdi, xatolarga moyil bo'lgan o'qish pozitsiyalarini yumshatdi yoki hatto yo'q qildi. Nihoyat, biz har bir transkriptning so'nggi 250 nukleotidlari bo'yicha o'rtacha T & gt C konversiya tezligini 3' intervallar bo'ylab pozitsion T & gt C konvertatsiya moyilliklarini tekshirish uchun vizualizatsiya qildik. Statik 250 bp oynalar boʻylab konvertatsiya qilishda T> C konvertatsiyalaridagi pasayishdan tashqari hech qanday konversiyani topmadik.

3′ uchidan yuqorida joylashgan 20 ta nukleotid, bu katta ehtimollik bilan past genomik T-tarkibidan kelib chiqadi, bu mRNK 3′ end ketma-ketliklarining xarakterli xususiyati (qarang. Qo'shimcha fayl 1: S7-rasm).


Bioinformatika imtihon №1

(3) Siz 1 milliard yil oldin oqsil ketma-ketligidan foydalanib, umumiy ajdodni topishingiz mumkin, DNK ketma-ketligi esa atigi 600 million yil oldinga qaytishi mumkin.

BLOSUM62 va PAM120: Hizalamalarga o‘ting

Bir nuqtada ikkita gomologik oqsil juda xilma-xil bo'lib, moslashish muhim deb tan olinishi uchun.

PAM matritsalari uchun Twilight Zone deb ataladigan narsa mavjud. Keyin

Needleman va Wunschning maqsadi optimal moslashishni aniqlashdir. Siz m+1 yoki n+1 bilan yangi matritsa yaratasiz, chunki siz har bir juftlikka ball qo'yasiz. Bo'shliq jazolari (har bir bo'shliq pozitsiyasi uchun -2) birinchi qator va ustun bo'ylab joylashtiriladi. Bu bizga istalgan uzunlikdagi terminal bo'shlig'ini kiritish imkonini beradi.

Asosiy farqlardan biri shundaki, ball salbiy bo'lishi mumkin emas. Agar ular salbiy bo'lsa, ular nol ball olishlari kerak. Baholash: o'yin uchun +1 - mos kelmasligi uchun -0,33 - 1 uzunlikdagi bo'shliq uchun -1,3 (bo'shliq qanchalik katta bo'lsa, jarima shunchalik qattiqroq bo'ladi).

BLASTN: DNKni DNK bilan solishtiradi (nukleotidlarni nukleotidlarga)

BLASTX: oltita mumkin bo'lgan barcha o'qish ramkalaridan foydalangan holda DNKni oltita protein ketma-ketligiga aylantiradi va keyin bu oqsillarning har birini oqsil ma'lumotlar bazasi bilan taqqoslaydi.

TBLASTN: ma'lumotlar bazasidagi har bir DNK ketma-ketligini oltita potentsial oqsilga tarjima qiling va keyin protein so'rovingizni ushbu tarjima qilingan oqsillarning har biri bilan solishtiring.


Buyruqlar qatori sintaksisi

Agar siz BLASTZ bilan tanish bo'lsangiz, LASTZ-ni BLASTZ-ni ishga tushirganingizdek, xuddi shu parametrlar va kirish fayllari bilan ishga tushirishingiz mumkin. Ushbu BLASTZ muvofiqligiga qo'shimcha ravishda, LASTZ boshqa variantlarni ham taqdim etadi.

LASTZ buyruq qatorining umumiy formati

Burchak qavslari <> meta-sintaktik o'zgaruvchilarni bildiradi, ular sizning qiymatlaringiz bilan almashtirilishi kerak, kvadratlar [] esa ixtiyoriy elementlarni bildiradi. Buyruqlar satrida bo'sh joylarni ajratadi, bo'sh joy bo'lishi kerak bo'lgan maydon (masalan, fayl nomi ichida) qo'sh tirnoq ichiga olinishi kerak "" . Elementlar har qanday tartibda paydo bo'lishi mumkin, yagona cheklov shundaki, agar mavjud bo'lsa, <query> <target> dan keyin paydo bo'lishi kerak. Agar ma'lum bir variant uchun boshqacha ko'rsatilmagan bo'lsa, chiqish odatda stdout ga yoziladi.

<target> va <query> odatda FASTA, Nib yoki 2Bit formatida tekislanishi kerak bo'lgan ketma-ketlikni o'z ichiga olgan fayllar nomlaridir. Biroq, ular ketma-ketliklarga bilvosita murojaat qiluvchi HSX indeks fayllari bo'lishi mumkin va ular fayldan quyi ketma-ketlikni tanlash kabi oldindan ishlov berish amallarini ham belgilashi mumkin (batafsil ma'lumot uchun Sequence Specifiers-ga qarang). ‑‑self kabi ba'zi variantlarda <query> kerak emas, aks holda agar u aniqlanmagan bo'lsa, so'rovlar ketma-ketligi stdin dan o'qiladi (garchi bu 2Bit kabi tasodifiy kirish formatlari bilan ishlamaydi). Maxsus holat sifatida, ‑‑targetcapsule opsiyasi ishlatilganda <target> kiritilmaydi, chunki maqsad ketma-ketligi kapsula fayliga kiritilgan.

Variantlar uchun umumiy format ‑‑<keyword> yoki ‑‑<keyword>=<value> , lekin BLASTZ mosligi uchun ba'zi variantlarda muqobil sintaksis <letter>=<number> ham mavjud. (Quyidagi jadvallardan variantlardan nusxa koʻchirishda ehtiyot boʻling, chunki bu yerdagi baʼzi defislar maʼlum veb-brauzerlarda noqulay satrlarni oʻrashga yoʻl qoʻymaslik uchun maxsus belgilardir. Agar muammoga duch kelsangiz, qoʻyilgan defislarni buyruq satrida oddiy terilganlar bilan almashtiring.)

Iltimos, LASTZ murakkab dastur ekanligini va uning variantlari hammasi mustaqil emasligini, ya'ni ba'zi variantlar ba'zi boshqalar bilan birgalikda yaroqsiz ekanligini tushuning. Bu erda barcha mumkin bo'lgan mojarolarni sanab o'tishga harakat qilish qiyin va mashaqqatli bo'lar edi, o'rniga biz asosiylarini eslatib o'tamiz. Muayyan kombinatsiya haqida ishonchingiz komil bo'lmasa, davom eting va sinab ko'ring &mdash LASTZ sizga ruxsat berilmaganligini aytadi.

Lastz buyrug'ini argumentlarsiz ishga tushirish eng ko'p ishlatiladigan variantlar bilan yordam xabarini chop etadi, ishga tushirish esa barcha variantlar ro'yxatini beradi.

Qayerga qarash kerak

‑‑querydepth=keep:<n> bunday so'rovlar/strandlar uchun ba'zi hizalamalarni saqlash afzal bo'lsa ishlatilishi mumkin.

<n> haqiqiy son va qamrov chegarasi chuqurligiga mos keladi. Misol uchun, 5.0 qiymati so'rov/strand so'rovdagi har bir asos uchun o'rtacha beshta hizalanishga ega bo'lgandan keyin tugatishga olib keladi. Numerator - bu mos keladiganlar yoki almashtirishlar soni (lekin bo'shliqlar emas), maxraj - so'rovlar ketma-ketligining uzunligi.

Ushbu variantning maqsadi vaqtni tejashdir. Bu takrorlanuvchi kontent bilan ishlashning boshqa usullari muvaffaqiyatsizlikka uchragan yuqori takroriy tarkibga ega so'rovlarni qayta ishlashni avtomatik ravishda tugatish uchun foydalidir.

Hisoblash

Bular bir necha bosqichlarda qo'llaniladigan tekislashni baholash uchun asosiy parametrlardir.

Esda tutingki, ‑‑match-ni belgilash boshqa variantlarning (masalan, bo'shliqlar uchun jarima jarimalari va turli kengaytirish chegaralari) ularning tegishli bo'limlarida tasvirlanganidek, standart sozlamalarini o'zgartiradi. Oddiy standart sozlamalar BLASTZ bilan moslik uchun tanlanadi, lekin BLASTZ ‑‑match ni qo'llab-quvvatlamaganligi sababli, LASTZ bu ishga tushirish uchun BLASTZ mosligini kutmasligingizdan xulosa qiladi, shuning uchun yaxshilangan standart sozlamalardan foydalanish bepul.

<penalty> belgilanishi mumkin, bu N belgisini o'z ichiga olgan har qanday mos bo'lmagan almashtirish uchun qo'llaniladi. Agar <reward> ham ko'rsatilgan bo'lsa, u N va N o'yiniga taalluqlidir (aks holda bu o'yinlar nolga teng bo'ladi). E'tibor bering, <penalty> ball matritsasida inkor etiladi, <reward> esa yo'q.

To'liqroq muhokama qilish uchun ACGT bo'lmagan belgilarga qarang. Ushbu parametr kvant DNK bilan to'g'ri kelmaydi.

<penalty> belgilanishi mumkin, bu noaniq nukleotidni o'z ichiga olgan har qanday mos bo'lmagan almashtirishga qo'llaniladi. Agar <reward> ham ko'rsatilgan bo'lsa, u noaniq nukleotidlarni o'z ichiga olgan o'yinga taalluqlidir (aks holda, bu o'yinlar nolga teng bo'ladi). E'tibor bering, <penalty> ball matritsasida inkor etiladi, <reward> esa yo'q.

To'liqroq muhokama qilish uchun ACGT bo'lmagan belgilarga qarang. Ushbu parametr kvant DNK bilan to'g'ri kelmaydi.

E'tibor bering, bu shunday qiladi emas Bu shuni anglatadiki, LASTZ har bir belgi bilan bog'liq bo'lgan o'ziga xos noaniqlikni hisobga oladi (masalan, R A yoki G ga mos keladi, lekin C yoki T ga mos kelmaydi). Buning o'rniga, ularning barchasi N bo'lganidek ball oladi.

Sukut bo'yicha jarimalar quyidagicha belgilanadi. Agar ‑‑match ko'rsatilgan bo'lsa, ochiq penalti 3,25 baravar ko'p, uzaytirish penaltisi esa 0,24375 barobar. (Bu BLASTZ&rsquos sukut boʻyicha bir xil nisbatlardir.) Ikkala jazo ham eng yaqin butun songacha yaxlitlanadi. Aks holda, bo'shliq jazolari ochiq uchun 400, uzaytirish uchun 30.

Indekslash

Buni foiz sifatida o‘rnatish yugurishlar bo‘yicha izchillikni saqlashni osonlashtiradi. Haqiqiy hisob ketma-ketlik uzunligi va tarkibiga, shuningdek, qadam siljishi va urug'lik naqshiga bog'liq. Masalan, 4-rasmda ‑‑seed=match13 , ‑‑step=15 va ‑‑maxwordcount=90% uchun hg18 dagi inson xromosomalari o'rtasidagi farq ko'rsatilgan. Kulrang chiziqlar saqlangan so'zning urug'lik pozitsiyalarining foizini ko'rsatadi (qizil chiziq ideal 90% ni ko'rsatadi). Moviy raqamlar ekvivalent sonni ko'rsatadi, bu juda katta farq qiladi.

Xususan, har bir maqsadli joyning tekislanganligi sonining jami hisobi saqlanadi. Har bir soʻrov ketma-ketligi va qator qayta ishlangandan soʻng, hech boʻlmaganda <count> tekislash bloklarida chiqarilgan har qanday joy maskalanadi, shuning uchun ular ekish bosqichidan chiqarib tashlanadi. keyingi so'rovlar ketma-ketligi. Bitta ketma-ketlik qatorini qayta ishlash jarayonida aniqlangan takrorlanish faqat keyingi ketma-ketlik qatorlari uchun maskalanganligi sababli, bu parametr so'rov faylidagi birinchi ketma-ketlikning birinchi qatoriga ta'sir qilmaydi.

Bu parametr <count> ga qarab har bir maqsadli joylashuv uchun bir, ikki yoki toʻrt bayt xotira talab qiladi. Agar <count> 254 yoki undan kam bo'lsa, 65,534 yoki undan kam bo'lsa, bir bayt, ikki bayt ishlatiladi.

Ekish

HSP-larni topish (bo'shliqsiz kengaytma)

Agar ‑‑match ball ishlatilsa, standart x-tushirishni tugatish chegarasi mos kelmaslik jazosining kvadrat ildizining 10 barobari, eng yaqin butun songa yaxlitlanadi. Aks holda sukut bo'yicha A-Vs.-A o'rniga 10 marta ko'p bo'ladi.

Agar ‑‑match ball ishlatilsa, standart HSP ball chegarasi o'yin mukofotining 30 baravarini tashkil qiladi (30-bp aniq o'yin balliga ekvivalent). Aks holda sukut bo'yicha 3000 bo'ladi.

Zanjirlash

VariantBLASTZ ekvivalentiMa'nosi
--zanjir C=1 yoki C=2 Hech qanday jazosiz HSP zanjirini amalga oshiring.
--zanjir=<diag>,<anti> C=1 yoki C=2
G=<diag>
R=<anti>
DP matritsasida diagonal va antidiagonal uchun berilgan jarimalar bilan zanjirni bajaring. Bular balldan musbat qiymatlarni olib tashlash bilvosita qabul qilinganidek ko'rsatilgan.
--nochain C=0 yoki C=3 Zanjirlash bosqichini o'tkazib yuboring.
Standart sozlamalar: Odatiy bo'lib, zanjirband qilish bosqichi o'tkazib yuboriladi.

Gapped kengaytma

Agar ‑‑match ball ishlatilsa, standart y-tushirish chegarasi x-tushirish chegarasidan ikki baravar ko'p bo'ladi (yoki agar x-tushish kengaytmasi bajarilmagan bo'lsa, standart x-tushish chegarasidan ikki baravar ko'p), aks holda bu 300-bp bo'shliq ball.

Bo'shliqli ball chegarasi uchun sukut bo'yicha HSP chegarasi bilan bir xil qiymatdan foydalanish kerak (bu ‑‑hspthresh orqali o'rnatiladi). Agar HSP chegarasi moslashuvchan bo'lsa, bu sukut uchun saqlangan eng past ballli HSP ishlatiladi. Agar x-drop kengaytmasi bajarilmagan bo'lsa, standart HSP chegarasi qanday bo'lishidan qat'i nazar, foydalaniladigan qiymat hisoblanadi.

Orqa tomon filtrlash

Interpolatsiya

Chiqish

Har qanday lav formati uchun, agar <output_file> qo'yilmasa, ro'yxatga olish chiqishda maxsus band sifatida kiritiladi. Boshqa barcha formatlar uchun <output_file> majburiydir.

Uy xo'jaligi

Yasra uchun yorliqlar

Yasra xaritalash assemblerini qo'llab-quvvatlash uchun bir nechta yorliq variantlari mavjud. Ular yig'ilgan mos yozuvlar ketma-ketligini (maqsad sifatida) ov miltig'ini o'qishlar to'plami bilan (so'rov sifatida) moslashtirish uchun yaxshi ishlaydigan variant sozlamalarining konservalangan to'plamini taqdim etadi. Ular ketma-ketliklar orasidagi o'ziga xoslikning kutilgan darajasiga qarab tanlanadi. Misol uchun, ‑‑yasra90 90% identifikatsiyani kutganimizda ishlatilishi kerak. ‑‑yasraXXshort variantlari o'qishlar juda qisqa (50 bp dan kam) bo'lganda mos keladi.

Variant Ekvivalent
--yasra98 T=2 Z=20 ‑‑mos=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikator:98 ‑‑noaniq=n ‑’ 8209noytrim
--yasra95 T=2 Z=20 ‑‑mos=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikatsiya:95 ‑‑noaniq=n ‑’ 8209noytrim
--yasra90 T=2 Z=20 ‑‑mos=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikatsiya:90 ‑‑noaniq=n ‑’ 8209noytrim
--yasra85 T=2 ‑‑match=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikator:85 ‑‑aniq=n ‑‑noytrim
--yasra75 T=2 ‑‑match=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikator:75 ‑‑aniq=n ‑‑noytrim
--yasra95short T=2 ‑‑match=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filtr=identifikatsiya:95 ‑‑aniq=n ‑‑noytrim
--yasra85short T=2 ‑‑match=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filtr=identifikatsiya:85 ‑‑aniq=n ‑‑noytrim

Vaqti-vaqti bilan LASTZ ning yangi nashrlari Yasra yorliqlarini o'zgartiradi. Bu yaxshilanish sifatida amalga oshiriladi, shuning uchun ko'pchilik foydalanuvchilar yuqorida ko'rsatilgan yorliqlardan foydalanishni xohlashadi. Biroq, oldingi natijalarni takrorlashni xohlaydigan foydalanuvchilar uchun orqaga qarab muvofiqlikni qo'llab-quvvatlash uchun yorliqlarning barcha oldingi versiyalari kiritilgan. Sintaksis ‑‑<shortcut>:<version> , bu yerda <version> yorliqni o'z ichiga olgan LASTZ versiya raqamidir.

Variant LASTZ versiyasi Ekvivalent
--yasra98:<version> 1.02.45 yoki undan oldingi T=2 Z=20 ‑‑match=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikatsiya:98
--yasra95:<version> 1.02.45 yoki undan oldingi T=2 Z=20 ‑‑match=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikatsiya:95
--yasra90:<version> 1.02.45 yoki undan oldingi T=2 Z=20 ‑‑match=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikator:90
--yasra85:<version> 1.02.45 yoki undan oldingi T=2 ‑‑match=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikator:85
--yasra75:<version> 1.02.45 yoki undan oldingi T=2 ‑‑match=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikatsiya:75
--yasra95short:<version> 1.02.45 yoki undan oldingi T=2 ‑‑mos=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filtr=identifikator:95
--yasra85short:<version> 1.02.45 yoki undan oldingi T=2 ‑‑mos=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filtr=identifikator:85

Sequence Specifiers

Maqsad yoki so'rovlar ketma-ketligi spetsifikatsiyasi odatda hizalashda foydalaniladigan faylni ko'rsatadi, ammo turli xil oldindan ishlov berish amallari ham belgilanishi mumkin. Ular ketma-ketliklar fayldan o'qilishi bilan amalga oshiriladi va ma'lum bir ketma-ketlikni va/yoki pastki qatorni tanlash, niqoblash, ketma-ketlik nomlarini sozlash va hokazolarni o'z ichiga olishi mumkin.

Ketma-ketlik ko'rsatgichining formati

<file_name> maydoni talab qilinadi, harakatlar ro'yxati ixtiyoriy. E'tibor bering, <actions> to'g'ridan-to'g'ri kvadrat qavslar ichiga olingan (faqat ixtiyoriy ekanligini bildiruvchi meta-qavslarga qo'shimcha ravishda) va vergul bilan ajratilgan ro'yxatdan iborat (bo'sh joysiz), masalan. [harakat 1, harakat 2. ]. * belgisi bir nechta harakatlar ro'yxatini qo'shish mumkinligini ko'rsatadi, ular xuddi bitta ro'yxatdagi kabi ko'rib chiqiladi.

Shu bilan bir qatorda, harakatlar ‑‑action:target=<action> va ‑‑action:query=<action> buyruqlari bilan belgilanishi mumkin. Bu kvadrat qavslarni ishlatmasdan harakatlarni o'rnatishga imkon beradi (ba'zi buyruqlar qobig'ida kvadrat qavslar muammoli).

E'tibor bering, amallar fayldagi har bir ketma-ketlikka tegishli. Misol uchun, agar siz, aytaylik, [100..] ning pastki diapazonini belgilasangiz, har bir ketma-ketlikda birinchi 99 bpni o'tkazib yuborasiz.

Quyidagi harakatlar qo'llab-quvvatlanadi:

BLASTZ muvofiqligi uchun muqobil sintaksis <start>,<end> ham tan olingan. Bu holda <start> va <end> talab qilinadi.

<start>..<end>+<zoom>% sintaksisi yordamida “kichiklashtirish omili” ham kiritilishi mumkin. Belgilangan interval har bir uchida <zoom> foizga kengaytiriladi. Bu, masalan, genning joylashishini bilganingizda foydali bo'ladi va hizalanishga yonbosh hududlarni qo'shmoqchi bo'lsangiz.

Buning uchun yana bir foydali sintaksis <start>#<length> bo'lib, u berilgan pozitsiyada ma'lum uzunlik oralig'ini belgilash uchun qulay bo'lib, u <start>..<start+length&minus1> ga teng. Xuddi shunday, <center>^<length> berilgan pozitsiyada markazlashtirilgan ma'lum uzunlikdagi intervalni belgilaydi. Agar so'ralsa, M yoki K birliklari yordamida katta uzunliklar belgilanishi mumkin, masalan. 10,2 mln.

Bundan tashqari, agar pastki qatorda <start> <end> dan kattaroq bo'lsa, ajratilgan hududning teskari to'ldiruvchisi ishlatiladi. Biroq, bu strand hisoboti, ketma-ketlikni maskalash va segment fayllari kabi boshqa xususiyatlar bilan aniq bo'lmagan shovqinlarga olib kelishi mumkin, shuning uchun uni ehtiyotkorlik bilan ishlatish kerak. Odatda uning o'rniga ‑‑strand variantlarini ishlatish osonroq.

Belgi har qanday bosib chiqarish mumkin bo'lgan ASCII belgisi bo'lishi mumkin. Biroq, foydalanilayotgan kiritish formatida muhim bo'lgan belgilar (masalan, fastadagi &ldquo>&rdquo) bu maqsadda ishlatilmasligi kerak. Bundan tashqari, ko'pgina kirish formatlari nukleotidlardan tashqari belgilarni ifodalash uchun cheklangan imkoniyatlarga ega. Belgilangan <character> &mdash bilan bog'liq xato tekshiruvi yo'q, agar bu belgi kiritishda umuman bo'lmasa, hech qanday ajratish amalga oshirilmaydi.

Yuqorida ko'rsatilgan ketma-ketlik spetsifikatsiyasi sintaksisiga qo'shimcha ravishda, LASTZ yanada murakkab sintaksisni qo'llab-quvvatlaydi. Bu BLASTZ va LASTZ ning dastlabki versiyalari bilan moslikni saqlash uchun qilingan. Bu yerda tasvirlangan barcha funksiyalar yuqoridagi yangi sintaksis yordamida amalga oshirilishi mumkin.

Ketma-ketlik spetsifikatsiyasining to'liq formati

Oddiy sintaksisda bo'lgani kabi, <file_name> maydoni ham talab qilinadi, qolgan barcha maydonlar ixtiyoriy. <file_name> va <actions> maydonlari oddiyroq sintaksisdagi kabi ma'noga ega.

<nickname>:: taxallus=<name> amalidagi <name> maydoniga teng.

/<select_name> faqat 2Bit fayl formati uchun amal qiladi va faqat fayl nomi ".2bit" bilan tugaganda amal qiladi. U barcha ketma-ketliklarni emas, balki foydalanish uchun fayldan bitta ketma-ketlikni belgilaydi. Bu subset=<names_file> amaliga oʻxshaydi, bundan tashqari bu yerda nomlar fayli oʻrniga bitta ketma-ketlik nomi berilgan. Esda tutingki, nom fayldan olingan tartibsiz ketma-ketlik nomiga mos kelishi kerak.

<<mask_file>>xmask=<mask_file> amali bilan bir xil.

A - (minus belgisi) <subrange> amaldagi so'nggi nuqtalarni almashtirishga teng bo'lib, u ketma-ketlikning o'zi o'rniga ketma-ketlikning teskari to'ldiruvchisini ishlatishga olib keladi. Shunga qaramay, bu ehtiyotkorlik bilan ishlatilishi kerak, chunki bu boshqa xususiyatlar bilan noaniq shovqinlarga olib kelishi mumkin. BLASTZ-da u faqat minus qatorni qidirish uchun kerak edi, lekin LASTZ buning uchun ‑‑strand variantini taqdim etadi.


Ma'lumotlar mavjudligi to'g'risidagi bayonot

Chorus2 dasturi quyidagi manzilda saqlanadi: https://github.com/zhangtaolab/Chorus2. Dasturiy ta'minot bo'yicha o'quv videolari ham YouTube, ham bilibili (https://chorus2.readthedocs.io/en/latest/videos.html) ga yuklangan. Foydalanuvchilarga dasturiy ta'minotdan bosqichma-bosqich foydalanishga yo'naltirish uchun qo'shimcha fayl (Fayl S1) sifatida eng yaxshi amaliyot qo'llanmasi taqdim etiladi. Arabidopsis TAIR10 mos yozuvlar genomi www.arabidopsis.org saytidan yuklab olingan (Initiative, 2000). Guruchga oid TIGR7 genomi http://rice.plantbiology.msu.edu/ (Kawahara) dan yuklab olingan. va boshqalar, 2013). Makkajo'xori mos yozuvlar genomi B73 AGPv3 va AGPv4 MaizeGDB (www.maizegdb.org) (Jiao) dan yuklab olingan. va boshqalar, 2017). DM v404 kartoshka mos yozuvlar genomi PGSC ma'lumotlar bazasidan (http://solanaceae.plantbiology.msu.edu/) yuklab olingan (Xu). va boshqalar, 2011). Pomidorning mos yozuvlar genomi SL3.0 https://solgenomics.net/ (Sato va boshqalar, 2012). Arpa mos yozuvlar genomi IBSC_v2 http://plants.ensembl.org/Hordeum_vulgare/ (Mascher) dan yuklab olingan. va boshqalar, 2017). Soya fasulyesi Gmax_ZH13_v2.0 mos yozuvlar genomi https://bigd.big.ac.cn/gwh/Assembly/652/show (Shen) dan yuklab olingan. va boshqalar, 2019). Inson genomi hg38, sichqoncha genomi mm10 va zebrafish genomi danRer11 UCSC Genome Browser Gateway veb-saytidan yuklab olingan (https://hgdownload.soe.ucsc.edu/downloads.html) (Gonsales) va boshqalar, 2021). Genomik ov miltig'i ketma-ketligi A. taliana NCBI Sequence Read Archive (SRA) dan SRR5658649 qoʻshilishi boʻyicha olindi, Genomik ov miltigʻi ketma-ketligi O. sativa SRR1630928 qo'shilishi ostida NCBI SRA dan olingan, Genomik ov miltig'i ketma-ketligi Z. mays SRR2960981 qo'shilishi ostida NCBI SRA dan olingan. Genomik ov miltig'i ketma-ketligi Solanum tuberosum, Solanum etuberosum va Solanum jamesii NCBI SRA dan mos ravishda SRR5349606, SRR5349573 va SRR5349574 qo'shilishlari ostida olingan (Hardigan) va boshqalar, 2017). Genomik ov miltig'i ketma-ketligi Hordeum vulgare ERR3183755 (Monat va boshqalar, 2019). Genomik ov miltig'i ketma-ketligi Glitsin maksimal CRR031689 (Shen) qo'shilishi ostida Pekin Genomika Institutidagi (BIG) Genom ketma-ketligi arxividan olingan va boshqalar, 2019). Genomik ov miltig'i ketma-ketligi Homo sapiens SRR1298980 (Altshuler) qo'shilishi ostida NCBI SRA dan olingan va boshqalar, 2015 Sudmant va boshqalar, 2015). Genomik ov miltig'i ketma-ketligi Mushak mushaklari SRR067844 (Keng institut) qo'shilishi ostida NCBI SRA dan olingan. Genomik ov miltig'i ketma-ketligi Danio rerio SRR10751463 (Freire) qo'shilishi ostida NCBI SRA dan olingan va boshqalar, 2020). Barcha ishlab chiqilgan oligo-FISH zond ma'lumotlar to'plami http://zhangtaolab.org/download/oligo_datasets yoki http://jianglab.plantbiology.msu.edu/oligo_datasets.html veb-saytida mavjud.

S1-rasm Chorus2 ning ish jarayoni va grafik interfeysi.

S2-rasm ChorusNoRef quvur liniyasining oqim sxemasi.

S3-rasm Illumina ov miltig'i ketma-ketlik kutubxonasining k-mer spektri SRR2960981.

S1-jadval Chorus tomonidan ishlab chiqilgan takrorlash bilan bog'liq oligoslarning qisqacha mazmuni.

S2-jadval Chorus2 va OligoMiner tomonidan ishlab chiqilgan oligos.

Jadval S3 Chorus2 va OligoMiner tomonidan ishlab chiqilgan oligoslar RepeatExplorer2 tomonidan aniqlangan 200 ta takrorlanuvchi klasterlarga kiritilgan.

Jadval S4 Chorus2 va OligoMiner tomonidan vaqt va xotira iste'moli.

S5-jadval To'qqiz tur uchun mo'ljallangan oligo-FISH zondlari haqida ma'lumot.

Iltimos, diqqat qiling: nashriyot mualliflar tomonidan taqdim etilgan har qanday qo'llab-quvvatlovchi ma'lumotlarning mazmuni yoki funksionalligi uchun javobgar emas. Har qanday so'rovlar (etishmayotgan kontentdan tashqari) maqola uchun tegishli muallifga yo'naltirilishi kerak.


Kirish imkoniyatlari

Bitta maqola sotib oling

PDF to'liq maqolasiga tezkor kirish.

Soliqlarni hisoblash to'lov paytida yakunlanadi.

Jurnalga obuna bo'ling

2019 yildan boshlab barcha nashrlarga zudlik bilan onlayn kirish. Obuna har yili avtomatik ravishda yangilanadi.

Soliqlarni hisoblash to'lov paytida yakunlanadi.


Kengaytirilgan mavzular

Intervalli koordinatalar

Biologik tadqiqot hamjamiyati DNK zanjiridagi intervallarni tavsiflovchi bir nechta raqobatbardosh standartlarni ishlab chiqdi. Turli xil dasturlar ko'pincha turli standartlardan foydalanadi. LASTZ bir nechta kirish va chiqish formatlarini qo'llab-quvvatlaganligi sababli, u intervalni tavsiflashning bir nechta usullaridan foydalanishi muqarrar. Biz bu erda turli xil konventsiyalarni tasvirlaymiz.

Ushbu munozara uchun bizda 50 nukleotidli DNK zanjiri quyidagicha bo'lsin:

E'tibor bering, bu DNK bo'lgani uchun uning 5' va 3' uchlari bor, biz barcha kirish ketma-ketligi 5' uchi chap tomonda bo'lgan asoslarni ro'yxatga olishning standart amaliyotiga amal qiladi deb taxmin qilamiz. Bu erda biz keyingi ketma-ketlikni ta'kidladik ATTACCTA shuning uchun biz u egallagan intervalni qanday tasvirlashni muhokama qilishimiz mumkin. Buning uchun ikkita keng tarqalgan usul mavjud. Ikkalasi ham 5' dan 3' gacha (chapdan o'ngga) hisoblanadi. Bir yo'l, , birdan sanashni boshlaydi. Boshqa yo'l bilan, , noldan sanashni boshlaydi. Shunday qilib, dastlabki-birda, ATTACCTA 11-pozitsiyadan boshlanadi, nol-da esa 10-pozitsiyadan boshlanadi.

Yakuniy pozitsiyani tasvirlash uchun ikkita tez-tez ishlatiladigan usul ham mavjud. Bir yo'l - oxirgi nukleotidning pozitsiyasi berilgan. Ikkinchisi, oxirgi nukleotiddan keyingi pozitsiya berilgan. Ular nazariy jihatdan kelib chiqish konventsiyalaridan mustaqildir, lekin amalda faqat ikkita kombinatsiyadan foydalaniladi: va . Birinchisida ATTACCTA intervalni (11,18) egallagan, ikkinchisida esa (10,18) intervalni egallagan deyiladi. E'tibor bering, bu ikki paradigma o'rtasida faqat birinchi raqam o'zgaradi, ikkinchi raqam bir xil bo'lib qoladi.

Ko'rib chiqilishi kerak bo'lgan yana bir omil shundaki, DNK odatda ikki zanjirli bo'lib, u quyidagicha ko'rinadi:

Ba'zi hollarda to'ldiruvchi ip bo'ylab intervalga murojaat qilish mantiqan to'g'ri keladi. Misol uchun, agar yuqoridagi ketma-ketlik so'rov bo'lsa va maqsad TAGGTAAT ni o'z ichiga olgan bo'lsa, bu ikkisining moslashuvining so'rov o'rnini qanday tasvirlash kerak? Buning usullaridan biri hali ham oldinga siljish bo'ylab intervalga murojaat qilish bo'lar edi (biz uni biz yoki ip deb ham ataymiz) va shunchaki bu hizalangan oraliqning teskari to'ldiruvchisi ekanligini ko'rsating. Biz buni chaqiramiz. Yana bir usul - to'ldiruvchining ikkinchi uchidan, ya'ni 5' uchidan boshlab hisoblash (biz uni , yoki ip deb ham ataymiz). Biz buni deb ataymiz va aniqlik uchun "uning 5' oxiridan" qo'shishimiz mumkin. Bu misolda, agar biz original-bir, yopiq sanashdan foydalansak, TAGGTAAT teskari chiziq bo'ylab (33,40) da sodir bo'ladi, deb aytamiz. Agar boshqacha ko'rsatilmagan bo'lsa (masalan, R Dotplot chiqish formati uchun), LASTZ to'g'ridan-to'g'ri yoki teskari chiziq bo'ylab hisoblashda, agar kerak bo'lsa, intervalning so'nggi nuqtalarini almashtiradi, shuning uchun start deb ataladigan pozitsiya raqamli bo'lib, end . Bu keng tarqalgan konventsiya, lekin ularni almashtirmasdan qoldiradigan boshqa dasturlar ham mavjud.

E'tibor bering, pozitsiyalarni hisoblashda ketma-ketlikdagi barcha belgilar, jumladan N s yoki X s va hatto noto'g'ri belgilar hisobga olinadi. Bu boshqa dasturlar to'g'ridan-to'g'ri asl ketma-ketliklarga indekslash uchun hisobot pozitsiyalaridan foydalanishi uchun juda muhimdir.

ACGT bo'lmagan belgilar

DNKni ifodalashi kerak bo'lgan ketma-ketlikda A , C , G va T dan boshqa belgilar bilan ishlash muammoli. Oddiy (kvant bo'lmagan) DNK ketma-ketlikda LASTZ hozirda ulardan ikkitasini, N va X ni qo'llab-quvvatlaydi. Ular asl kirish faylida mavjud bo'lishi mumkin (Nib va ​​2Bit formatlari X larni o'z ichiga olmaydi) yoki ketma-ketlik spetsifikatsiyasida xmask yoki nmask harakati yordamida qo'shilishi mumkin. LASTZ boshqa IUPAC-IUB noaniqlik kodlariga ham toqat qilish uchun sozlanishi mumkin.

Ko'pgina ma'lumotlar bazasi ketma-ketligi haqiqiy nukleotid noma'lum bo'lgan (hech bo'lmaganda, hech qanday ishonch darajasida noma'lum) asoslarni ifodalash uchun N ni o'z ichiga oladi. N s (yoki yaxshiroq, X s) ilgari qiziq emasligi aniqlangan va shuning uchun tekislanmasligi kerak bo'lgan hududlarni maskalash uchun ham ishlatilishi mumkin. Va afsuski, bitta ketma-ketlikda ishlash bilan cheklangan dasturlar bilan ishlashda samaradorlikka erishish uchun bir nechta ketma-ketlikni birlashtirish uchun X yoki N s satrlaridan foydalanish an'anasi ham mavjud.

Splicing BLASTZ-da foydali bo'lsa-da, LASTZ uchun endi kerak emas. LASTZ bir nechta maqsadli ketma-ketlikni boshqarishi mumkinligi sababli (maqsadli faylning ketma-ketlik spetsifikatsiyasidagi bir nechta harakatlar orqali), foydalanuvchilarga afzallik beriladi. emas qo'shishga murojaat qiling. Biroq, mavjud quvur liniyasida BLASTZ ni LASTZ bilan almashtirish hali ham birlashtirilgan ketma-ketlikni o'z ichiga olishi mumkin, shuning uchun LASTZ ACGT bo'lmagan belgilarning standart talqini BLASTZ bilan bir xil bo'ladi: X s hizalanish ekish bosqichidan chiqarib tashlanadi va hizalanish balli bilan shunchalik qattiq jazolanadi. ular odatda hech qanday hizalanishda ko'rinmaydi. N lar ham ekishdan chiqarib tashlanadi va transversiya mos kelmasligi bilan bir xil jazolanadi. Xususan, X bilan har qanday almashtirish &minus1000, boshqa har qanday almashtirish (A, C, G yoki T dan tashqari) esa &minus100 deb baholanadi.E'tibor bering, siz ketma-ketliklar orasiga "etarli" X yoki N ni qo'yishingiz kerak, shunda hech qanday tekislash bloki bo'g'inni kesib o'tmaydi. Bu qiyin bo'lishi mumkin, chunki bo'shliqni baholash faqat bo'shliqning uzunligiga bog'liq va bo'shliqdagi belgilarga emas. Shunday qilib, agar bo'shliqqa bir xil uzunlikdagi bo'shliq y-tomchi sozlamasidan ko'ra ko'proq jazolanmasa, tekislash qo'shimchani sakrashi mumkin. Taxminan ko'rsatma sifatida, odatda standart sozlamalar bilan 50 bo'lak uzunligi etarli, ammo bu kafolatlanmaydi.

ACGT bo'lmagan belgilarning ushbu standart ishlovi, tekislanmasligi kerak bo'lgan hududlarni maskalash uchun X yoki N s ishlatilganda ham yaxshi ishlaydi. Biroq, ketma-ketliklar N ni o'z ichiga olgan bo'lsa, noaniq asoslarni ifodalash uchun noo'rin. Bu holatni hal qilish uchun LASTZ ‑‑anbiguous=n variantini taqdim etadi, bu esa N bilan almashtirish nolga teng bo'lishiga olib keladi. Bundan tashqari, ‑‑anbiguous=iupac opsiyasi boshqa IUPAC-IUB noaniqlik kodlariga (B, D, H, K, M, R, S, V, W, Y) bir xil noaniq N bilan munosabatda bo'lishiga olib keladi.

Ikkala holatda ham, ekish bosqichida ACGT bo'lmagan belgilar e'tiborga olinmaydi. Faqat A , C , G va/yoki T dan iborat boʻlgan urugʻ soʻzlari urugʻchilikda qatnashadi, hattoki ACGT boʻlmagan belgilar urugʻ naqshidagi “parvo qilma” pozitsiyalarida boʻlsa ham.

Agar ball fayli ko'rsatilgan bo'lsa, yuqorida tavsiflangan ball qiymatlari o'zgartirilishi mumkin. &minus1000 ball bad_score deb ataladi va &minus100 ball fill_score deb ataladi. Bundan tashqari, qaysi belgi "yomon" deb hisoblanadi (sukut bo'yicha bu X ) ball faylida ham ko'rsatilishi mumkin va aslida maqsad va so'rov o'rtasida farq qilishi mumkin. Ushbu hujjat davomida biz DNK ketma-ketligida paydo bo'ladigan X belgisiga murojaat qilsak, biz odatda "yomon" deb belgilangan belgini nazarda tutamiz, bu esa X ga mos keladi. .

Kvant DNK ketma-ketligi har xil: ular o'zboshimchalik bilan, foydalanuvchi tomonidan belgilangan belgilar alifbosidan foydalanadi, shuning uchun N va X uchun yuqorida aytib o'tilgan maxsus davolash usullari qo'llanilmaydi. Kvant ketma-ketliklari uchun standart "yomon" belgi null baytdir (00 o'n oltilik), bu hatto ketma-ketlikda ham ruxsat etilmaydi, lekin uni ball fayli orqali haqiqiy alifbo belgilaridan biriga o'zgartirish mumkin. Kvant ketma-ketliklari uchun noaniq N larning analogi yo'q, chunki odatda har bir belgi ma'lum darajada noaniqlik darajasiga ega.

Ketma-ket nomi Mangling

Ko'pincha kirish ketma-ketligi fayllaridagi nomlar quyi oqim uchun ishlov berish uchun noqulay yoki muayyan chiqish formatlari bilan bog'liq muammolarni keltirib chiqaradi. Bu ba'zi kiritish formatlarida (asosan Nib) ketma-ketlik nomlari mavjud emasligi sababli yanada murakkablashadi, shuning uchun bunday hollarda nom fayl nomidan olinishi kerak. LASTZ kirish ketma-ketligini nomlash uchun bir nechta variantni taqdim etadi. Ushbu muqobillar bir-birini istisno qiladi, faqat bitta kirish fayli uchun bir vaqtning o'zida ishlatilishi mumkin.

Ichkarida LASTZ nomlash vazifasini ikki bosqichda bajaradi. Birinchidan, u ketma-ketlik uchun hosil qiladi. Agar kirish formati nom yoki sarlavhani taqdim etsa, u to'liq sarlavhaga aylanadi. Aks holda, to'liq sarlavha fayl nomidan tuziladi.

Ikkinchi bosqichda LASTZ to'liq sarlavhani taxallusga qisqartiradi. Agar to'liq sarlavha fayl nomi bilan boshlansa, har qanday yo'l prefiksi o'chiriladi va keng tarqalgan fayl kengaytmasi qo'shimchalari ham olib tashlanadi ( .fa , .fasta , .nib , .2bit ). Keyin sukut bo'yicha LASTZ ketma-ketlik nomi sifatida qolgan qatorning birinchi so'zidan (bo'shliq, vertikal chiziq yoki ikki nuqtadan tashqari belgilardan iborat) foydalanadi. Shunday qilib, FASTA sarlavhasi " >

someuser/human/hg18/chr1.fa Inson xromosomasi 1 " oddiygina chr1 ga qisqartiriladi.

Ketma-ketlik ko'rsatgichidagi nameparse=darkspace va nameparse=alphanum harakatlari birinchi so'z qanday aniqlanishini o'zgartiradi. darkspace (ya'ni, "bo'sh bo'lmagan") so'zda vertikal chiziq va ikki nuqta paydo bo'lishiga imkon berish uchun tugatish belgilari to'plamini toraytiradi, alfavit esa uni kengaytiradi, shuning uchun so'z faqat alifbo, raqamli va pastki chiziq belgilari bilan chegaralanadi. Yo'l prefikslari va fayl kengaytmalari hali ham o'chiriladi.

Standart qisqartirish ko'pincha etarli. Masalan, quyidagi FASTA faylini ko'rib chiqing. Odatiy bo'lib, nomlar 000007_3133_3729 va 000015_3231_1315 bo'ladi.

Biroq, foydalanuvchi qo'shilish raqamlaridan foydalanishni qulayroq deb bilishi mumkin. Buni amalga oshirish uchun u nameparse=tag:uaccno= amalidan foydalanishi mumkin. LASTZ har bir sarlavhada uaccno= teg qatorini qidiradi va undan keyingi belgilardan alifbo, raqamli yoki pastki chiziq bo'lmagan birinchi belgigacha nomni o'qiydi. Bu holda ketma-ketlik nomlari FX9DQEU13H5YZN va FX9DQEU13HUTXE bo'ladi. Teg satri ma'lum bir ketma-ketlikning to'liq sarlavhasida topilmasa, uning o'rniga standart qisqartirish qo'llaniladi.

Endi ushbu FASTA faylini ko'rib chiqing:

Bunday holda standart amal biz xohlagan narsani qilmaydi (barcha ketma-ketliklar gi deb nomlanadi). Action nameparse="tag:gi|" bizga 197102135, 169213872 va 34784771 nomlarini beradi. (Qo'shtirnoqlarga e'tibor bering, bu buyruq satri qobig'ining | ni quvur belgisi sifatida talqin qilishiga yo'l qo'ymaslik uchun zarurdir.) E'tibor bering, ref| tegi. ishlamaydi, chunki uchinchi ketma-ketlikda gb| kerak bo'ladi o'rniga.

Ba'zan ma'lum bir nom berish qulayroqdir. Bu taxallus=<name> harakati bilan amalga oshirilishi mumkin. Masalan, maqsad va so'rovlar fayli spetsifikatsiyalaridan foydalanish

someuser/human/ponAbe2/chr1.nib[nickname=orang] bo'lsa, chiqish ketma-ketliklarni ikkalasini ham chr1 deb emas, balki inson va orang sifatida ko'rsatadi. Agar <name> pastki qatorni o'z ichiga olsa , taxallus fayl ichidagi ketma-ketlik raqamini o'z ichiga oladi. Bu, ayniqsa, faylda bir nechta ketma-ketlik mavjud bo'lganda foydalidir.

Agar siz nomlarning o'zgarishini butunlay yo'q qilishni istasangiz, nameparse=full amalidan foydalanishingiz mumkin. Bu ketma-ketlik nomi sifatida to'liq sarlavhadan foydalanadi. Ammo shuni yodda tutingki, agar u bo'sh joylarni o'z ichiga olsa, natijada olingan tekislash fayllari quyi oqim vositalari tomonidan o'qilmasligi mumkin.

Yuqoridagi muhokama FASTA, Nib yoki 2Bit formatidagi oddiy DNK ketma-ketliklariga taalluqlidir. HSX indeks fayllari boshqacha tarzda ishlanadi: sukut bo'yicha LASTZ indeksdagi nomni qisqartirmasdan, avvalgidek ishlatadi va turli nomlarni tahlil qilish harakatlariga ruxsat berilmaydi. Taxallus amalidan foydalanish mumkin, lekin umuman kerak emas, chunki siz kerakli nomlarni bevosita indeksda saqlashingiz mumkin.

E'tibor bering, agar pastki to'plam=<names_file> amal ishlatilsa, <names_file> nomlari o'zgartirilgan (yoki indekslangan) nomlarga mos kelishi kerak.

FASTA fayllari uchun standart Unix buyruq qatori vositalari yordamida yanada murakkab nomlarni o'zgartirish mumkin. Yuqoridagi ikkinchi misolda biz har bir nomni NM_001133512.1 , XM_001716177.1 va BC006342.2 NCBI kirish raqamlariga qisqartirish uchun sed orqali kiritishni bir necha marta o'tkazishimiz mumkin.

Urug'lik naqshlari

Urug'lar maqsad va so'rovlar ketma-ketligi o'rtasidagi qisqa yaqinlikdir, bu erda "qisqa" odatda 20 bp dan kamroq degan ma'noni anglatadi. Dastlabki moslashtirish dasturlari urug' sifatida aniq mosliklardan (masalan, uzunligi 12) foydalangan, ammo ketma-ketliklar ajralib chiqqanda sezgirlikni oshirishi mumkin.

A - qisqacha aytganda, urug'da nomuvofiqliklar bo'lishi mumkin bo'lgan pozitsiyalar ro'yxati. Misol uchun, 1100101111 urug'lik namunasini ko'rib chiqing. 1 bu pozitsiyada moslik zarurligini bildiradi va 0 nomuvofiqlikka ruxsat berilganligini bildiradi (samarali ravishda bu "farq qilma" pozitsiyasidir). Quyidagi misoldan ko'rinib turibdiki, ushbu urug'lik namunasidan foydalanib, GTAGCTTCAC so'zi ACGTGACATCACACATGGCGACGTCGCTTCACTGG ketma-ketlikda ikki marta uriladi.

Olingan urug'lar aniq mos keladigan urug'larga qaraganda sezgirroq bo'lib, o'ziga xosligi kam o'zgargan. Bu ketma-ketliklar o'xshashligi pastroq bo'lsa, masalan, odam va sichqoncha yoki tovuq kabi bo'lsa, eng foydali hisoblanadi. Qaysi urug' namunasi eng yaxshisi taqqoslanayotgan ketma-ketliklarga bog'liq. Bo'sh urug'lar va ularni qanday loyihalash haqida muhokama qilish uchun [Buhler 2003] ga qarang.

LASTZ ning ekish variantlari "foydalanuvchi" ga ko'p tanlovlarni beradi. Maqsad shundan iboratki, ular ba'zi dastur tomonidan tanlanadi (shuning uchun "foydalanuvchi" atrofida qo'shtirnoq belgilari), lekin ular hamma uchun buyruq satridan foydalanish mumkin.

N-mer o'yini:

Umumiy urug'lik namunalari:

Yarim vaznli urug'lik namunalari:

Bitta, ikki yoki hech qanday o'tish:

Transversiyalar va mosliklar bo'yicha filtrlash:

Egizak urug'lar:

Har qanday yoki yo'q hizalama

Ba'zan, tekislagichdan so'ragan yagona javob bu so'rovda maqsad bilan kuchli moslashuvlar bormi yoki yo'qmi. Misol uchun, ketma-ketlikda qaysi o'qishlar borligini bilishni xohlashingiz mumkin yo'q mos yozuvlar genomiga moslashish. Bunday holda, agar o'qish ma'lum bir xromosomaning minglab turli joylariga to'g'ri kelsa, siz qayerda &mdash uning mos keladimi yoki yo'qligini bilishni xohlamaysiz.

‑‑anyornone opsiyasi bunday holatlar uchun mo'ljallangan va hizalanish tezligini sezilarli darajada oshirishi mumkin. Har qanday saralash moslamasi topilgach, joriy so'rovni qayta ishlash to'xtatiladi. Hizalama chiqishga xabar qilinadi va biz darhol keyingi so'rovni qayta ishlashni boshlaymiz. Saralash moslashuvi odatda boshqa parametr sozlamalarini hisobga olgan holda chiqariladi, masalan, u ball olish chegaralarini ( ‑‑hspthresh va/yoki ‑‑gappedthresh ) va har qanday orqa filtrlarga javob beradi.

Malumot ketma-ketligi bilan kamida bitta "yaxshi" moslashtirilgan o'qishlar ro'yxatini olish uchun siz shunday qilishingiz mumkin:

Ushbu parametr Umumiy ko'rinishda tasvirlangan odatiy ishlov berish tartibini biroz o'zgartiradi. Barcha urug'larda bo'shliqsiz kengaytmani amalga oshirish, ularni HSPlar ro'yxatiga to'plash va keyin bo'shliqli kengaytmani amalga oshirish o'rniga, har bir HSP bo'shliqqa kengaytiriladi va darhol orqa tomon filtrlanadi. Bu birinchi saralash moslashuvi topilishi bilanoq tashlab qo'yiladigan xitlar bo'yicha to'liq dastlabki bosqichda ishlov berish uchun behuda ishlarning oldini oladi.

Y-tomchi Mos kelmaydigan soya

LASTZ-dagi bo'shliqli kengaytmaning standart konfiguratsiyasi ball eng yuqori bo'lgan joyda tekislashni tugatishdir. Bu shuni anglatadiki, tekislashning har qanday prefiksi yoki qo'shimchasi salbiy bo'lmagan ballga ega bo'ladi. Bu ikki uzun ketma-ketlikning o'rtasida joylashgan tekislashlar uchun mos bo'lsa-da, bir yoki ikkala ketma-ketlikning oxiriga yaqin bo'lganda, qisqa o'qishlarni tekislashda tez-tez sodir bo'ladigan tekislash istalmagan.

50 ta asosli so‘rovning xromosoma maqsadiga quyidagi moslashuvini ko‘rib chiqing va biz ‑‑match=1,5 , ‑‑gap=6,1 , ‑‑identity=97 va &”dan foydalanamiz. #8209‑qamrovi=95 . Ko'rsatilganidek, butun hizalama 97,9% identifikatsiyaga (46/47) va 100% qamrovga ega. Biroq, dastlabki besh tayanch (AGAAC va AGAAG) salbiy ballga ega: har biri +1 da to'rtta o'yin va &minus5 da bitta mos kelmasligi bu prefiks uchun &minus1 ball beradi. Eng yuqori ball to'g'rilash 6 dan 50 gacha bo'lgan pozitsiyalar bo'lib, 33 ball uchun (butun tekislash faqat 32 ball). Agar biz eng yuqori ball bilan tekislashni to'xtatsak, qamrov 90% ga tushadi va hizalama bekor qilinadi. Umumiy natija shundan iboratki, biz istamagan oʻqishlarni oʻchirib tashlaymiz va oʻqishlar oxirlarida nomuvofiqlikka qarshi noxolislikni koʻramiz. (E'tibor bering, bu anomaliya, tekislash odatda past ballli mintaqa tomonidan emas, balki ketma-ketlikning oxirida keskin tugatilganligi sababli yuzaga keladi, shuningdek, ‑‑qoplama opsiyasi uzunroq ketma-ketliklarga qaraganda qisqa o'qishlarda ko'proq qo'llaniladi.)

Bunday xatti-harakatning oldini olish uchun qisqa o'qishlarni tekislashda ‑‑noytrim” opsiyasidan foydalaning. Bu LASTZ ning bunday tekislashlarni eng yuqori ball to'plagan joyga qaytarishdan bosh tortishiga olib keladi. Xususan, agar bo'shliqni kengaytirish jarayoni ketma-ketlikning oxiriga to'g'ri kelsa, u buni hizalamaning oxiri sifatida saqlaydi. Bunday holda, salbiy ball beruvchi prefiks yoki qo'shimcha ‑‑drop qiymatidan yomonroq ball bermasa, saqlanadi.

Shingle qoplamasi

Ba'zi ilovalarda, masalan. o'qishlarni kontiglarga yig'ishda biz ketma-ketlik uchlari bir-birining ustiga chiqishini aniqlamoqchimiz. Misol uchun, quyida keltirilgan 1-holatda so'rovning boshlanishi maqsad oxiri bilan 30 ta asosga to'g'ri keladi va ikkala ketma-ketlik bir-biridan tashqariga qarama-qarshi yo'nalishda cho'ziladi. Biz bu holatni "shingil" deb ataymiz (uyingizda shingillalar kabi) va Umumiy chiqish formatidagi shingle maydoni uning o'lchovini ta'minlaydi. Ijobiy qiymat so'rovning boshlanishi maqsad oxiriga to'g'ri kelishini bildiradi (1-holat), salbiy qiymat esa rollarning teskariligini bildiradi (2-holat). Agar ushbu holatlarning hech biri sodir bo'lmasa (masalan, agar ketma-ketlik ikkinchisidan tashqariga chiqmasa), NA haqida xabar beriladi.

E'tibor bering, xabar qilingan qiymat ushbu mintaqada tekislanadigan asoslar soniga hech qanday aloqasi yo'q va bu hizalanish ketma-ketliklarning boshi yoki oxirigacha davom etishini ko'rsatmaydi. Shingle qiymati ikkita o'qishni to'g'ri ro'yxatdan o'tkazish ularni berilgan qiymat va mdash ma'lumotlari bilan qoplashdan iborat ekanligini tasdiqlaydi, bu assembler ushbu o'qishlarni kontigga yig'ishda foydalanishi mumkin.

Maqsadli kapsula fayllaridan foydalanish

Maqsadli kapsula fayllari bir xil kompyuterda bir nechta CPU yadrolari bir xil maqsadli ketma-ketlikda LASTZ ishlayotgan bo'lsa, ish vaqti xotirasidan foydalanishni yaxshilash uchun taqdim etiladi. Ular katta ichki ma'lumotlar tuzilmalarining asosiy ulushini jarayonlar o'rtasida taqsimlashga imkon beradi. Bu LASTZ ning ko'proq nusxalarini kamroq jismoniy xotira bilan bir vaqtning o'zida ishga tushirishga imkon beradi, bu o'tkazish qobiliyatini yaxshilashi mumkin, masalan, katta o'qishlar to'plamini bitta (katta) mos yozuvlar ketma-ketligiga xaritalashda.

Kapsula faylini yaratish uchun quyidagi buyruqdan foydalaning: Qo'llaniladigan ekish opsiyalari: ‑'seed , '8209'step , '8209'maxwordcount va '8209'word .

Kapsula faylidan foydalanish uchun LASTZ ni quyidagicha ishga tushiring: Kapsula maʼlumotlarini alohida ishga tushirishlar oʻrtasida almashish uchun foydalanuvchidan qoʻshimcha harakat talab etilmaydi. Deyarli barcha variantlarga ruxsat berilgan, biroq ‑‑seed , ‑‑step , ‑‑maxwordcount va ‑‑word” ekish opsiyalariga ruxsat berilmaydi, chunki ular (yoki ularning yon mahsulotlari) allaqachon kapsulada saqlangan. fayl. Bundan tashqari, ‑‑maskingga yo'l qo'yilmaydi, chunki u maqsadli ketma-ketlikni ham, kapsulada joylashgan maqsadli so'zlarning joylashuv jadvalini ham o'zgartirishni talab qiladi.

Ichki LASTZ operatsion tizimdan kapsula faylini to'g'ridan-to'g'ri ishlaydigan dasturning xotira maydoniga faqat o'qish uchun moslashtirishni so'raydi. Bir nechta ishlaydigan misollar bir xil faylni xaritalashi mumkin, har bir misol kapsula ma'lumotlari uchun o'z virtual manzillariga ega bo'ladi, lekin jismoniy xotira birgalikda ishlatiladi. Kapsulani bir vaqtning o'zida ishlatish uchun bir nechta misollar talab qilinmaydi. ‑‑targetcapsule bilan lastzning bitta nusxasini ishga tushirish yaxshi ishlaydi va aslida kapsulasiz bir xil tekislashni ishlatish bilan solishtirganda kichik tezlikda yaxshilanish bo'lishi mumkin.

Ushbu texnikaning salbiy tomoni shundaki, kapsula fayllari juda katta va ular ham mashinaga bog'liq. Masalan, inson 1-xromosomasining fayli taxminan 1,4 Gb ni tashkil qiladi. E'tibor bering, mos kelmaydigan kompyuterda o'rnatilgan kapsulani ishga tushirishga urinishlar aniqlanadi va rad etiladi.

Xulosa chiqarish ballar to'plami

Skorlash xulosasi to'g'ridan-to'g'ri tekislangan ketma-ketliklardan tegishli almashtirish ballari va/yoki bo'shliq jazolarini aniqlashning avtomatlashtirilgan usulidir. Olingan ball parametrlari faylga saqlanishi va/yoki ketma-ketlikni tekislash uchun darhol ishlatilishi mumkin. Umuman olganda, bular asosan alohida hududlarga emas, balki turlarga bog'liq, shuning uchun bir juft tur uchun mos ball to'plami olingandan so'ng, xulosa shunday bo'ladi. emas har bir tekislash uchun bajarilishi kerak. Ushbu bo'limda biz xulosa chiqarish jarayoni haqida qisqacha ma'lumot beramiz, batafsilroq tavsif uchun [Harris 2007] ga qarang.

Xulosa qilish 18 xil moslashish hodisasining har birining ehtimolini hisoblash yo'li bilan erishiladi (bo'shliqni ochish, bo'shliqni kengaytirish va 16 ta almashtirish). Ushbu ehtimolliklar ketma-ketliklarning hizalanishidan baholanadi. Albatta, dastlab bizda hizalamalar yo'q, shuning uchun biz umumiy ball to'plamidan foydalanib, tekislashlarni yaratishni, ulardan ballarni chiqarishni, so'ngra ballar barqarorlashguncha yoki "birlashmaguncha" qayta tekislashni va hokazolarni boshlaymiz. Ajralmagan tekislashlar almashtirish ballari yaqinlashguncha bajariladi, so'ngra bo'shliqlar jarimalari yaqinlashguncha amalga oshiriladi (almashtirish ballarini doimiy ushlab turish).

LASTZ infer skorlash parametrlariga ega bo'lish uchun mos ravishda yoqilgan LASTZ tuzilmasidan foydalaning (pastga qarang) va ‑‑infer yoki ‑‑faqat opsiyalarni belgilang. (Oxirgisi parametrlarni xulosa qilgandan so'ng, yakuniy tekislashni amalga oshirmasdan to'xtaydi.) Xulosa qilish jarayoni uchun sozlamalar ushbu parametrlarga kiritilgan boshqaruv faylida ko'rsatilishi mumkin.

‑‑infscores opsiyasi taxmin qilingan baholash parametrlarini alohida faylga yozishga olib keladi. Agar <output_file> belgilanmagan bo'lsa, u izoh sifatida hizalanish chiqish faylining sarlavhasiga yoziladi. Oxirgi chora sifatida, agar hizalama amalga oshirilmasa, ball to'plami stdout ga yoziladi. Parametrlar ball to'plamlarini kiritish uchun ishlatiladigan bir xil formatda yoziladi.

Odatda xulosa qilish uchun barcha hizalama bloklaridan foydalanish istalmagan. Yuqori almashtirish darajasi (past identifikatsiya) bo'lgan bloklar noto'g'ri musbat bo'lishi mumkin. Boshqa tomondan, qanday baholash parametrlari ishlatilishidan qat'i nazar, bir nechta almashtirishlarga ega bloklar (yuqori identifikatsiya) topiladi. Shunday qilib, xulosani faqat o'rta diapazondagi statistik ma'lumotlarga asoslash maqsadga muvofiqdir. Odatiy bo'lib, o'rta 50% ishlatiladi (ya'ni, identifikatsiyani taqsimlashdan 25-75 foiz oralig'i), lekin uni boshqaruv faylida o'zgartirish mumkin.


2. AB SOLiD o'qiydi: kodlash va texnologik artefaktlar

SOLiD tizimi [21] boncuklar bilan bog'langan klonal ravishda kuchaytirilgan DNK fragmentlarini massiv ravishda parallel ravishda ketma-ketlashtirish imkonini beradi. Ushbu ketma-ketlik texnologiyasi bo'yoq bilan belgilangan oligonükleotid problarini ketma-ket bog'lashga asoslangan bo'lib, har bir zond bir vaqtning o'zida ikkita asosiy pozitsiyani aniqlaydi. Tizim o'n oltita mumkin bo'lgan 2 tayanchli kombinatsiyani kodlash uchun to'rtta lyuminestsent bo'yoqlardan foydalanadi. Shunday qilib, DNK fragmenti boshlang'ich asos bilan ifodalanadi, so'ngra bir-biriga o'xshash dimerlar ketma-ketligi bilan ifodalanadi, ularning har biri bir nechta qoidalarni qondiradigan degenerativ kodlash sxemasidan foydalangan holda to'rtta rangdan biri bilan kodlangan. Shunday qilib, o'qishdagi bitta rang to'rtta dimerdan birini ifodalashi mumkin bo'lsa-da, dimerlarning bir-biriga mos keladigan xususiyatlari va rang kodining tabiati noaniqliklarni bartaraf qiladi va xatolarni tuzatishga imkon beradi.

Bizning ishimiz o'qishlar bo'ylab xatolar taqsimotini modellashtirishga tayanganligi sababli, biz ushbu taqsimotga ta'sir qiluvchi ketma-ketlik texnologiyasining bir nechta jihatlariga qiziqamiz.

Birinchidan, o'qishning har bir rangi ikkita qo'shni asosni kodlaganligi sababli va shuning uchun har bir baza ikkita qo'shni rangga ta'sir qiladi, shundan kelib chiqadiki, har qanday bitta bazaviy mutatsiya o'qishdagi ikkita qo'shni rangning o'zgarishiga olib keladi.

Ikkinchidan, o'qish xatolari bilan bog'liq holda, ketma-ketlik kimyosi ([21, 22] da tasvirlangan) o'qish davomida davriy noto'g'rilikni taklif qiladi. Asosan, SOLiD platformasidagi ligatsiya jarayoni bilan ketma-ketlik sekvensiya qilinadigan shablondagi 8-mer oligonükleotidlarning ketma-ket gibridlanishiga tayanadi.Oligonukleotidlar 3 ta universal asos, 3 ta degenerativ asos va 2 ta qo'shni bazani o'z ichiga oladi, ular shablondagi ikkita pozitsiyani aniqlaydi, bu ularning 5-uchidagi lyuminestsent belgilarining identifikatsiyasi bilan bog'liq. Bog'langandan so'ng, 6 𠄸 asoslari floresan bo'yoq bilan birga ajratiladi va 5′ uchi boshqa ligatsiya uchun mavjud bo'ladi. Shunday qilib, ikkita pozitsiya p va p + 1 bitta oligonukleotid biriktirilgandan so'ng to'g'ri asosda juftlangan va 5 masofadagi pozitsiyalar (p + 5 va p + 6) keyingi oligonukleotid bilan aniqlanadi. Ushbu naqshga mos kelmaydigan pozitsiyalardagi nukleotidlar keyingi turlarda aniqlanadi. Shablonni qoplash uchun bir nechta ligatsiya davrlaridan iborat beshta tur kerak. Shuning uchun, biz o'qish xatosining bunday ketma-ketlik bosqichida tarqalishini kutamiz, bu 5 davriylik bilan paydo bo'ladi.

Ushbu sezgini tasdiqlash uchun biz o'qish bo'yicha o'qish xatosi ehtimolining o'zgarishini o'rganib chiqdik, buning statistik xususiyatlarini bir millionga yaqin SOLiD o'qishlarini tahlil qildik. Saccharomyces cerevisiae genom. Ushbu tahlilda biz sifatlardan foydalandik Q l har bir pozitsiya bilan bog'liq l xatolik ehtimoli bilan bog'liq bo'lgan o'qishda p e l orqali Q l = � · log 10(p e l ) [23].

Biz ular orasidagi masofaga qarab o'qish pozitsiyalari orasidagi sifat korrelyatsiyasini hisobladik. Rasmiy ravishda, agar m o'qish uzunligi, keyin har biri uchun i ∈ <1,…, m − 1>, biz quyidagi standart formula orqali korrelyatsiyani hisobladik c ( i ) = E ( ( Q j - Q ˜ ) ( Q j + i - Q ˜ ) ) / ( σ Q ) 2, qayerda E(& # x000b7) - kutish, Q - o'qish bo'yicha o'rtacha sifat va ˜ σ Q sifat qiymatlarining standart og'ishi. Natija 1-rasmda keltirilgan. U 5 ga karrali masofalarda joylashgan juftlik pozitsiyalari o'rtasida sezilarli darajada yuqori korrelyatsiyani (0,63 gacha) ko'rsatadi.