Ma `lumot

Mahalliy BLAST nusxa ko'chirish raqami

Mahalliy BLAST nusxa ko'chirish raqami



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Men metagenomik ma'lumotlarning makeblastdb yordamida bir qator mahalliy BLAST ma'lumotlar bazalarini yaratdim va ma'lum bir gen borligini izlayapman. Men oddiy BLAST tahlilini e-qiymatlar, % identifikatsiya va hokazolarga qarab amalga oshirishim mumkin bo'lsa-da. Ma'lumotlar bazasida berilgan ketma-ketlik necha marta mavjudligini qanday aniqlashni aniqlay olmadim.

Shunday qilib: ma'lum bir gen bir necha marta mavjud bo'lishi mumkin bo'lgan metagenomik ma'lumotlarning BLAST ma'lumotlar bazasini hisobga olgan holda, berilgan BLAST zarbasining nusxasi sonini qanday aniqlash mumkin?

Oldindan rahmat.


  • "Xit" ni aniqlang (ba'zi chegaralar asosida - baholash, ball va boshqalar)
  • Chiqarishni jadval shaklida oling
  • Har bir so'rovga kirishlar soni - odatda sarlavhada beriladi; Agar siz tanlangan xitlarni qidirmoqchi bo'lsangiz (ba'zi cheklovlarga asoslanib, siz faylni tahlil qilishingiz va bilib olishingiz mumkin)

Misol fayl (sarlavha):

# BLASTN 2.2.27+ # So'rov: TCONS_00036712 gen = XLOC_017996 # Ma'lumotlar bazasi:… /nt_db /nt # Maydonlar: so'rov identifikatori, mavzu identifikatori, % identifikatori, hizalanish uzunligi, mos kelmaslik, bo'sh joy ochiladi, q. boshlash, q. oxiri, s. boshlash, s. tugatish, baholash, bit ball # 1014 ta hits topildi

Agar siz xitlar sonini qidirish uchun sarlavhani tahlil qilmoqchi bo'lsangiz, terminalda bu buyruqni ishlatishingiz mumkin (agar awk bo'lsa - u erda sukut bo'yicha Linux va boshqa unix tizimlarida. Windows uchun gnuwin32 ni o'rnating).

awk -v OFS = " t" '/^# So'rov/{q = $ 3 FS $ 4}/^#.* topilgan topildi/{h [q] = $ 2} END {uchun (i in h) {print i, h [i]}} ning blastoutput.txt

Berilgan mezon bo'yicha xitlar sonini olish uchun (masalan, men bitskor [12 -ustun] ni> 400 deb aniqladim)

awk -F "	" '!/^#/ && $12>400{a[$1]++} END{for(i in a){print i,a[i]}}' blastoutput.txt

BLAST - bu genomning ma'lum bir hududiga xaritani o'qish sonini aniqlash uchun metagenomik tahlilda qo'llaniladigan to'g'ri dastur emas, chunki u ko'p sonli xitlar o'rniga bitta zarbalar uchun optimallashtirilgan.

Metagenomik ma'lumotlar bazasida ko'p sonli zarbalar (ko'p miqdordagi ortiqcha ma'lumotlar mavjud), ehtimol, barcha mumkin bo'lgan urishlarni aniqlash zarur bo'lganda, samarasiz miqyoslash va xotiradan yuqori foydalanishga olib kelishi mumkin.

Agar talab qilinadigan xitlar soni kam bo'lsa, u xitlarni qaytarishi mumkin, lekin agar siz> 1000 dan ortiq xitlarni ko'rib chiqayotgan bo'lsangiz, BWA yoki Bowtie kabi xaritalar dasturidan foydalanish tavsiya etiladi. Ular o'qishlarni (masalan, RNASeq tajribasidan) genomlarga xaritalash uchun mo'ljallangan.


Iqtibos: Kerfeld CA, Skott KM (2011) BLAST-dan foydalanib, "elektron qiymat-tionary" tushunchalarini o'rgatish. PLoS Biol 9 (2): e1001014. https://doi.org/10.1371/journal.pbio.1001014

Seriya muharriri: Cheryl A. Kerfeld, Berkli Kaliforniya Universiteti/JGI, Amerika Qo'shma Shtatlari

Chop etilgan: 2011 yil 1 fevral

Mualliflik huquqi: © 2011 Kerfeld, Skott. Bu Creative Commons Attribution License shartlari asosida tarqatiladigan ochiq maqola boʻlib, asl muallif va manba hisoblangan holda har qanday vositada cheksiz foydalanish, tarqatish va koʻpaytirishga ruxsat beradi.

Moliyalash: CAK va KMSning o'quv dasturlarini ishlab chiqish faoliyati qisman USDA Higher Education Challenge Grant, MOE-2008-02036, shuningdek, KMS uchun NSF MCB-0643713 tomonidan qo'llab-quvvatlanadi. JGIdagi CAK ishi AQSh Energetika Departamentining Fan, biologik va atrof-muhit tadqiqotlari dasturi va Kaliforniya universiteti Lourens Berkli Milliy laboratoriyasi tomonidan DE-AC02-05CH11231 shartnoma raqami ostida, Lourens Livermor Milliy homiyligida. DE-AC52-07NA27344 shartnoma raqami bo'yicha laboratoriya. Moliyachilar tadqiqotni loyihalashda, ma'lumotlarni yig'ish va tahlil qilishda, nashr etishga qaror qilishda yoki qo'lyozmani tayyorlashda hech qanday rol o'ynamadilar.

Raqobat manfaatlari: Mualliflar hech qanday raqobatdosh manfaatlar yo'qligini e'lon qilishdi.

Qisqartmalar: aa, aminokislota BLAST, asosiy mahalliy moslashishni qidirish vositasi NCBI, Milliy biotexnologiya ma'lumot markazi nt, nukleotid


Elektron qiymat nima?

Genlar ketma -ketligining birlamchi homologiyasini baholashning odatiy amaliyoti mahalliy hizalanishdir (masalan, NCBI ’s BLAST), unda kirish ketma -ketligi (“query ”) ma'lum bir ketma -ketlikka mos keladi (“hit ”) ) ketma -ketliklar ma'lumotlar bazasida. So'rov va uning natijasi o'rtasidagi hizalanishning ahamiyatini aniqlash uchun eng ko'p ishlatiladigan o'lchov elektron qiymatdir. Ushbu parametrning hamma joyda mavjudligini hisobga olgan holda, bu nima ekanligini va qanday ishlatilishini tushuntirish uchun qisqa qo'llanma.

Elektron qiymat nima?
Elektron qiymat (kutilayotgan qiymatning qisqartmasi) - tasodifiy qidiruvda tasodifan topilgan zarbadan ko'ra so'rovga teng yoki ko'proq mos kelishi kutilayotgan ma'lumotlar bazasidagi ketma-ketliklar sonini hisoblash. Bu ma'lumotlar bazasida sizning so'rovlaringiz ketma -ketligi uchun teng yoki yaxshiroq mos keladigan chastotani aks ettiradi. Aslida, elektron qiymat tasodifiy fon shovqini tufayli tanlangan zarbaning taxminidir.

Qiymat nimani anglatadi va mumkin bo'lgan elektron qiymatlar diapazoni qanday?
1.0 elektron qiymatining ma'nosi shundaki, siz ma'lumotlar bazasida bitta ketma-ketlik so'rovga mos kelishini kutasiz. 0,0 e-qiymati nol ketma-ketliklar mos kelishi mumkin/kutishini bildiradi yoki e-qiymat nolga qanchalik yaqin bo'lsa, moslik shunchalik ahamiyatli (va potentsial noto'g'ri musbat) deb hisoblanadi.

Elektron qiymatlar noldan nazariy jihatdan cheksizgacha o'zgarishi mumkin bo'lsa-da, ko'pgina elektron qiymatlar ilmiy belgilar bilan ifodalangan 0 dan 1 gacha bo'lgan kasr bo'ladi (masalan, 1e-05 = 0.00001). 1.0 dan yuqori bo'lgan o'yinlar ko'pincha muhim deb hisoblanmaydi (portlash uchun standart chegara, NCBI BLAST qidiruvining eng inklyuzivi - 10.0). Bu ular potentsial gomologik ketma -ketlik emas, degani emas, shunchaki tasodifiy qidiruvda bir nechta yaxshi nomzodlar topiladi.

Elektron qiymatni hisoblash nima bilan bog'liq?
Elektron qiymat = K*m*n*e (-λ*S)
K, λ = m matritsasiga asoslangan konstantalar, n = ikkita ketma -ketlikning uzunligi S = moslashtirish ballari, ular ishlab chiqarilgan hizalanishga asoslangan (hisoblar, mos kelmaslik, bo'shliqlar va hk).

Shuning uchun, elektron qiymat asosan ketma-ketliklarning uzunligiga, ma'lumotlar bazasi hajmiga va olingan tekislash balliga bog'liq. Bu shuni anglatadiki, qisqaroq ketma -ketliklar, ayniqsa murakkabligi pastroq bo'lsa -da, bir -biriga mos kelmaydi (va ko'pincha filtrlanadi). Bundan tashqari, har xil o'lchamdagi ma'lumotlar bazalarini qidirishdan olingan elektron qiymatlarni solishtirib bo'lmaydi. Kichik ma'lumotlar bazasini qidirishda 6e-32 elektron qiymati katta ma'lumotlar bazasidagi 6e-32 elektron qiymatidan kamroq ahamiyatga ega, chunki ma'lumotlar bazasi o'sib boradi, chinakam gomologik ketma-ketlikning mavjudligi ehtimoli tandemda o'sadi, va natijada yolg'on pozitsiya ehtimoli kamayadi.

Elektron qiymat p qiymati bilan bir xilmi?
Yo'q. Elektron qiymat-bu chastota metrikasi, p-ehtimollik metrikasi. Ikkala o'lchov ham so'rovlarni moslashtirishning ahamiyatini aks ettirsa-da, elektron qiymat tasodifan sodir bo'lishi kutilayotgan yaxshiroq moslashtirishlar sonini ifodalaydi, p-qiymati esa, bu tasodif tasodifan sodir bo'lishi ehtimolini ifodalaydi. (Statistik nuqtai nazardan, elektron qiymat-bu p-qiymatining bir nechta test tuzatishidir.)

NCBI o'zining standarti sifatida elektron qiymatdan foydalanadi, chunki u ko'proq ravshanlik va granularlikni ta'minlaydi “masalan, 0,993 va 0,99995 p-qiymatlariga qaraganda 5 va 10 e-qiymatlari orasidagi farqni tushunish osonroq.” Har ikkisi ham mumkin. ishlatilishi mumkin, lekin siz nimani ishlatayotganingizni biling va nima uchun, chunki ular har xil narsalarni ifodalaydi.


Qo'llanma

Kirish
Tabiatdagi, ayniqsa prokariotlar va zamburug'lardagi ko'plab biokimyoviy yo'llar va tizimlar xromosomada, operonlarda yoki gen klasterlarida bir-biriga jismoniy yaqin joylashgan genlar tomonidan kodlangan. MultiGeneBlast bir nechta bashorat qilingan oqsillarni qidirishning asosiy mahalliy moslashtirish vositasi (BLAST) ni birlashtiradi va ularning zarbalarini ota -ona nukleotid iskala joylariga joylashtiradi. Bu ma'lum operon yoki gen klasteriga homolog bo'lgan operonlarni yoki gen klasterlarini topish uchun (homolog qidirish rejimida) yoki ma'lum bir gen kombinatsiyasini o'z ichiga olgan yangi genom lokuslarini topish uchun ishlatilishi mumkin (arxitektura qidirish rejimida). . MultiGeneBlastni grafik foydalanuvchi interfeysi yordamida yoki buyruq satridan ishga tushirish mumkin. Ushbu qo'llanmaning birinchi bo'limlari grafik interfeys yordamida asbobdan qanday foydalanishni tushuntiradi. Yakuniy bo'limda buyruq satridan qanday foydalanish kerakligi tushuntiriladi.


Umumiy ma'lumot: kirish, ma'lumotlar bazalari va chiqish

Gomologiyali qidiruvni kiritish GenBank yoki EMBL nukleotidlarining kanonik fayllaridan, so'rovlar maydonining boshlanish va tugash koordinatalari yoki qidiruv so'rovini tuzadigan yozuvlar genlari ro'yxatidan (joylashuv teglari yoki kirish raqamlari) iborat. Arxitektura qidiruvi uchun kirish bir nechta aminokislotalar ketma -ketligini o'z ichiga olgan FASTA faylidan iborat. Qidiruvni o'rnatayotganda, kirish faylini "Fayl" menyusidagi "Ochiq kirish faylini" tanlash orqali yuklash mumkin. MultiGeneBlast tomonidan qidiriladigan ma'lumotlar bazasi oddiy NCBI Blast+ oqsillar bazasining maxsus versiyasi bo'lib, u har birining nukleotidlarning asosiy kiritilishi haqidagi ma'lumotlarni o'z ichiga olgan fayllarni ( *.cords.tar, *.pinfo.tar, *_all_descrs.txt) o'z ichiga oladi. oqsil va uning genining bu nukleotid kirish joyi. Ma'lumotlar bazasini "Fayl" menyusidagi "Ma'lumotlar bazasini tanlash" tugmasini bosish orqali yuklash mumkin. Keyingi paragraflar sizning qidiruvingiz uchun kirish fayllarini qanday olishni, shuningdek, mos qidiruv ma'lumotlar bazasini qanday olishni tushuntiradi.


Kirish faylingiz tayyorlanmoqda
Tizimingizda mavjud EMBL yoki GenBank faylidan foydalanish Agar tizimingizda nukleotid EMBL yoki GenBank fayli mavjud boʻlgan genomik hudud bilan gomologik qidiruvni amalga oshirmoqchi boʻlsangiz, ushbu faylda mintaqaning DNK ketma-ketligi va CDS funksiyalarining izohlari mavjud boʻlsa, hech qanday tayyorgarlik talab qilinmaydi. (kodlash hududlari). Agar faylda DNK ketma-ketligi yoki CDS izohlari yo'q bo'lsa, quyida aytib o'tilganidek, faylingizning mos versiyasini olish uchun muqobil rejimlardan birini ishlatishingiz mumkin.

Siz tanlagan GenBank yozuvini yuklab olish
Agar siz tanlagan genomik mintaqa GenBank ma'lumotlar bazasidagi nukleotidli yozuvda joylashgan bo'lsa (masalan, genom ketma -ketligi ko'pchilik uchun ham shunday bo'lsa), siz "GenBank yozuvini yuklab olish" tugmasini bosish orqali kirishni qidirishingiz mumkin. "Yuklab olish" menyusi. Agar siz, masalan, Bacillus subtilis -dan menakininon operonining gomologlarini qidirmoqchi bo'lsangiz, klonlangan va ketma -ket joylashtirilgan bo'lsa, "menaquinon" ni kalit so'z sifatida, "Bacillus subtilis" ni kelib chiqishi va raqami sifatida kiritishingiz mumkin. mos keladiganlar qidiruv oynasida paydo bo'ladi. Oʻzingiz tanlagan yozuvni tanlaganingizdan soʻng (bu holda B. subtilis genomining toʻliq ketma-ketligi ham xuddi shunday boʻlishi mumkin), “Yuklab olish” tugmasini bosish orqali uni yuklab olishingiz mumkin.

Annotatsiya qilinmagan ketma-ketlik ma'lumotlari va izohlar jadvalidan EMBL faylini yaratish (mutaxassis foydalanuvchilar) Agar sizda GenBank yoki EMBL formatida hali izohlanmagan o'zingizning ketma-ketlik ma'lumotlaringiz va gen izohlaringiz bo'lsa, genom ketma-ketligi yoki kontigiyasini o'z ichiga olgan nukleotid FASTA faylidan EMBL faylini yaratish uchun Python skripti (format_embl.py) taqdim etilgan. va genlarning joylashuvi va izohlarini o'z ichiga olgan bitta TXT fayli. Skript "format_embl" papkasida joylashgan.
Skriptdan quyidagi tarzda foydalanish mumkin:
1. Quyidagi ustunlarda tuzilgan har bir ekzon / gen to'g'risidagi ma'lumotlarni o'z ichiga olgan jadval bilan ajratilgan "annotationtable.txt" TXT faylini tayyorlang: 1) FASTA faylining nomi yoki genom ketma-ketligi, 2) gen lokus yorlig'i (yagona bo'lishi kerak) , 3) 5 ekson yoki gen boshlanishi, 4) 3 ekson yoki gen oxiri, 5) gen izohi.
2. "Annotationtable.txt" va contig yoki genom ketma -ketligining FASTA fayllarini "format_embl" jildiga nusxalash.
3. Buyruq satriga "python format_embl.py" yozing. Bu buyruq ishlashi uchun kompyuteringizda Python o'rnatilgan bo'lishi kerak. Agar siz Windows tizimidan foydalansangiz, Python o'rnatish katalogini PATH muhit o'zgaruvchingizga ham qo'shishingiz kerak bo'ladi.
4. Agar skript muvaffaqiyatli yakunlansa, sizning genom ketma -ketligingiz yoki kontigingiz uchun EMBL fayli yaratiladi, uni MultiGeneBlast uchun kirish sifatida ishlatishingiz mumkin.
TXT va FASTA fayllariga misollar MultiGeneBlast yuklanishi bilan ta'minlangan va "format_embl" katalogida joylashgan.

Arxitektura qidiruvi uchun bir nechta yozuvli FASTA faylini tayyorlash
Arxitektura qidiruvi uchun kirish sifatida ishlatiladigan bir nechta yozuvli FASTA faylini har qanday matn muharririda, masalan, Notepad (Windows), TextPad (Windows), Notepad ++ (Windows), TextEdit (Mac OS X), Aquamacs ( Mac OS X), Kate (Linux) yoki gedit (Linux). Har bir FASTA yozuvi ">" belgisini o'z ichiga olgan satrdan boshlanishi kerak, so'ngra tavsif, uning ostidagi chiziq yoki satrlarga siz qiziqqan genning amino kislotalar ketma -ketligini joylashtirishingiz mumkin. Proteinlar ketma-ketligini NCBI Protein portalida qidirish va keyin kirish tavsifi ostidagi "FASTA" havolasini bosish orqali osongina topish mumkin. FASTA kirish faylini yaratishni tugatganingizdan so'ng, uni ".fasta" kengaytmasi bilan "All Files (*.*)" Fayl turi sifatida saqlaysiz. Shunday qilib, sizning fayl nomingiz "yourfastfastile.fasta" deb nomlanishi kerak.


Qidiruv ma'lumotlar bazalarini tayyorlash
MultiGeneBlast ma'lumotlar bazalarini yuklab olish yoki yaratish uchun bir nechta variant mavjud. Birinchidan, GenBank -dan barcha yozuvlari bo'lgan MultiGeneBlast ma'lumotlar bazasini gui yordamida yoki ushbu veb -saytdan yuklab olish mumkin. Ikkinchidan, siz kompyuteringizdagi mahalliy fayllardan MultiGeneBlast ma'lumotlar bazasini yaratishingiz mumkin. Uchinchidan, siz bir nechta GenBank yozuvlaridan ma'lumotlar bazasini loyihalashtirishingiz mumkin, ularni NCBI serverida qidirib topishingiz mumkin, shundan so'ng MultiGeneBlast ularni yuklaydi va ma'lumotlar bazasini yaratadi. Nihoyat, ma'lumotlar bazasini GenBank bo'linmalarining pastki qismini ko'rsatish orqali yaratish mumkin, shundan so'ng MultiGeneBlast NCBI FTP serveriga ulanadi, bu bo'linmalarni yuklaydi va ulardan MultiGeneBlast ma'lumotlar bazasini tuzadi.

MultiGeneBlast GenBank umumiy ma'lumotlar bazasini yuklab olish Qulaylik uchun GenBankning barcha aminokislotalar ketma-ketligini o'z ichiga olgan MultiGeneBlast ma'lumotlar bazasini yuklab olish mumkin. Buni "Yuklab olish" menyusidagi "MGB Genbank ma'lumotlar bazasini yuklab olish" tugmasini bosish orqali yuklab olish mumkin. Tabiiyki, ushbu ma'lumotlar bazasidan foydalanish barcha ketma -ketlik oralig'ini to'liq qidirish imkoniyatiga ega, ammo uning kamchiliklari shundaki, uni ishga tushirish uchun ko'p vaqt kerak bo'ladi va tizim xotirasi juda ko'p bo'ladi.

Mahalliy EMBL / GenBank fayllaridan qidiruv ma'lumotlar bazasini yaratish
Agar sizda ma'lum operonlar yoki gen klasterlarini qidirmoqchi bo'lgan o'zingizning ketma-ketlik ma'lumotlaringiz bo'lsa, siz o'zingizning ketma-ketlik fayllaringizdan osongina ma'lumotlar bazasini yaratishingiz mumkin. Buning uchun "Ma'lumotlar bazasi" menyusidagi "Fayllardan ma'lumotlar bazasini yaratish" ni bosing. Ko'rsatilgan oynada, "Fayllarni qo'shish" tugmasini bosish orqali siz tanlagan fayllarni tanlashingiz mumkin. Siz tanlaganingizdan qoniqsangiz, ma'lumotlar bazasini yaratish uchun "Ma'lumotlar bazasini yaratish" tugmasini bosing. Agar siz tblastn algoritmidan izohli genlarda homologiyani izlash uchun blastp algoritmidan foydalanish o‘rniga to‘g‘ridan-to‘g‘ri ma’lumotlaringizdagi xom nukleotidlar ketma-ketligida foydalanmoqchi bo‘lsangiz, pastdagi katakchani belgilashingiz mumkin: “Tblastn-qidiruv uchun xom nukleotidlar ma’lumotlar bazasini yaratish”. . Bu sizga xom nukleotid FASTA ketma-ketligini qo'shish imkonini beradi. Xuddi shu parametr boshqa ma'lumotlar bazasini qurish oynalarida ham mavjud.

NCBI serveridagi GenBank yozuvlaridan qidiruv ma'lumotlar bazasini yaratish
Ko'pincha, siz ma'lumotlar bazasini loyihalashtirmoqchi bo'lgan GenBank yozuvlari kompyuteringizda mahalliy sifatida mavjud bo'lmaydi. "Ma'lumotlar bazasi" menyusidagi "GenBank onlayn yozuvlaridan ma'lumotlar bazasini yaratish" tugmachasini bosganingizda, siz GenBank yozuvlarini qidirishingiz va sizni qiziqtirganlarini oynaning pastki qismida ko'rsatiladigan tanlovga o'tkazishingiz mumkin bo'lgan oyna paydo bo'ladi. Siz tanlaganingizdan qoniqmaguningizcha qidiruv va yozuvlarni qoʻshishda davom etishingiz mumkin, shundan soʻng MultiGeneBlast NCBI serveriga ulanishi, yozuvlarni yuklab olish va maʼlumotlar bazasiga kompilyatsiya qilish uchun “Yuklab olish va maʼlumotlar bazasini yaratish” tugmasini bosishingiz mumkin.

GenBank bo'linmalarining pastki qismidan qidiruv ma'lumotlar bazasini yaratish
Ba'zi hollarda, oldindan tuzilgan GenBank MultiGeneBlast ma'lumotlar bazasi sizning ehtiyojlaringizga to'liq mos kelmasligi mumkin, shu bilan birga siz nisbatan global qidiruv maydonida qidirishni xohlaysiz. Misol uchun, agar siz bakteriyalar ustida ishlasangiz, o'simlik genomlari bilan uzoq homologiyalarni topishga unchalik qiziqmasligingiz mumkin. Shunday qilib, MultiGeneBlast sizga GenBank bo'linmalarining ma'lum bir to'plamidan ma'lumotlar bazalarini yaratishga imkon beradi. "GenBank bo'linmalaridan ma'lumotlar bazasini yaratish" tugmachasini bosganingizda, sizni qiziqtirgan bo'limlarni tanlashingiz mumkin bo'lgan tanlov oynasi paydo bo'ladi. "Ma'lumotlar bazasini yaratish" tugmachasini bosgandan so'ng, MultiGeneBlast NCBI FTP serveridagi GenBank katalogiga ulanadi, mos keladigan faylni yuklab oling. fayllar va ma'lumotlar bazasini yaratish.


MultiGeneBlast ishga tushirishni sozlash
Ma'lumotlar bazasini yaratganingiz yoki yuklab olganingiz va kirish faylingizni tayyorlaganingizdan so'ng, siz qidiruvni boshlashga tayyormiz. Avvalo, tegishli radio tugmachani bosish orqali qaysi qidiruv turini amalga oshirishni tanlashingiz kerak. Keyin, “Fayl” menyusidagi tegishli opsiyalardan foydalanib, kiritish fayli va ma’lumotlar bazasini yuklashingiz mumkin.
Agar siz gomologik qidiruvni o'rnatayotgan bo'lsangiz, bu sizning qidiruv so'rovingiz qaysi fayldan kiritilishini tanlagan vaqtingiz. Siz tanlagan hududni nukleotidlarning boshlang'ich pozitsiyasi va nukleotidning oxirgi pozitsiyasi uchun o'lchov chiziqlari yordamida yoki pastdagi genlarni tanlash vidjetidan foydalanib tanlashingiz mumkin. So'rovlar hududini belgilash uchun genomik pozitsiyalardan foydalanganda, ularni Internetda GenBank yozuvini tekshirish yoki kirish faylini matn muharririda ochish orqali qidirish mumkin. Boshlanish va tugash joylarini aniq belgilashga e'tibor bering, shunda sizning qidiruvingiz aniq bo'ladi va keraksiz hisoblash resurslarini iste'mol qilmaydi. Agar so'ralayotgan hududni o'z ichiga olgan gen nomlari yoki lokus teglarini bilsangiz, "Genlarni tanlash" tugmasini bosish orqali so'rovlar mintaqasini tanlash osonroq bo'ladi. Bu siz tanlagan genlarni tanlashingiz mumkin bo'lgan oyna ochiladi. Tanlashda shift tugmachasini ushlab turish sizga bir vaqtning o'zida butun genlar massivini tanlash imkonini beradi va boshqaruv tugmachasini ushlab turish bir nechta tanlovlarni birlashtirishga imkon beradi. Qidiruv so'rovini aniqlash uchun gen tanlovidan foydalanishning afzalligi shundaki, siz operon yoki genlar klasterining o'rtasida joylashgan, lekin unchalik qiziq bo'lmagan genlarni o'tkazib yuborishingiz mumkin.
Nihoyat, natijalar saqlanadigan chiqish katalogi nomini kiritganingizdan so'ng (MultiGeneBlast o'rnatish papkasida) siz bir qator qidiruv parametrlarining standartini o'zgartirishingiz mumkin:

- Ishlatiladigan protsessor yadrolari soni: tizimingizning MultiGeneBlast ishiga bag'ishlamoqchi bo'lgan protsessor yadrolari sonini o'zgartirishingiz mumkin. Agar siz hali ham ish paytida kompyuterni boshqa narsalar uchun ishlatmoqchi bo'lsangiz, hech bo'lmaganda bitta protsessorni bo'sh qoldirish tavsiya etiladi.
- Xaritaga olinadigan har bir gen uchun Blast xitlari soni: har bir gen uchun uning asosiy genomik hududlari bilan taqqoslanadigan Blast xitlarining maksimal sonini belgilashingiz mumkin. Ko'p hollarda, 250 etarli. Ammo, agar siz qidiruvingiz to'liq ekanligiga to'liq ishonch hosil qilmoqchi bo'lsangiz, siz 500 yoki 1000 ni tanlashingiz mumkin. Boshqa tomondan, agar sizni faqat eng yaqin homologlar qiziqtirsa, 50 etarli bo'lishi mumkin. jarayon.
- Xitlarni saralashda sintez saqlanishining og'irligi: sintetik konservatsiyaning urilgan genlar klasterlarini saralashdagi og'irligini belgilovchi omil. 0,5 ball sinteniyasi saqlanib qolgan qo'shni genlarning har bir juftiga 0,5 ball beradi, genlarning o'z gomologlarining mavjudligi esa har bir gen uchun 1 ballga olib keladi.
- BLAST xitlarining minimal ketma-ketlik qamrovi: bu parametr yordamida siz tahlilda hisobga olinadigan Blast zarbasi uchun Blast zarbasida ishtirok etuvchi so'rov genining minimal foizi uchun chegarani belgilashingiz mumkin.
- BLAST xitlarining minimal % identifikatori: bu variant yordamida siz tahlilda hisobga olinishi uchun BLAST zarbasining minimal foiz identifikatori chegarasini belgilashingiz mumkin.
- Lokusdagi genlar orasidagi maksimal masofa: bu sizga natijalarda bitta zarba bilan bir -biridan farq qiladigan genlarni bitta genomli lokus sifatida sanashga ruxsat berishini aniqlash imkonini beradi. Agar siz transkripsiya bilan bir -biriga bog'langan operonlarni qidirsangiz, buni past qiymatga qo'ying yoki umumiy genomik hududlarni qidirsangiz, uni yuqori qiymatga qo'ying.
- Ko'rsatiladigan zarbalar soni: bu chiqish sahifalarining maksimal sonini aniqlaydi (har bir sahifaga 50 marta urish).
- Gomologlarning so'rovlar bilan mushaklarning hizalanishi: bu katakchaga belgi qo'yilganda, barcha aniqlangan homologlar bilan har bir so'rov genining mushaklari moslashtiriladi. Bu ketma-ketlik darajasida genlar o'rtasidagi o'xshashlikni ko'rish uchun yaxshi havola bo'lishi mumkin va filogenetik daraxtni yaratish uchun MEGA kabi vositaga osongina yuklanishi mumkin.


Yugurishni sozlashni tugatgandan so'ng, qidiruvni boshlash uchun "MultiGeneBlastni ishga tushirish" tugmasini bosing. Qidiruv jarayonining joriy holati haqida sizni muntazam ravishda yangilab turadigan oyna paydo bo'ladi.


Chiqarishni o'qish va sharhlash
Qidiruv tugagach, qidiruv natijalari vizualizatsiyasi bilan brauzer oynasi ochiladi, so'rovingizga eng mos keladigan genomik hududlar saralangan. Agar brauzer oynasi ko'rinmasa, siz natijalar papkasida (MultiGeneBlast katalogida) displeypage1.xhtml faylini qo'lda ochishingiz mumkin.

Har bir zarba uchun chiqishda MultiGeneBlastning umumiy ballari ko'rsatiladi (yig'ilish chegaralariga mos keladigan BLAST xitlar soni va saqlangan sinenitli genlar juftligi sonidan iborat), shuningdek BLAST bitli yig'indisi. Gen strelkalari ranglari Blast homologiyasini ifodalaydi. Agar bir nechta so'rov genlari bir -biriga o'xshash bo'lsa, ular bir xil rangdagi bitta gomologik guruhga birlashadi. Oq gen o'qlari so'rovga Blast zarbasi bo'lmagan genlarni ifodalaydi.
Genni bosgandan so'ng, so'rov genlari tomonidan gen, uning joylashuvi va har qanday Blast xitlari tafsilotlarini izohlaydigan panel ochiladi. Bundan tashqari, NCBI serveridan bitta gen BlastP qidiruvi uchun qidiruv shaklida so'rov sifatida bu genni kiritish uchun yangi brauzer varag'i ochiladigan havola berilgan.

So'rov genlari klasteri va urilgan genlar klasteri o'rtasidagi o'xshashliklarni yaqindan ko'rish uchun yuqoridagi tanlov qutisidan foydalanish mumkin. Agar gen klasteri tanlangan bo'lsa, brauzer oynasida ushbu gen klasteri bilan birga so'rov genlari klasterining kattalashtirilgan SVG ko'rinishi ko'rsatiladi. Umumiy qidiruv natijalariga qaytish uchun o‘ng tarafdagi “Hammasini ko‘rsatish” tugmasini bosing. Ko'proq natijalarga ega bo'lgan natijalar sahifalarida o'tish uchun chiqish oynasining yuqori qismidagi havolalardan foydalanish mumkin.


Xulosa

HMMER veb -serverining ushbu boshlang'ich versiyasida diqqat tezligi va minimallashtirishga qaratilgan. Ko'pgina qidiruvlar 1-2 soniyani oladi, hatto eng katta maqsadli ma'lumotlar bazalarini qidirish. Bizning uzoq muddatli maqsadimiz-qidirish vaqtini yanada qisqartirish, chunki odatdagi qidirish vaqtlari 100-200 milodiy oralig'ida bo'lib, uni inson foydalanuvchilari real vaqtda o'zaro ta'sir sifatida qabul qilishadi. Bu foydalanuvchilarga oqsil ketma -ketligi oralig'ini interaktiv ravishda o'rganishga imkon beradi.

Shuningdek, biz oqsillarni qidirishning to'rtinchi algoritmini qo'llab-quvvatlashni rejalashtirmoqdamiz, jackhmmer , yaqin kelajakda. Bu PSI-BLAST (10) ga o'xshash, bitta so'rovlar ketma-ketligidan boshlab, takroriy qidirish imkonini beradi.

Bizning fikrimizcha, kelajakda hal qilinishi kerak bo'lgan eng muhim muammo bu qidiruv natijalarini vizualizatsiya qilishdir. Ko'p tartibli qidiruvlar nol, bitta yoki bir nechta natijani qaytargan kunlarda, ommaviy rejimdagi jadvalli chiqish etarli edi. Bugungi kunda minglab genomlarning ketma-ketligi bilan odatiy qidiruvlar yuzlab va minglab xitlarni qaytaradi. Eng ma'lumotli o'yinlar, odatda, kam uchraydigan organizmlarda yaxshi izohlanmagan ketma-ketliklarga ko'p sonli o'yinlar bilan berkitiladi. Biz uchun kelajakdagi asosiy maqsad filogenetik daraxtlarda tashkil etilgan natijalarni ko'rsatadigan grafik vizualizatsiyani ishlab chiqishdir. Bu foydalanuvchilarga boshqa natijalarni vaqtincha yashirgan holda, eng kerakli kladlar va organizmlarni ko'rib chiqish imkonini beradi. Bunday paradigma qidirish vaqtini boshqa darajadagi qisqartirish maqsadimiz bilan birlashadi, chunki biz qidiruv va maqsadli ma'lumotlar bazalarini filogenetik chiziqlar bo'ylab tashkil qila olamiz. Dastlabki natijalar ko'rsatiladigan, taniqli yoki xarakterli vakillik organizmlarining bir qismidan iborat standart "ramka" filogeneziga qarshi dastlabki qidiruv o'tkazilishi mumkin. Keyingi chuqurroq qidiruvlar, barcha ketma -ketliklarga kengaytirilgan, faqat foydalanuvchi ma'lum bir bandni chuqurroq ko'rib chiqishni so'raganida amalga oshirilishi mumkin edi. Ushbu paradigma, shuningdek, ketma-ketlik ma'lumotlar bazalarining eksponensial o'sishini boshqarish uchun retseptni taqdim etadi. Ramka filogeniyasi asta -sekin o'sib boruvchi to'liq mos yozuvlar proteomlari to'plami bo'lishi kutilmoqda, qo'shimcha ma'lumotlarning eksponensial portlashi esa o'sha daraxtning kichikroq, yuqori aniqlikdagi shoxlarida yashiringan bo'ladi.


Har bir urish uchun mahalliy BLAST nusxasi soni - Biologiya

HiPR-FISH zondlarining dizayni va tasvirini tahlil qilish

Ushbu kod to'plami numpy, pandas, biopython, bioformats, javabridge, scikit-image, scikit-learn va scipy kabi ochiq kodli paketlardan foydalanadi.

HiPR-FISH tajribalari uchun tasvirni tahlil qilish quvurlari va skriptlari

Ushbu quvur liniyasi mikroblar jamoalarida FISH -ning ko'p qirrali tajribalari uchun tasvirni avtomatik tahlil qilish imkonini beradi. Ko'pgina hollarda, asosiy quvur liniyasi ilon ishlab chiqarish jarayonidir. Bizning maqolamizda taqdim etilgan maxsus tahlillar uchun foydalaniladigan mustaqil skriptlar ham mavjud.

Quvurni ishga tushirishdan oldin

  1. Miniconda o'rnating,
  2. Quyidagi buyruqni ishga tushirish orqali muhitni o'rnating
    hiprfish python = 3.5 ni yaratish
    pandalarni o'rnating
    conda install -c anaconda biopython
    javabridge -ni o'rnatish
    conda install -c bioconda python -bioformats

HiPR-FISH tajribalari uchun zondli dizayn quvuri

Biz Jeykob Virbelga prob dizayni quvurini sinovdan o'tkazishda yordam bergani uchun minnatdorchilik bildiramiz.

Ushbu quvur liniyasi mikroblar jamoalarida FISH -ning ko'p qirrali eksperimentlari uchun ishlatiladigan murakkab oligo problar to'plamini loyihalash imkonini beradi. Asosiy quvur - bu ilon ishlab chiqarish jarayoni. Quvurning ikkita versiyasi mavjud. Hiprfish-prob-dizayn-konsensus versiyasi har bir takson uchun takson konsensus ketma-ketligidan problarni loyihalash orqali konsensus yondashuvidan foydalanadi. Hiprfish-probe-design-molekula versiyasi PacBio ketma-ketligi ma'lumotlar to'plamidan har bir individual 16S molekulasidan problarni loyihalashtiradi va keyingi baholash uchun barcha noyob problarni to'playdi. Probni baholash va tanlash ikkala versiyada ham bir xil.

Quvur liniyasi NCBIdan 16SMicrobial ma'lumotlar bazasining mahalliy nusxasini talab qiladi.


Muhokama

Ushbu ishda biz ortoguruhlarni xulosa qilishning yangi usuli bo'lgan OrthoFinderni taqdim etdik. Bizning uslubimiz ortogrupning aniq ta'rifiga qaratilgan, ya'ni ortogrupda genlari tahlil qilinayotgan turning oxirgi umumiy ajdodida bitta gendan kelib chiqqan barcha genlar bor. Bu ta'rif umumiy nasl -nasabni funktsional konservatsiya kabi ekvivalent bo'lmagan boshqa mezonlar bilan birlashtirishdan saqlaydi. Bizning uslubimiz ortogrup ichidagi individual genlar o'rtasida yuzaga keladigan nomutanosib munosabatlarni tasniflashdan ko'ra, ortogrup xulosasi muammosini hal qilishga mo'ljallangan. Bu munosabatlar birinchi navbatda OrthoFinder yordamida ortogruplarni xulosa qilish, so'ngra bu ortogruppalarda bir nechta ketma -ketlikni tekislash va filogenetik usullarni qo'llash orqali hal qilinadi.

Bizning usulimizning ikkita asosiy yangi xususiyati quyidagilardir: (1) ketma-ketlik o'xshashlik ballaridan gen uzunligi va filogenetik masofani avtomatik ravishda olib tashlash usuli va (2) ortoguruhning ketma-ketlik o'xshashlik chegaralarini aniqlashning yangi usuli. OrthoFenning hamma uchun ochiq bo'lgan yagona ortogruppli benchmark ma'lumotlar to'plamida o'tkazilgan testlarda, ortogrupni tayinlashning barcha usullaridan 8 % dan 33 % gacha ustun keldi. Bundan tashqari, biz OrthoFinder-ning to'liq bo'lmagan genomlarga xos bo'lgan etishmayotgan genlarga nisbatan kengaytiriladigan va mustahkam ekanligini ko'rsatdik. de novo transkriptomli birikmalar. Dastur erkin mavjud va oldindan hisoblangan BLAST ballarini kiritishi mumkin, bu BLAST ballari oldindan hisoblab chiqilgan har qanday yangi ishlab chiqilgan mezonlarda test o'tkazishni osonlashtiradi.

Biz Phytozome V9-da mavjud bo'lgan, to'liq ketma-ket o'simlik genomlarining barcha transkripsiya omillarining yangi tasnifini taqdim etish orqali OrthoFinder-ning foydali ekanligini ko'rsatamiz. Ushbu tahlil 52 744 taxminiy transkripsiya omillarining 97,6 foizini ortoguruhlarga ajratadi. Bu yangi tahlil o'simliklarda transkripsiya faktorlari genlari oilalari o'rtasidagi munosabatlar va evolyutsiyasi to'g'risida yangi tushuncha beradigan ilgari xabar qilinmagan millionlab munosabatlarni aniqlaydi.

Ortologlarni xulosa qilish zamonaviy biologik tadqiqotlarning ko'p qismini tashkil qiladi va genom va transkriptoma sekvensiyasi loyihalarini izohlash va tahlil qilishdagi birinchi qadamlardan biridir. Sekvensiya texnologiyalari hozirda ko'pgina tadqiqot guruhlari byudjetlarida bo'lganligi sababli, bu ma'lumotlar resurslari tez sur'atlar bilan ko'paymoqda. Shunday qilib, an'anaviy hisoblash resurslari bo'yicha mustaqil tadqiqot guruhlari tomonidan osonlikcha bajariladigan, aniq, mustahkam, o'lchovli, ortogruplar xulosasi usuli talab qilinadi. Ko'pgina ortogrup xulosalar usullari umumiy foydalanish uchun mavjud emas, lekin ular statik ma'lumotlar bazasi sifatida taqdim etiladi (masalan, EggNog va TreeFam). Shunday qilib, tadqiqotchilarga o'z ma'lumot manbalarini tahlil qilishga imkon beradigan usullar eng ko'p qo'llaniladi. Shuni hisobga olgan holda, OrthoFinder ishlatish uchun qulay bo'lishi uchun ishlab chiqilgan. Usul bitta buyruq sifatida bajariladi, minimal bog'liqliklarga ega va har bir tur uchun FASTA fayllarining individual ketma -ketligini kiritishni talab qiladi. Algoritm barcha hisob-kitoblarni (jumladan, BLAST qidiruvlari va MCL klasterini) amalga oshiradi va ortoguruhlarni ham oddiy varaq bilan ajratilgan matn faylida, ham OrthoXML hamjamiyat formatida chiqaradi. Algoritmning o'zi kichik, tez va xotirada tejamkor bo'lib, uni Linux ish stoli kompyuterlarida ishlatishga yaroqli qiladi. Algoritm haqida qo'shimcha ma'lumotni [19] saytida topishingiz mumkin va algoritmning mustaqil bajarilishi GPLv3 litsenziyasi ostida [20] mavjud.


Minnatdorchilik

Jeremy Buhler va Kristofer Svoup (Vashington universiteti, Sent-Luis) HMMER2-da Viterbi va Forward ilovalari uchun muhim optimallashtirishga hissa qo'shdilar. Erik Lindahl (Stenford) VMX/Altivec ko'rsatmalariga ega PowerPC protsessorlari uchun HMMER2 ning birinchi SIMD vektorini amalga oshirishga hissa qo'shdi. Aleks Koventri (Kornell), Stiv Jonson (Vashington universiteti, Sent-Luis) va Elon Portugaliya (Ibroniy universiteti) HMMER3 loyihasiga olib kelgan tadqiqot ishlarini olib bordilar. Bjarne Knudsen (CLCbio, Daniya) HMMER3 manba kodini sinchkovlik bilan tahlil qilishga asoslangan bir nechta optimallashtirish va takliflarni kiritdi. Elena Rivas (Janelia Farm) HMMER3 yadrosini sichqoncha ovozini modellashtirish uchun uzluksiz emissiya o'zgaruvchilarini qayta tiklash jarayonida manba kodiga ko'plab tushuntirishlar va yaxshilanishlarni kiritdi. Kosmos faqat ushbu qisqacha shaxsiy tasdiqlarga ruxsat bergan bo'lsa-da, ko'pchilik HMMER3 ning rivojlanishiga hissa qo'shgan va men ushbu keng ishlab chiquvchilar va foydalanuvchilar hamjamiyatiga minnatdorchilik bildiraman. Goran Ceric Janelia Farmning yuqori unumdorlikdagi hisoblash resurslarini mohirlik bilan qo'llab-quvvatladi. HHMI bosh maslahatchisi o'rinbosari Xeydi Xenning ochiq manbali masalalar bo'yicha bebaho yuridik yordam ko'rsatdi. HMMER is a trademarked open source project supported by the Howard Hughes Medical Institute. I dedicate this paper to the memory of my colleague and friend Michael Farrar, principal software engineer on the HMMER3 project, who died unexpectedly in December 2010.


Local BLAST Copy Number per Hit - Biology

About FSA-BLAST

FSA-BLAST is a new version of the popular BLAST (Basic Local Alignment Search Tool) bioinformatics tool, used to search genomic databases containing either protein or nucleotide sequences. FSA stands for Faster Search Algorithm FSA-BLAST is twice as fast as NCBI-BLAST with no loss in accuracy. These speed gains are due to a range of improvements to the BLAST algorithm described in detail in recent scientific publications. The software is freely available for download and open source under the BSD license agreement.

The FSA-BLAST software is designed to be as similar as possible in usage to the NCBI-BLAST application. Results are output in an almost identical format. Most command line options are the same, and parameters such as word length, hit threshold, alignment dropoff and gapped alignment trigger are comparable to NCBI-BLAST. FSA-BLAST uses the exact same statistical analysis to evaluate E-values and normalized scores for alignments.

  • Protein vs protein (BLASTP) and nucleotide vs. nucleotide searches (BLASTN)
  • Query filtering using DUST and SEG low complexity filters
  • Reverse complement nucleotide searches
  • Karlin-Altschul alignment statistics
  • Control over a range of parameters including word length, hit threshold, multiple hit window size, ungapped and gapped dropoff, open and extend gap penalties, scoring matrix, match and mismatch penalties, number of reported/displayed alignments, and gapped alignment trigger score.
  • Protein collection clustering for faster BLASTP searches
  • XML and tabular output (New as of version 1.03)
  • Searches with multiple queries (New as of version 1.03)

Download and installing

FSA-BLAST is available for download as source code or precompiled binaries for x86 Linux and PowerMac G5 systems:

Decompress the above files using the following commands:

gzip -d fsablast105-source.tar.gz
tar -xf fsablast105-source.tar

To compile the software type:

Which will generate the following binaries:

Usage instructions

Before searching a collection, you will first need to format it using the formatdb tool provided with FSA-BLAST. Note that this tool is different from the formatdb application that comes with NCBI-BLAST which uses a different format. The tool will generate three files with extensions .data .sequences va .descriptions in the same directory as the collection. The following illustrates how to format a collection: ESLATMA: To format a collection for use with FSA-BLAST you will need the database to be in FASTA format. To convert a database from NCBI-BLAST format (with files extensions such as nhr, nin, nsq, phr, pin, and psq) back to FASTA format you will need to use the fastacmd tool that comes with the NCBI toolkit (in the /build directory).

Once the collection has been formatted you can search it with blast using a command such as follows: Which will produce output looking like: To view a complete list of BLAST parameters simple execute: To perform faster protein BLAST searches, you can cluster the collection using the cluster command: BLAST searches against the clustered database will then be faster. The amount of redundancy in the original collection will affect the speed increase obtained by clustering, although our experiments have shown a 22% speed increase when searching the GenBank NR database.

Also provided is a tool for converting a formatted collection back into FASTA format. The command:

will output the database to stdout in FASTA format.

Hujjatlar

The following papers describe improvements to the BLAST algorithm used by FSA-BLAST to increase search speed without any loss in accuracy:

M. Cameron, H.E. Williams, and A. Cannane, ``Improved Gapped Alignment in BLAST'', IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(3), 116-129, 2004. Download PDF

M. Cameron, H.E. Williams, and A. Cannane, ``A Deterministic Finite Automaton for Faster Protein Hit Detection in BLAST'', Journal of Computation Biology, 2005. To appear. PDF yuklab olish

M. Cameron and H.E. Williams, ``Comparing Compressed Sequences for Faster Nucleotide BLAST Searches'', manuscript in preparation.

M. Cameron, Y. Bernstein, H.E. Williams, ``Clustering Near-Identical Sequences for Fast Homology Search'', Proc. International Conference on Research in Computational Molecular Biology RECOMB. To appear. PDF yuklab olish

Y. Bernstein, M. Cameron, ``Fast Discovery of Similar Sequences in Large Genomic Collections'', Proc. European Conference on Information Retrieval ECIR. To appear. PDF yuklab olish


Muallif haqida ma'lumot

Aloqalar

Department of Microbiology and Molecular Genetics, Michigan State University, East Lansing, MI, 48824, USA

Taylor K. Dunivin & Ashley Shade

Environmental and Integrative Toxicological Sciences Doctoral Program, Michigan State University, East Lansing, MI, 48824, USA

Institute for Cyber-Enabled Research, Michigan State University, East Lansing, MI, 48824, USA

Program in Ecology, Evolutionary Biology and Behavior, Michigan State University, East Lansing, MI, 48824, USA

Department of Plant, Soil, and Microbial Sciences, Michigan State University, East Lansing, MI, 48824, USA

Plant Resilience Institute, Michigan State University, East Lansing, MI, 48834, USA


Videoni tomosha qiling: Operatsion maydonga ishlov berish (Avgust 2022).