Ma `lumot

Ultrametrik masofa matritsasini hisoblash

Ultrametrik masofa matritsasini hisoblash



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Men filogenetik tahlil uchun juda yangiman, shuning uchun bu asosiy savol deb o'ylayman. Agar menda bir nechta ketma -ketlik ketma -ketligi bo'lsa va men oxir -oqibat faqat juftlik masofasi haqida qayg'ursam (masalan, filogenetik xilma -xillikni hisoblash uchun), bu masofalar avval daraxtni o'zi hisoblamasdan turib, ultrametrik daraxtni aks ettirishiga ishonchim komilmi? Men shuni aytishim mumkinki, ultrametrik masofa matritsasini yaratish uchun men birinchi navbatda ultrametrik daraxtni hisoblashim kerak va keyin masofalarni olish uchun bu daraxtdan foydalanishim kerak. Ammo bu menga biroz orqaga o'xshab ko'rinadi, chunki men daraxt yaratmasdan juftlik masofasi matritsasini yaratishim mumkin, lekin bu matritsa qandaydir asosiy molekulyar soatni qabul qilishini ta'minlashning bir usuli bor yoki yo'qligini ayta olmayman. masofalar ultrametrik daraxtni aks ettirganligiga ishonch hosil qiling.

O'ylaymanki, men nimanidir tushunolmayapman. Har qanday yordam juda qadrlanadi.


Mening tushunchamga ko'ra, siz daraxt konstruktsiyasini o'tkazib yubora olmaysiz, chunki juftlik masofalari, hatto ultrametrik bo'lmagan daraxtlar uchun ham daraxtga mos kelishiga kafolat yo'q. Ya'ni, daraxt barglari orasidagi patristik masofalarni aks ettiruvchi juftlik masofa matritsasi yaratish uchun avval daraxt yaratishingiz kerak. Hatto ultrametriklik holatisiz ham.

Bu erda murakkablashtiruvchi omil shundaki, daraxtlarga mos keladigan masofa matritsalari kuzatilmagan ichki tugunlargacha bo'lgan masofani ham hisobga olishi kerak ... Daraxtni ultrametrik qilish haqidagi ushbu blog posti tegishli bo'lishi mumkin.


Biotik yangilikni o'lchash uchun ko'p o'lchovli asos: jamiyat qanchalik yangi?

Konrad Shittko, Biologik xilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya.

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Biologiya instituti, Freie Universität Berlin, Berlin, Germaniya

Leybnits-Chuchuk suv ekologiyasi va ichki baliqchilik instituti (IGB), Berlin, Germaniya

Bioxilma -xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Qayta tiklash ekologiyasi, Myunxen texnika universiteti, Freising, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Berlin, Technische Universität Universiteti, Ekologiya, ekotizim fani/O'simliklar ekologiyasi bo'limi, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya bo‘limi, ekotizim fanlari/o‘simliklar ekologiyasi

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Bioxilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Landshaft va ochiq fazo instituti, HSR Hochschule für Technik, Rapperswil, Shveytsariya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Biologiya instituti, Freie Universität Berlin, Berlin, Germaniya

Leybnits-Chuchuk suv ekologiyasi va ichki baliqchilik instituti (IGB), Berlin, Germaniya

Bioxilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Konrad Shittko, Biologik xilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya.

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Biologiya instituti, Freie Universität Berlin, Berlin, Germaniya

Leybnits-Chuchuk suv ekologiyasi va ichki baliqchilik instituti (IGB), Berlin, Germaniya

Bioxilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya

Berlin-Brandenburg ilg'or biologik xilma-xillik tadqiqot instituti (BBIB), Berlin, Germaniya

Qayta tiklash ekologiyasi, Myunxen texnika universiteti, Freising, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Technische Universität Berlin, Berlin, Germaniya, Ekologiya boʻlimi, ekotizim fanlari/oʻsimliklar ekologiyasi

Bioxilma-xillikni tadqiq qilish/tizimli botanika, Potsdam universiteti, Potsdam, Germaniya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Landshaft va ochiq fazo instituti, HSR Hochschule für Technik, Rapperswil, Shveytsariya

Berlin-Brandenburg Biologik xilma-xillikni ilg'or tadqiqotlar instituti (BBIB), Berlin, Germaniya

Biologiya instituti, Freie Universität Berlin, Berlin, Germaniya

Leybnits-Chuchuk suv ekologiyasi va ichki baliqchilik instituti (IGB), Berlin, Germaniya


Abstrakt

Iqlim, erdan foydalanish va buzilish rejimlarining antropogen o'zgarishlari, shuningdek, mahalliy bo'lmagan turlarning introduksiyasi ko'plab ekotizimlarning o'zgarishiga olib kelishi mumkin. Natijada paydo bo'lgan yangi ekotizimlar odatda ma'lum bir hududda ilgari bo'lmagan turlar birikmasi bilan tavsiflanadi. Jamiyatlarning ekologik yangiligini (ya'ni, biotik yangilik) miqdoriy baholash atrof-muhit o'zgarishini tushunishni kuchaytiradi. Biroq, miqdorni aniqlash qiyinligicha qolmoqda, chunki hozirgi yangilik o'lchovlari, masalan, jamiyatda mahalliy bo'lmagan turlarning soni va/yoki nisbati, biotik yangilikning funktsional va evolyutsion jihatlarini hisobga olmaydi. Bu erda biz biotik yangilik indeksini (BNI) taklif qilamiz, bu intuitiv va moslashuvchan ko'p o'lchovli o'lchov bo'lib, u (a) mahalliy va mahalliy bo'lmagan turlar o'rtasidagi funktsional farqlarni (b) turlar kiritilishining vaqtinchalik dinamikasini birlashtiradi. Biz ko'rsatamizki, BNI Rao kvadratik entropiyasining qo'shimcha qismi bo'lib, jamoaning funktsional xilma-xilligining yangi o'zaro ta'sir komponentini qamrab oladi. Simulyatsiyalar shuni ko'rsatadiki, indeks yaqinda kelgan turlar tomonidan qo'shilgan funktsional yangilikning nisbiy miqdori bilan taxminiy ravishda o'zgaradi va ular indeksning qo'shimcha standartlashtirilgan versiyasini taqdim etish zarurligini ko'rsatadi. Biz batafsil R kodini va BNIning ikkita ilovasini taqdim etamiz: (a) metropolitan mintaqadagi urbanizatsiya gradienti bo'ylab quruq o'tloq o'simliklari jamoalarining biotik yangiligining o'zgarishini o'lchash va (b) milliy miqyosda o'simlik turlari birikmalarining biotik yangiligini aniqlash. . Natijalar indeksning shkalalar bo'yicha qo'llanilishini va uning turli sifatdagi ma'lumotlardan foydalanishda moslashuvchanligini ko'rsatadi. Ikkala amaliy tadqiqotlar ham abiotik yangilik o'lchovi bo'lgan biotik yangilik va ortib borayotgan urbanizatsiya o'rtasidagi kuchli aloqalarni aniqladi. Biz BNI asosi global o'zgarishlarning ekologik va evolyutsion oqibatlarini yaxshiroq tushunish uchun asos yaratishga yordam berishi mumkin degan xulosaga keldik.


Natijalar

Filogenetik rekonstruksiyaga qo'pol donli yondashuv

1-rasmda tavsiya etilgan CGP algoritmi ARG rekonstruksiyasidan voz kechib, ularning filogenetik daraxtini aniqlash uchun genom juftlarining mahalliy yagona sayt polimorfizmlari (SSP) zichligi taqsimotiga qanday mos kelishi haqida qisqacha tasvirlangan. Xulosa qilib aytganda, CGP genomik ketma-ketlik divergentsiyasi evolyutsiyasini miqdoriy jihatdan tavsiflovchi matematik modelga asoslanadi [5, 6] bu model nukleotidlar ketma-ketligi va aminokislotalar ketma-ketligiga nisbatan qo'llaniladi va past rekombinatsiya tezligini nazarda tutmaydi. Rekombinatsiya yuqori zichlikdagi almashtirishlar bilan tavsiflangan DNK cho'zilishlarini kiritishi mumkin va model genomik segmentlarda aniqlangan almashtirish zichligini hisobga oladi. Nukleotidlar ketma-ketligi (yoki aminokislotalar ketma-ketligining mos keladigan birikmasi) ketma-ket ketma-ket ketma-ket bo'lmagan segmentlar zanjiriga bo'linadi, ularning har biri ls bir juft genom uchun saytlar, biz SSP tarqatilishini olish uchun har bir segmentda SSPlarni sanab o'tamiz. CGP algoritmi kirish sifatida ko'rib chiqilgan har bir juft genomning SSP taqsimotini oladi. Ikki genomning birlashishi vaqtini CGP modelini empirik SSP taqsimotiga moslashtirish orqali aniqlash mumkin. O'rtasida merosning vertikal komponentini tavsiflovchi ultrametrik daraxt n genomlarni birlashish vaqtidan xulosa qilish mumkin n(n-1)/2 empirik SSP taqsimoti, tenglamaning ball funktsiyasi tomonidan amalga oshiriladi. (3) (Usullar). Biz CGP algoritmini ishlab chiqdik, u eng yuqori ballga olib keladigan daraxt va parametrlarni aniqlab, model + daraxt maydonidan namuna olish uchun Monte-Karlo simulyatsiyasidan foydalanadi. Misol tariqasida, 2-rasmda CGP va RAxML tomonidan rekonstruksiya qilingan filogenetik daraxtlar va turli xil algoritmlar bilan qayta tiklangan daraxtlar uchun S3-rasmda taqqoslangan.

Taklif etilayotgan CGP algoritmi tartibini tasvirlash. a Algoritm oladi n nukleotidlar ketma-ketligi yoki aminokislotalar ketma-ketligi bo'lishi mumkin bo'lgan kirish sifatida tekislangan ketma-ketliklar rangli markerlar bilan ifodalanadi. b Har biri n(n-1)/2 genom juftlari teng o'lchamli segmentlarga bo'linadi va har bir segmentdagi juftlik bilan almashtirish mahalliy SSP zichligi taqsimotini olish uchun sanab o'tiladi (deb belgilanadi) g(x)). v Algoritm genom ketma-ketlik juftlarining masofa matritsasi haqida xulosa chiqarishga qaratilgan. n(n-1)/2 SSP taqsimoti. d Xususan, algoritm empirik SSP taqsimotlariga mos keladi, bu modelning kiritilishi matritsani o'z ichiga oladi. n(n-1)/2 birlashish vaqti va boshqa model parametrlari (mutatsiya tezligi) m, rekombinatsiya tezligi r, aholining o'rtacha farqlanishi th va uzatish samaradorligi dTE). e O'rnatish jarayonida, n(n-1)/2 birlashish vaqti cheklangan (bir xil rangdagi matritsa hujayralari bir xil qiymatga ega), shuning uchun matritsani ikki tomonlama UPGMA daraxtiga solishtirish mumkin. f algoritm ultrametrik daraxtga eng mos keladigan model parametrlari maydoni va daraxt maydonini o'rganadi


Masofa matritsasini hisoblash

Bu erda men dist() R funksiyasidan foydalangan holda masofa matritsasini hisoblashni ko'rsataman.

Birinchidan, ishlash uchun kichik ma'lumotlar to'plamini tayyorlaylik:

Ushbu ma'lumotlar to'plami 3 o'lchovli fazoda qanday ko'rinadi?

Biz 4 va 6 nuqtalar bir-biridan ancha uzoqda ekanligini ko'rishimiz mumkin.

Biz hisoblaydigan birinchi masofa matritsasi Evklid masofasi bo'ladi, chunki u tushunish uchun eng oson va dist() ning standarti hisoblanadi. Evklid masofasi oddiygina, masalan, o'lchagich bilan jismoniy o'lchash mumkin bo'lgan masofa. N-o'lchovlar uchun nuqtalar orasidagi Evklid masofasining formulasi p va q bu:

Masofa matritsasida yuqorida ko'rib turganimizdek, 4 va 6 nuqtalar orasidagi masofa 12691 (biz formuladan foydalanib hisoblaganimizdek) va ikkita eng uzoq nuqtadir (biz 3D tarqalish chizmasida ko'rganimizdek).

Keyingisi “maksimal” usuli. Agar? Dist yozsangiz, siz maksimal ta'rifini olishingiz mumkin

X va y ning ikkita komponenti orasidagi maksimal masofa (yuqori norma)

Rostini aytsam, bu nimani anglatishini menda hech qanday tasavvurga ega emasman, shuning uchun keling, ’s.

Minkovski masofasi Evklid fazosi bo'yicha ko'rsatkich bo'lib, uni Evklid masofasi va Manxetten masofasining umumlashtirilishi sifatida ko'rib chiqish mumkin.

Turli masofaviy o'lchovlar asosida klasterlash

Men uchun eng muhim savol turli masofaviy hisoblar ma'lumotlardagi munosabatlarga qanday ta'sir qilgani edi.

O'rtacha bog'lanish yordamida har bir masofali matritsani hisoblash usuli bilan bir xil munosabatlar saqlanib qoldi (bu tasodifiy ma'lumotlar to'plami uchun).

Masofaviy matritsalar orasidagi korrelyatsiya

Mantel testi R-da amalga oshirilgan va ade4 paketining bir qismi bo'lgan ikkita masofali matritsalar o'rtasidagi korrelyatsiyani amalga oshiradi.

Minkovskiy masofasini Evklid va Manxetten masofalarini umumlashmasi deb hisoblash mumkin, shuning uchun biz yuqori korrelyatsiyalarni kuzatdik (mos ravishda 0,98 va 0,96).

Kanberra masofasi Manxetten masofasi bilan bog'liq bo'lsa -da, ikkita masofa matritsasi o'rtasida hech qanday bog'liqlik yo'q.

Xulosa

Turli xil masofa o'lchovlari ma'lumotlar to'plamidagi munosabatlarga keskin ta'sir qilishi mumkin. Masofaviy matritsalarning korrelyatsiyasini solishtirishning usullaridan biri ade4 paketi doirasida R-da amalga oshiriladigan Mantel testidir.

Shuningdek qarang

Ushbu qo'llanma 3D tarqalish chizmasidagi nuqtalarni belgilash (va 3D scatter chizmalarini qanday qilish kerak).

Salbiy masofalar

Yaqinda (2017 yil noyabr) men ma'lumotlar nuqtalari o'rtasida xabarlarni o'tkazish yo'li bilan klasterlash qog'ozidan salbiy masofalar, xususan, salbiy kvadrat Evklid masofasi haqida bilib oldim. R paketi klasteri negDistMat() funksiyasini o'z ichiga oladi, undan manfiy kvadrat Evklid masofasini (va boshqalarni) hisoblash mumkin.

Klasterlash qog'ozida aytilganidek, ballar uchun va ,

Mana, R-da amalga oshirish.


/>
Bu ish Creative Commons litsenziyasiga ega
Attribution 4.0 xalqaro litsenziyasi.

Buni baham ko'ring:

Shunga o'xshash:

Bog'liq

Dist ma'lumotlarini ko'p o'lchovli o'lchashni ham sinab ko'rdingizmi?

Yo'q, men buni sinab ko'rmadim. Buning natijalarini qanday izohlashimga ishonchim komil emas.

Salom,
Menga vaziyatimga yordam bera olasizmi deb o'yladim. Men ekologik ma'lumotlarim uchun Mantel testini o'tkazyapman, o'rmonda turli xil transektalar qildim va har bir transektada fokal o'simliklarimning evklid masofalari bor. Shunday qilib, hammasi yaxshi, men koordinatalardan foydalanmasdan matritsalarimni yarata olaman va har bir transektda Mantel testini qila olaman.
Ammo, endi men butun jamoam (barcha transektsiyalar) fazoviy avtokorrelyatsiyaga ega yoki yo'qligini bilmoqchiman. Menda har bir transekt uchun GPS koordinatalari bor, lekin har bir o'simlik uchun EMAS, bu ishlarni murakkablashtiradi, chunki men har bir o'simlik uchun transektlar orasidagi masofani bilmayman. Shuning uchun men transektalar orasidagi masofani bilishim mumkin (mening koordinatalarimni evklid masofalariga aylantirish orqali), lekin fokal o'simliklar orasidagi masofani qanday yaratishim mumkin?
Buni tushuntirish juda qiyin, shuning uchun men mantiqiy bo'ldim deb umid qilaman. Meni to'g'ri yo'nalishga olib boradigan qog'ozni bilasizmi? yoki buni qanday qilishni bilasizmi?
Vaqtingiz uchun rahmat.

savol uchun rahmat, lekin afsuski, u mening tadqiqot sohamdan biroz tashqarida (men transekt nima ekanligini ham bilmayman).

Agar sizda har bir o'simlikning koordinatalari, masalan, transektning markaziga va transektlar markazlarining koordinatalariga nisbatan bo'lsa, u holda siz koordinatalarni qo'shish orqali har bir o'simlikning koordinatalarini topishingiz mumkin.

R_plant = R_transect + r_plant_in_transect.

Bu o'simliklar uchun belgilangan joyga nisbatan o'lchangan koordinatalar mavjud bo'lganda ishlaydi (nafaqat masofa, lekin koordinatalar masofa + qutb burchagi shaklida bo'lishi mumkin).

Rahmat! Muammoni hal qildim. Eng muhimi shundaki, menda har bir o'simlik uchun GPS koordinatalari yo'q.


Keling, tenglamaning tarkibiy qismlarini birma -bir ko'rib chiqaylik, chunki har bir qismni o'z -o'zidan tasvirlash osonroq. Biz buni qila olamiz, chunki ular $ Q_ hisoblashda qo'shilgan.$ . 1-komponent, $(m-2)d_$, biz $ m $ ketma -ketligi uchun har bir masofa $ d_ bo'lsa, biz umumiy jazo bo'ladigan miqdorni xohlayotganimizni aytadi.$ o'zaro 2 ta masofani hisobga olmaganda (bu to'g'ridan-to'g'ri proportsionallikdir, shuning uchun $Q_ propto (m-2)d_$). 2-komponent, $left(sum_d_o'ng)$, deydiki, biz $i$ ketma-ketligi o'zidan tashqari barcha boshqa ketma-ketliklarga nisbatan ega bo'lgan masofalar yig'indisiga qaraymiz (bu teskari proportsionallik bo'lib, $Q_ propto left(sum_d_ ight)^<-1>$ ) va $left(sum_)d_ o'ng) $ komponent3 sifatida o'xshash.

to'g'ridan-to'g'ri bo'lmagan qo'shnilar filogenetik daraxtda mavjud bo'lgan 2 ta ketma-ketlik (hizalamadagi ketma-ketliklar) ularni bir-biriga bog'lay oladigan boshqa ketma-ketlik to'plamiga ega ekanligini anglatadi. Agar ikkita ketma-ketlik bir-biri bilan aniq bog'liq bo'lsa, filogenetik daraxtda ular bifurkatsiyani va o'zaro eng kichik masofani hosil qiladi. bevosita tegishli, $(m-2)d_ < left(sum_d_ + sum_d_ ight)$, masalan. $d_=1$ va qolganlari 1 dan katta bo'lsa, bizga past raqam beradi. Agar $f_<>>(d_$ ishlatiladi, biz komponent1 uchun maksimal masofani ishlatamiz, shuning uchun umumiy o'lchov ijobiy va iloji boricha katta bo'ladi.

Xulosa qilib aytganda, u ketma-ketliklarni eng yaqin masofa bilan birga joylashtirish uchun o'lchovni beradi. Siz buni "ortiqcha" deb aytishingiz mumkin, chunki biz $m^2/2-m$ masofalar to'plamini qidirishimiz va minimalni tanlashimiz mumkin. Daraxt etishtirish maqsadiga ko'ra, narsalar yanada qiziqarli bo'ladi. Aytaylik, kattaroq $m$ toʻplamining 3 ta $i,j,k$ ketma-ketligini koʻrib chiqaylik va ketma-ketliklar birgalikda $d_ orasidagi masofa bir xil ekanligini koʻramiz.=d_$ i $ ga nisbatan. $d_=d_$ j$ boshqa barcha ketma-ketliklarga $i$ ga bo'lgani kabi teng masofada ekanligini bildiradi va $d_ deylik.=max land d_=d_$ ($k$ ketma-ketligi ma'lum $z$ ketma-ketligidan tashqari barcha ketma-ketliklarga teng masofadir va hizalanishdagi ba'zi mintaqalarda sodir bo'lishi mumkin). $i$ bilan qaysi biriga qo'shilamiz? Formulaga ko'ra, biz $k$ ni $j$ dan ko'ra tanlaymiz, chunki $k$ boshqa ketma-ketlik(lar) dan uzoqroq, chunki u ko'proq manfiy sonni ta'minlaydi (ikkinchi va uchinchi komponentlarning pastroq qiymatlari sabab bo'ladi, ammo komponent 1 bir xil bo'lsa ham. ikkala holat). Samarali ravishda biz minimal masofani $i$ ga va bir vaqtning o'zida boshqa ketma-ketliklardan maksimal masofani istaymiz (boshqa ketma-ketliklar bilan chambarchas bog'liq bo'lishi mumkin bo'lgan ketma-ketliklarni jazolash umumiy yaxshi daraxtni yaratishga yordam beradi).

Anders Gorm Pedersen (DTU) uning coursera videolarida (shuningdek, YT da) raqamlarning misol daraxtida qanday ishlab chiqarilishini ko'rish uchun bir necha raqamli misollar beradi.


UPGMA va WPGMA daraxtlari

Filogenetik daraxtlarni bir nechta ketma-ketlik hizalamalaridan (MSA) aniqlashning ikkita bog'liq usuli bu arifmetik o'rtacha bilan og'irlashtirilmagan juftlik guruhi usuli (UPMGA) va arifmetik o'rtacha vaznli juftlik guruhi usuli (WPGMA). Ikkalasi ham pastdan yuqoriga klasterlash usullari bo'lib, avval o'xshash ketma-ketliklarni, keyin esa uzoqroq ketma-ketliklarni ulash orqali ishlaydi.

UPGMA va WPGMA ultrametrik daraxtlarni chiqaradi. Bular quyidagi tarzda chizilishi mumkin bo'lgan daraxtlardir vaqt o'qi va uchlari bir vaqtning o'zida joylashgan joy t = 0. UPGMA va WPGMA taxmin qilingan daraxtlarning vaqt o'qi har bir sayt uchun almashtirishda.

Agar daraxt bo‘ylab ildiz tugunidagi ajdodlar ketma-ketligining doimiy almashinish (yoki mutatsiya) tezligida uchlarigacha bo‘lgan evolyutsiyasi natijasida bir nechta ketma-ketlik moslashuvi hosil bo‘lsa, ketma-ketlik “soatga o‘xshash” deyiladi. O'zgartirish qachon darajasi ketma-ketligi ma'lum bo'lsa, genetik masofalar vaqtga aylantirilishi mumkin. Boshqacha qilib aytganda, hozirgi ketma-ketliklar o'tmishdagi tugunlarning aniq vaqtini hisoblash uchun soat sifatida ishlatilishi mumkin!

Chap tomondagi daraxtni ko'rib chiqaylik, bu erda vaqt o'qi (y o'qi) har bir saytga almashtirishda bo'ladi: Aytaylik, almashtirish tezligi har bir sayt uchun million yilda 0,01 almashtirish. Keyin millionlab yillarga teng bo'lgan o'ng tomondagi daraxtni olish uchun y o'qini shu tezlik bilan o'zgartirishimiz mumkin:

Xulosa qilingan daraxtlar ultrametrik bo'lganligi sababli, UPGMA va WPGMA ketma-ketlik ma'lumotlarini molekulyar soat tomonidan yaratilgan deb bilvosita taxmin qilishadi. Agar molekulyar soat buzilgan bo'lsa, bu usullardan foydalanmaslik kerak.

Endi biz yuqoridagi misol daraxtidan ketma-ketliklarni simulyatsiya qilishni o'rganamiz va simulyatsiya qilingan MSA dan foydalanib, asl daraxtni qayta tiklash uchun foydalanamiz. UPGMA. Bizning misol daraxtimizni quyidagi Newick qatori yordamida kodlash mumkin:

Agar biz ushbu qatorni “example.tree” nomli fayl sifatida saqlasak, MSA yaratish uchun nukleotid va aminokislotalar ketma-ketligini simulyatsiya qilish vositasi Seq-Gendan foydalanishimiz mumkin. Quyidagi buyruq uzunligi 30 belgidan iborat nukleotidlar ketma-ketligini tanlaydi, MSA yaratish uchun Jukes-Cantor modeli ostida uni ishlab chiqadi va uni “example.phy” nomi bilan yangi faylga saqlaydi:

seq-gen -mHKY -l30 -op example.tree > example.phy

Yuqoridagi buyruq yordamida yaratilgan MSA misoli quyidagicha:

UPGMA (yoki WPGMA) yordamida daraxtni qayta qurishda birinchi qadam ketma-ketlik ma'lumotlaridan masofa matritsasini hisoblashdir. Biz bu erda yana Jukes-Cantor modelini qo'llaymiz, bu esa masofa matritsasini hisoblashni ahamiyatsiz qiladi. Avval MSAdagi har bir ketma-ketlik juftligi orasida farq qiluvchi saytlar sonini hisoblang:

A B C D E
A 0 13 15 15 15
B 13 0 14 16 15
C 15 14 0 8 13
D 15 16 8 0 14
E 15 15 13 14 0

Shundan kelib chiqib, har bir ketma-ketlik juftligi orasidagi P-masofasini hisoblang. Bu shunchaki nisbat farq qiladigan saytlar yoki yuqoridagi elementlar ketma -ketlik uzunligiga bo'linadi, bu holda bu 25:

A B C D E
A 0.00 0.52 0.60 0.60 0.60
B 0.52 0.00 0.56 0.64 0.60
C 0.60 0.56 0.00 0.32 0.52
D 0.60 0.64 0.32 0.00 0.56
E 0.60 0.60 0.52 0.56 0.00

Jukes-Cantor modeli ostida genetik masofa oddiygina -(3/4) × log (1 - (4/3) × p), qayerda p bu P-masofa:

A B C D E
A 0.00 0.89 1.21 1.21 1.21
B 0.89 0.00 1.03 1.44 1.21
C 1.21 1.03 0.00 0.42 0.89
D 1.21 1.44 0.42 0.00 1.03
E 1.21 1.21 0.89 1.03 0.00

Endi biz bir vaqtning o'zida masofa matritsasini bir satr va ustunga qisqartirish orqali daraxtni qurishimiz mumkin. Avval pastroq qiymatga ega bo'lgan masofa matritsasining diagonaldan tashqari elementini aniqlang. Bunday holda, u D ustuniga C qatori (yoki aksincha matritsa nosimmetrik bo'lgani uchun), qiymati 0,42. Ushbu qiymatning yarmini C va D ni birlashtiradigan tugunning balandligi sifatida ishlating.

Ikki qator va ikkita ustunni birlashtiring. Biz ushbu tugunni raqam bilan belgilashimiz mumkin 5, barg tugunlari uchun 0 dan 4 gacha bo'lgan raqamlarni bo'sh qoldiring. Yangi satrdagi har bir element uchun uning qiymatini mos keladigan tugunlar ostidagi taksilar soniga qarab tortilgan dastlabki masofalarning o'rtacha qiymati sifatida hisoblang. Misol uchun, 5 dan B gacha bo'lgan masofani hisoblashda asl masofalar 1,03 (C dan B gacha) va 1,44 (D dan B gacha). C qator uchun mos tugun ostida bitta takson (C) va D uchun mos keladigan tugun ostida bitta takson (D) mavjud.

Shuning uchun yangi masofa (1,03 × 1/2) + (1,44 × 1/2) = 1,23. Yangi satr va ustunning qolgan qismini to'ldirish:

A B 5 E
A 0.00 0.89 1.21 1.21
B 0.89 0.00 1.23 1.21
5 1.21 1.23 0.00 0.96
E 1.21 1.21 0.96 0.00

Diagonaldan tashqari eng past qiymat endi 0,89, shuning uchun biz A va B ni birlashtiramiz. A-B tugunining balandligi 0,5 × 0,89 = 0,44 bo'ladi. A va B qatorlari va ustunlarini oldingi kabi o'rtacha o'rtacha qiymatlardan foydalanib birlashtiring:

6 5 E
6 0.00 1.22 1.21
5 1.22 0.00 0.96
E 1.21 0.96 0.00

Diagonaldan tashqari eng past qiymat endi 0,96, shuning uchun biz E va ichki tugunni birlashtiramiz 5. Yangi tugun balandligi 0,48 bo'ladi. Yangi masofa matritsasini hisoblash og'irlik qanday ishlatilishini yaxshi ko'rsatadi. E qatori uchun mos keladigan tugunning ostida bitta takson (E), 5 -qatorda mos keladigan tugunning ostida ikkita takson (C va D) bor. 6 dan 7 gacha bo'lgan masofa ularning taksonsizliklari hisoblangan dastlabki masofalarning o'rtacha qiymati bo'ladi. = (1,21 × 1/3) + (1,22 × 2/3) = 1,22.

6 7
6 0.00 1.22
7 1.22 0.00

Shuning uchun ildiz tugunining balandligi 1,22 × 0,5 = 0,61 bo'ladi. Siz daraxtning pastdan yuqoriga qanday qurilganligini ko'rishingiz mumkin:

WPGMA UPGMA bilan bir xil, faqat masofa matritsalarini qisqartirish hollari bundan mustasno, yangi satr va ustun qiymatlari endi taksonlar soni bilan o'lchanmaydi. Ha to'g'ri, Og'irligi yo'q PGMA asoslangan vaznli o'rtacha, va Og'irlangan PGMA asoslangan vaznsiz o'rtacha. Ushbu chalkash farqni eslab qolishga omad tilaymiz!


Ma'lumotlar yig'ish vaqtida masofaviy matritsada qayd etilishi mumkin. Masalan, ba'zi idrok tadqiqotlarida odamlardan jismlar orasidagi psixologik masofani baholash talab qilinadi va bu masofalar masofaviy matritsada qayd etiladi.

Odatda, masofa matritsasi a dan hisoblanadi xom ma'lumotlar stol Quyidagi misolda biz A va B orasidagi masofani aniqlash uchun o'rta maktab matematikasidan (Pifagor) foydalanishimiz mumkin.

Biz ikkitadan ortiq o'zgaruvchilar bilan bir xil formuladan foydalanishimiz mumkin va bu formula sifatida tanilgan Evklid masofasi.

Masofani hisoblashning boshqa ko'plab usullari (masofa ko'rsatkichlari) ishlab chiqilgan. Masalan, shahar bloklari masofasi, shuningdek, nomi bilan tanilgan Manxetten masofasi, ni hisoblab chiqadi masofa gorizontal va vertikal masofalar yig'indisiga asoslangan (masalan, A va B orasidagi masofa keyin .

Masofaviy ko'rsatkichni o'rganish sohasiga mos keladigan tarzda aniqlash kerak. Misol uchun, agar shaharda jinoyat joylarini klasterlash bo'lsa, shahar bloklari masofasi mos bo'lishi mumkin (yoki yaxshiroq, har bir joy o'rtasida sayohat qilish uchun ketadigan vaqt). Muqobil variant uchun nazariy asos bo'lmasa, odatda Evklidga ustunlik berish kerak, chunki u odatda jismoniy dunyodagi masofaning tegishli o'lchovidir.


Masofaga asoslangan PD

Juftlik chora-tadbirlari

Filogenetik masofa matritsalari qator va ustun nomlari kabi tur nomlari va har bir juft turni ajratib turuvchi filo novdasi uzunligini ko'rsatadigan hujayralardagi qiymatlarga ega matritsalardir. Diagonallarning hammasi nolga teng.

Filogenetik dispersiya-kovaryans matritsasi, xususiyatlar evolyutsiyasi modelini, odatda, Braun harakatining modelini nazarda tutgan turlar orasidagi kutilayotgan dispersiya va kovariatsiyani ifodalaydi. Potensial dispersiyaning o'sishi ildizdan uchigacha bo'lgan novda uzunligiga proportsionaldir. Kutilayotgan kovariatsiya umumiy filial uzunligi bilan ortadi.

O'rtacha juftlik masofasi

[ mpd=frac^sum_^delta_>,i eq j ] (delta_) i va j turlar orasidagi pd. Lar bor n jamiyatdagi turlar.

picante to'plami saytdagi barcha saytlar uchun mpd ni turlar matritsasi va filo masofa matritsasi bo'yicha hisoblash uchun mpd() funksiyasiga ega.

Og'irlangan o'rtacha juftlik masofasi va Rao

Yuqoridagi R kodi ko'rsatilgandek, bizda ham mpd: [mpd.f = frac < sum_^ sum_^delta_f_f_>^sum_^f_f_>,i eq j ] Rao&rsquos masofasi mpd.f ga oʻxshaydi, faqat Rao&rsquos yuqoridagi formulada i = j ga ruxsat beradi. Kontseptsiyada bu kecha muhim, ammo natijalar uchun muhim emas. Agar yuqoridagi formulada hech qanday maxraj bo'lmasa, u taklif qilgan filogenetik xilma -xillik ko'rsatkichlariga aylanadi. Hardy va Senterre.

Helmus va boshqalarga asoslangan vcv matritsasi

  • Filogenetik Sp o'zgaruvchanligi (PSV): Braun harakati ostida rivojlanayotgan xususiyat uchun jamoa filogeniyasidagi turlar o'rtasidagi kutilgan tafovutlar.
    • Agar daraxt ultrametrik bo'lsa, PSV o'rtacha juftlik masofasining yarmini (??) tashkil qiladi.

    Masofa-matritsani filogenetik rekonstruksiya qilish uchun Variant-komponentlar modeli

    Filogenetik daraxtlar qarindosh organizmlar (taksonlar) o'rtasidagi evolyutsion munosabatlarni tasvirlaydi. Filogenetik daraxtlarni baholashga yondashuvlardan biri taksonlar orasidagi taxminiy evolyutsion masofalar matritsasi mavjudligini taxmin qiladi. Aglomerativ usullar taklif qilingan bo'lib, ularda bir-biriga yaqin bo'lgan takson-juftlar ketma-ket birlashib, ajdodlar taksonlarini hosil qiladi. Hisoblashda samarali bo'lgan aglomerativ algoritmlarning bir nechtasi taxmin qilingan masofalardagi farqni kamaytirish choralarini o'z ichiga oladi. Biz masofani hisoblashda dispersiya komponentlarini statistik modellashtirishga qaratilgan aglomerativ filogenetik usulni taklif qilamiz. Biz ushbu dispersiya komponentlari aglomerativ jarayon davomida qanday rivojlanishini ko'rib chiqamiz. Bizning usulimiz bir vaqtning o'zida ikkita topologik jihatdan bir xil ildizli daraxtni hosil qiladi, bir daraxtning novdalari o'tgan vaqtga mutanosib, ikkinchisi esa asosiy evolyutsion divergensiyaga mutanosib bo'lgan novdalar uzunligiga ega. Usul ikkita asosiy o'zgaruvchanlik manbasini modellashtiradi, ular adabiyotda alohida muhokama qilingan: shovqin, divergentsiyalarni o'lchashdagi noaniqliklar va buzilish, daraxtning turli qismlarida tasodifiylikni aks ettiradi. Metodologiya ketma-ket ierarxik umumlashtirilgan eng kichik kvadrat regressiyalariga asoslanadi. U faqat masofaviy baholarning vositalari, dispersiyalari va kovariantlarini o'z ichiga oladi va shu bilan to'liq taqsimlash taxminlaridan qochadi. Hisoblashning algebraik tuzilmasidan foydalanish hisoblash murakkabligi etakchi nashr etilgan aglomerativ usullar bilan taqqoslanadigan algoritmga olib keladi. Parametrik yuklash jarayoni filogenetik qayta qurishda to'liq noaniqlikni baholashga imkon beradi. Metodologiyani amalga oshiradigan dasturiy ta'minotni StatTree'dan bepul yuklab olish mumkin.

    Jurnal

    Genetika va molekulyar biologiyada statistik ilovalar &ndash de Gruyter


    Videoni tomosha qiling: 2x2 oʻlchamli matritsa determinanti. Matritsalar. Matematik analiz asoslari (Avgust 2022).