A szárazföldi növények evolúciója és rendszertana Vezérfonal egy nem is olyan könnyű tárgy tanulásához Podani, János a szárazföldi növények evolúciója és rendszertana: Vezérfonal egy nem is olyan könnyű tárgy tanulásához

Yüklə 2,58 Mb.

səhifə	21/31
tarix	24.04.2018
ölçüsü	2,58 Mb.
	#40119

1 ... 17 18 19 20 21 22 23 24 ... 31

A.7. ábra.
3.1.1. A. 3.1.1. Adott fa hosszának optimalizálása
A.8. ábra.
3.1.2. A. 3.1.2. Evolúciós fák topológiájának optimalizálása
A.10. ábra.
A.11. ábra.
A.12. ábra.
PHYLIP

A.1. táblázat. Mesterséges adatmátrix a Hennig-módszer illusztrálására. Az utolsó előtti oszlop a leszármaztatott állapotok számát, az utolsó pedig az apomorfiák számát összesíti az egyes taxonokra

Karakterek

OTU-k	1	2	3	4	5	6	7	8	9	10	11	∑1	∑2
A	0	1	0	0	1	0	1	1	0	0	0	4	2
B	0	1	0	1	1	0	0	0	0	0	0	3	1
C	0	0	1	0	1	0	0	0	0	1	0	3	1
D	1	0	1	0	1	0	0	0	1	0	0	4	2
E	0	0	0	0	0	1	0	0	0	0	0	1	0
F	0	0	0	0	0	1	0	0	0	0	1	2	1

A.7. ábra. Az A.1. táblázat adataiból szerkesztett kladogram a Hennig-módszerrel (a), ill. a megfelelő Wagner-féle „groundplan/dívergence” diagram (b)

Swofford és Olsen (1990) szerint a parszimónia módszerek célja az összes lehetőség közül megkeresni azt a τ-val jelölt fát, amelyre az alábbi általános optimalitási kritérium értéke minimális:

ahol NB jelöli az ágak számát, n a változók száma, xk₁j és xk2j a k-adik ág két végéhez tartozó szögpontok állapota a j-edik karakterre nézve, wj a j karakter fontosságát kifejező súlyérték (rendszerint 1), ∆(xk1j, xk2j) pedig a két karakterállapot közötti átmenet „költsége”. Eme két karakterállapot vagy közvetlenül az adatmátrix egy konkrét értékének felel meg (az ág megfelelő végén egy OTU van), vagy pedig a fa belső szögpontjaihoz (HTU-k) rendelt állapotról van szó. Az L(τ) mennyiséget a fa „hosszának” („tree length”) nevezzük. Az optimális fa⁷ hossza és szerkezete attól függ, hogy milyen állapotátmeneteket engedünk meg, és miként értelmezzük a költségfüggvényt. A feladat – hasonlóan a távolságalapú módszerekhez – kettős: 1) az adott topológiához legmegfelelőbb (legkisebb hosszúságot eredményező) állapotokat kell rendelnünk a belső szögpontokhoz, és 2) a fa topológiáját kell optimalizálnunk. A topológia változtatása minden karaktertípus esetén ugyanúgy történhet, a belső szögpontokhoz rendelendő állapotok kikeresése azonban már más és más algoritmust igényel. Ezért kell tehát már a vizsgálat legelején tisztáznunk, milyen karaktertípusok szerepelnek az adatmátrixban.

3.1.1. A. 3.1.1. Adott fa hosszának optimalizálása

A feladat tehát az, hogy a h karakterre a fa végágain elhelyezkedő OTU-k ismeretében meghatározzuk a belső szögpontok (HTU-k) állapotait, amelyek minimális hosszt eredményeznek (ez a fa rekonstrukciója). A rendezetlen és a Wagner-féle karaktertípusok esetében – miután a karakterállapotok reverzibilisek – a gyökér helyzete nem befolyásolja az eredményt, s ezt majd ki is használjuk az elemzés során. Az optimalizációs algoritmust, Swofford és Maddison (1987) után, erősen leegyszerűsítve mutatjuk be a rendezetlen (Fitch-féle) karaktertípusra és szigorúan dichotomikus fákra. Az eljárás lényege, hogy az egyik OTU-t gyökérnek tekintve kétszer végigpásztázzuk a fát, először a többi taxontól a gyökérig, majd visszafelé. Ha van olyan OTU, amely önmagában külcsoportot képvisel, akkor célszerűen ezt tekintjük gyökérnek. Az első pásztázás során a belső szögpontokon kijelöljük a szóba jöhető állapotok kombinációit, majd a második fő stádiumban, immár visszafelé haladva a fán, eldöntjük, hogy ezek közül melyiket tartjuk meg.

1) Az OTU-kra nyilván csak egyféle karakterállapotunk lehet, míg a HTU-kra kiindulásképpen nincs megadva karakterállapot, de ezek száma — mint említettük — később ideiglenesen egynél több is lehet. Legyen a gyökérnek tekintett szögpont jele g! A fa hossza a h karakterre, Lh, legyen kezdetben 0!

2) Válasszunk ki egy k belső szögpontot, amelynek mindkét közvetlen leszármazottja ismert állapottal rendelkezik! Jelölje ezeket i ésj! Ekkor az alábbiak között kell döntenünk:

2.a) ha van(nak) olyan állapot(ok), mely(ek)re nézve i ésj megegyezik, akkor az összes ilyen állapotot hozzárendeljük k-hoz;

2.b) ha nincs egy ilyen állapot sem, akkor k-hoz az i és j állapotainak az összességét rendeljük és Lh értéke 1-gyel nő.

3) Ha k éppen a g közvetlen leszármazottja, továbbmegyünk a 4. lépésre. Egyébként visszatérünk a 2. lépéshez.

4) Ha g állapota nem egyezik meg közvetlen leszármazottjának egyik állapotával sem, akkor Lh értéke 1-gyel nő. Az első stádium ezzel befejeződött, s Lh értéke már meg is adja a fa hosszúságát a h-adik karakterre. Ezután megkezdjük a HTU-k karakterállapotainak kiválasztását, a gyökértől visszafelé haladva.

5) Válasszunk ki egy olyan k belső szögpontot, melynek állapotát még nem véglegesítettük, de közvetlen őséét, melyet o jelöl, már igen (először tehát a g-hez legközelebbi belső szögpontról van szó)!

6) Ha az o állapota a k-hoz rendeltek között is megvan, akkor k végső állapota is ez legyen. Egyéb esetben k állapotai közül kiválasztjuk az egyiket, s azt tartjuk meg.

7) Ha minden belső szögpontot megvizsgáltunk, akkor a keresés ezennel véget ért. Egyéb esetben visszatérünk az 5. lépéshez.

Az algoritmust a legáltalánosabban ismert rendezetlen karakter, valamely nukleinsav molekula egy adott pozíciójában lévő nukleotid milyenségének (mondjuk A, T, G, C) a példáján mutatjuk be (A.8. ábra). A kiinduló fában kiválasztjuk az R taxont, mert ezt tekintjük külcsoportnak (bár az optimalizáció szempontjából ez most nem lényeges), és a 2-4. lépések szerint meghatározzuk a fa hosszát, ill. a belső szögpontok lehetséges karakterállapotait (A.8.b. ábra). Az elemzés szerint három él mentén kell változásnak bekövetkeznie, azaz L=3. Az utolsó feladat a belső szögpontok állapotainak a kijelölése, amelyet az A.8c ábra illusztrál. A *-gal jelölt pozícióban önkényesen döntöttünk, de könnyen meggyőződhetünk arról, hogy minden más választásra ugyanúgy 3 lenne a fa hossza. Az önkényes döntés miatt azonban a fának több lehetséges rekonstrukciója is lehetséges (ACCTRAN és DELTRAN, részletesen lásd pl. Nei és Kumar 2000).

A.8. ábra. A fa hosszának és a belső szögpontok állapotainak a meghatározása egy Fitch-típusú (rendezetlen) karakter esetén (nukleotidok egy adott pozícióban) az M—R taxonokra. a: kiinduló fa önkényesen kiválasztott gyökérrel, b: fa az első pásztázást követően, a lehetséges állapotok kombinációival, c: végeredményül kapott fa a belső szögpontok optimális állapotaival.

A Wagner-karakterekre, mivel sorrendiséget és különbséget is értelmezünk, a fenti algoritmus 2.a, 2.b, 4. és 6. lépését kell módosítani a következőképpen:

2.a) ha i és j állapotai átfednek egymással, akkor az átfedést adók legyenek a k állapotai (pl. ha i-t 1,2,3, ill. j-t 2,3,4 jellemzi, akkor k állapota 2,3 lesz)!

2.b) Ha nincs átfedés, akkor a két legközelebbit és a közöttük lévő többi állapotot rendeljük k-hoz, L pedig a két legközelebbi állapot különbségével nő (pl. ha i-t 1,2,3, ill. j-t 5,6 jellemzi, akkor k ideiglenes állapota 3,4,5 lesz, Lh értéke pedig 2-vel növekszik).

4) Ha g állapota nem egyezik meg a közvetlen leszármazottjának egyik állapotával sem, akkor Lh új értéke Lh+ 1 g állapota — a legközelebbi állapot a leszármazottban 1 .

6) k állapotai közül kiválasztjuk azt, amelyik o állapotához a legközelebb van (vagy azzal egyenlő), s azt tartjuk meg.

Mindez érthetőbbé válik az A.9. ábra példáján. Tegyük fel, hogy hat taxont most egy négyállapotú rendezetlen reverzibilis karakter jellemez, amelyet a 0, 1, 2 és 3 értékekkel kódolunk (A.9.a. ábra). Az R taxont gyökérnek választva megint elindulunk felülről, s ideiglenes kombinációkat rendelünk a belső szögpontokhoz (A.9.b. ábra). A 2.a) lépést alkalmazzuk a 3, illetve a 2 állapot, a 2.b) lépést pedig a (0,1) és az (1,2,3) kombinációk megválasztásakor. A fán visszafelé haladva meghatározzuk a végső értékeket. A fa hossza egyébként 4 egység.

Az optimalizációt a többi karakterre is végrehajtjuk, és végül ΣLh lesz a fa teljes hossza. Az összegzés természetesen eltérő típusú karaktereket is megenged.

A többi kladisztikai karakterre alkalmas, illetve a többszörös elágazást is megengedő parszimónia algoritmusok meglehetősen bonyolultak, ismertetésüket ezért mellőzzük. Alkalmazásuk amúgy sem megy a megfelelő programcsomag nélkül, így a részletekért a felhasználói kézikönyvet kell fellapoznunk (pl. Maddison és Maddison 1992, Felsenstein 1993).

3.1.2. A. 3.1.2. Evolúciós fák topológiájának optimalizálása

Ha egy adott fa minden belső szögpontjára megtaláltuk a legmegfelelőbb karakterállapotokat, akkor a probléma kisebbik részét oldottuk csak meg. Az A.7 optimalitási kritérium ugyanis jóval nagyobb mértékben függ az elágazások topológiájától, mint a karakterállapotok elosztásától. A legjobb topológia kikeresése azonban további nehézségeket támaszt, amint az alábbi rövid ismertetésből is kiderül.

Teljes enumeráció. Elsőként az a megoldás juthat eszünkbe, hogy az összes lehetséges fát „legyártjuk”, és mindegyiket megvizsgáljuk az előző részben ismertetett módon. Ekkor biztosak lehetünk abban, hogy az A.7 kritériumra minimális értéket adó fa a legmegfelelőbb (a parszimónia elv alapján legalábbis). Az összes lehetőség megvizsgálása azonban nem is olyan egyszerű feladat, amint első pillantásra látszik. Irdatlan nagyszámú különböző dendrogram írható fel már 10 objektumra is (m = 10 esetén több mint 34 millió), az általános formula a következő

(A8.a)

s ez a szám megegyezik a gyökérrel rendelkező kladogramok lehetséges számával. Ha a gyökeret kiiktatjuk, akkor a következő összefüggés adja meg a lehetőségek számát:

(A8.a)

(Felsenstein 1978). Még ez is igen nagy szám lehet, hiszen m = 10-re meghaladja a kétmilliót. A valóságban rendszerint jóval nagyobb számú taxonnal dolgozunk, amelyre már csillagászati számok jönnének ki, így az összes lehetőség számbavétele gyakorlatilag lehetetlenné válik.

A teljes enumeráció egyébként a gyökér nélküli fákra a 3 objektumra felrajzolható egyetlenegy lehetséges fából indul ki, amelyben 3 él van. A következő taxont e 3 él bármelyikére helyezhetjük, vagyis m = 4-re három különböző elrendezés adódik. Ezen a fán már öt él lesz, ami az 5. objektum elhelyezési lehetőségeinek a száma, és ez szorzódik a kapott fák számával: 3x5=15 (A.10. ábra). Minden egyes taxon hozzáadásával az előző lépésben előállított fák száma 2i—5-tel szorzódik (i a taxonok száma az adott lépésben), s így már jobban érthető a fenti formula jelentése.

A.10. ábra. A négy OTU-ra felrajzolható összes lehetséges dichotomikus kladogram.

Exakt módszerek. Felmerül tehát az igény, hogy olyan algoritmust keressünk, amely nem vizsgál meg minden lehetőséget, de relatíve rövid idő alatt mégis eljut a legkedvezőbb megoldásig. Ezt célozza az úgynevezett „branch and bound” módszer, melynek első kladisztikai alkalmazása Hendy és Penny (1982) nevéhez fűződik. Kezdő összehasonlítási alapként egy olyan fát választunk, amelyet – mondjuk – az alábbiakban ismertetett heurisztikus módszerekkel kaptunk, így az viszonylag közel áll az optimálishoz. Legyen ennek hossza Lmin (a „bound”)! Ezután „0-ról” indulunk, mintha teljes enumerációt akarnánk véghezvinni a fent leírt módon. A fa hosszát azonban menet közben minden „rész”-fára kiértékeljük, és ha az túllépi Lmin értékét, akkor a kereséssel ebben az irányban („branch”) már nem próbálkozunk tovább. Voltaképpen minden olyan fa, amelynek ez a részfa alkotóeleme, egyszer és mindenkorra kiesik, hiszen a továbbépítés során ezen fa hossza már csak növekedhet. Ha azonban felépül egy teljes fa, amelynek hossza kisebb, mint Lmin, akkor már javítottunk is a kiinduló eredményen. A további keresés során természetesen ez az új Lmin lesz a viszonyítási alap. Ebből a pár mondatos jellemzésből – amely persze nagyon távol áll az algoritmus pontos ismertetésétől – talán belátható, hogy a módszer a legrosszabb esetben éppen a teljes enumerációval egyezik meg, de ha a kezdő Lmin igen közel áll az abszolút optimumhoz, akkor sokszorta hatékonyabb annál. A módszer legjobb számítógépes implementációi sem képesek azonban több mint 20–25 taxon értékelésére, hiszen a gépidő rendkívül gyorsan növekszik m növekedésével.

Nincs tehát garancia arra, hogy a „branch and bound” módszer akármilyen kiindulásból belátható időn belül eredményre vezet, mondjuk 100 taxonra. Ilyen módszert voltaképpen még nem ismerünk. A legoptimálisabb topológia megkeresése ugyanis egy, a matematikában már régen vizsgált témakörbe, az NP-teljes problémák körébe tartozik (Graham és Foulds 1982). Arról van lényegében szó — persze matematikailag elnagyoltan —, hogy egy adott számítási feladat megoldásához szükséges idő hogyan változik m növekedésével. Átlagos többváltozós elemzések során az idő négyzetesen vagy köbösen növekszik (pl. hierarchikus klasszifikáció stb.), és ez a mai számítógépek gyorsaságát ismerve még könnyen elviselhető. Az optimális fa megtalálására azonban, ha m egy bizonyos határt elér, az idő növekedése hirtelen kezelhetetlenné válik, nem polinomiális összefüggés szerint változik (innen: NP). Kimutatták, hogy ha bármely NP-teljes problémára sikerülne egy gyors algoritmust találni, akkor az összes NP-teljes probléma megoldható lenne vele (Lewis és Papadimitriou 1978).

Heurisztikus eljárások. Nagyszámú taxon esetén el kell fogadnunk tehát azt a tényt, hogy nem ismeretes olyan módszer, amely biztosan megtalálja a legjobb topológiájú fát (Day 1983). Csak abban bízhatunk, hogy a heurisztikus, keresgélős/iterációs stratégia relatíve gyorsan kellő közelségbe juttat minket az abszolút optimumhoz. E módszerek sokban hasonlatosak a nem hierarchikus osztályozás k-közép módszeréhez (és még más, a későbbi fejezetekben sorra kerülő eljárásokhoz): valamilyen kiinduló eredményt javítgatunk bizonyos átalakítások segítségével, és ha már további javulás nem érhető el, leállunk az elemzéssel. Célszerű azonban többféle kiindulást is kipróbálni, mert a végeredmény erősen függhet a kezdő konfigurációtól. A sok lokális optimumból kiválaszthatjuk a legjobbat, tudva persze, hogy ez sem feltétlenül az abszolút optimális eredmény.

Kladogramok esetében kétféle iterációs stratégia között dönthetünk. Ez egyik lehetőség a fa fokozatos felépítése egy-egy taxon hozzáadásával. Kiindulásképpen véletlenszerűen (vagy a fa hosszát minimalizálva) kiválasztunk három taxont. Az első lépésben minden egyes további taxont végigpróbálgatunk az összes lehetséges helyen, s megvizsgáljuk, hogy menynyivel növekedett a fa hossza. Azt az esetet tartjuk meg, amelyre minimális volt a növekedés. A következő lépésben újabb taxont „ragasztunk” a fához, s ezt a fa teljes felépüléséig folytatjuk. E módszereknél (akárcsak az agglomeratív osztályozásnál) az a gond, hogy egy adott taxon pozíciója a későbbiek során már nem változtatható meg. Erre azonban jó megoldást ad a fa iteratív átrendezése, amely alapvetően háromféle stratégiát követhet:

Legközelebbi szomszéd felcserélése. A fa egy-egy belső éléhez tartozó részfákat egymással felcserélve (A.11.a-b. ábra) kis lépésekben érhetünk el javulást. Minden ilyen élhez négy részfa csatlakozik, s miután ezek háromféleképpen rendezhetők el, a kipróbálandó új lehetőségek száma kettő.
Ágak „átoltása”. A fa összes lehetséges részfáját áthelyezzük az összes lehetséges helyre minden egyes lépésben (egy ilyen áthelyezést mutat be az A.11.c. ábra).
„Metszés” és újraegyesítés. A fát minden lehetséges helyen kettévágjuk, az elvágott élt megszüntetjük, s a kapott részfákat minden lehetséges módon újra összekötjük (pl.
A.11.d. ábra). E két utóbbi procedúra hirtelen nagy javulást is eredményezhet egy-egy lépésben.

A.11. ábra. Az a kladogram átrendezésének lehetőségei. b: szomszéd ágak felcserélése (a *-gal jelölt élre nézve), c: egy ág átoltása (a B-C részfát tettük át az F-hez futó élre), d: a fa elvágása két részfára és összekapcsolása új éllel (a *-gal jelölt élt megszüntetjük, majd a C-hez és F-hez futó két élt összekötjük).

Példaképpen először az A.1. táblázat adatait vizsgáljuk meg. A PHYLIP programcsomag MIX programja (Felsenstein 1993) egyértelműen megerősítette az A.7.a. ábrán látható kladogramot. Ennél a 11-es hosszúságú fánál jobbat, vagy akár azzal megegyező hosszúságú, de más topológiájú fát sem talált. Rendszerint azonban nem ilyen egyértelmű a helyzet, amint azt az A.3. táblázat adatainak elemzése is igazolja. A táblázat alapján 5 magvas taxon leszármazási viszonyait próbáljuk rekonstruálni a páfrányok (mint külcsoport) bevonásával. Az összes tulajdonság bináris típusú, tehát mindegy, hogy Fitch- vagy Wagner-karakternek fogjuk fel őket. A MIX program 50 random kiindulásból három optimális hosszúságú fát adott eredményül (A.12.a-c. ábra). A felhasznált információk alapján a fenyők és a Ginkgo helyzete nem egyértelmű, felcserélhetők egymással, s akár egy külön csoportot is alkothatnak. Általános tapasztalat, hogy minél nagyobb a vizsgálatba bevont taxonok száma, annál több egyformán optimális hosszúságú, de egymástól eltérő topológiájú fa adódik eredményül. E fák az ún. konszenzus módszerek segítségével (lásd lentebb) egy újabb kladogram formájában összegezhetők, s ezt a konszenzus kladogramot fogadjuk el végeredményül. Az A.12.d. ábra — egy helyen politomikus — kladogramja adja a másik három fa egy lehetséges (ún. „strict consensus”) szintézisét. Az evolúciós viszonyok értelmezését az Olvasóra bízzuk.

A.12. ábra. A magvas növények csoportjainak három optimális hosszúságú („equally parsimonious”) kladogramja, az A.3. táblázat adataiból kiindulva (a—c) és ezek szoros konszenzus kladogramja (d). PF: páfrányok (külcsoport), CI: cikászok, GI: Ginkgo, FE: fenyők, GN: Gnetum, ZT: zárvatermők.

A következő példa a molekuláris információn alapuló törzsfakeresést illusztrálja. Az alábbi táblázatban az ember és négy főemlős két mitokondriális tRNS génjének az eltéréseit összesítjük, az első öt oszlop a LEU tRNS-re, a többi pedig a SER tRNS-re vontakozik (Brown és mtsai. 1982, adatai alapján). A két DNS szakasz összhossza 131 nukleotid. A nukleotid pozíciók túlnyomó többségében a fajok megegyeznek, ezeket az egyszerűség kedvéért be sem mutatjuk, hiszen egyáltalán nem befolyásolják az eredményt, a pozíciók számozása ezért teljesen önkényes. (Megjegyzendő, hogy az orángutánnál bekövetkezett nukleotid-kiesés („gap”) sem számít majd bele a fa hosszába.) A számunkra lényeges információk az alábbiak:

A PHYLIP programcsomag DNAPARS programja (Felsenstein 1993), ill. a MaCClade program (Maddison és Maddison 1992) is egyetlenegy, 24-es hosszúságú fát talált a legoptimálisabbnak. A gyökér pozícióját külső információ figyelembevételével állapítottuk meg, hiszen a gibbon számos szempontból a többitől eléggé távoli taxonnak tekinthető. Az ábrázolás most szándékoltan dendrogramszerű, hogy megkönnyítsük a karakterváltozások jelölését. Az orángutánhoz futó élen pl. az 1-es jel azt indikálja, hogy a többihez képest e fajnál következett be változás az 1. pozícióban (A helyett G), a csimpánz neve alatt a 2-es pedig a második pozícióbeli váltásra utal (T helyett C), és így tovább. A nukleotidváltások „múltja” a pozíciók többségében egyértelműen kijelölhető, de a 4., a 6., a 13., a 14. és a 19. esetében voltaképpen önkényesen kell döntenünk (4.3.1.1.). Az A.13.a. és b. ábrák két ilyen döntési alternatívát mutatnak be, mindkét esetben az ágakon feltüntetett változások száma azonos (24). Messzemenő következtetéseket persze nem szabad levonnunk ebből a kladogramból, hiszen az elemzést egy relatíve rövid DNS szakaszra alapoztuk csupán (a HIS tRNS gén alapján egyébként a csimpánz az emberhez áll közelebb, 1. Weir 1990). Meg kell azt is jegyeznünk, hogy a nukleotidcserék során egyformán fontosnak vettük a tranzíciókat (A—G, ill. C—T cserék, azaz hasonló szerkezetű nuklotidok cseréjét), mint a transzverziókat (azaz amikor egy purinvázas nukleotid pirimidinvázasra cserélődik, vagy fordítva). A valóságban azonban, bár az utóbbi esetben a lehetőségek száma kétszer akkora, kémiai okokból a tranzíciók sokkal gyakoribbak a transzverzióknál. (Példánkban a fa 24-es összhosszúságából mindössze 6 eltérés magyarázható transzverzióval.) Ezt súlyozással lehet kiegyenlíteni (pl. Williams és Fitch 1990, Williams 1992).

Yüklə 2,58 Mb.

Dostları ilə paylaş:

1 ... 17 18 19 20 21 22 23 24 ... 31