Was bedeuten diese Zahlen im Stammbaum?

3 Antworten

Von Experte Darwinist bestätigt

Das sind Bootstrapwerte, ein Maß für die Verlässlichkeit jedes einzelnen Knoten des Stammbaums.

Bootstrapping ist ein statistisches Verfahren, bei dem aus dem ursprünglichen Datensatz (z.B. den Gensequenzen der untersuchten Arten) immer wieder zufällige Stichproben genommen werden, aus denen dann ein Stammbaum errechnet wird. Normalerweise verwendet man mehrere hundert oder tausend Bootstrap-Wiederholungen.

Die Zahlen an den einzelnen Knoten geben an, in wie viel Prozent der Bootstrap-Wiederholungen ein bestimmtes Schwestergruppenverhältnis aufgetaucht ist. Werte nahe an 100 wie zwischen Crytocara und Placidochromis zeigen an, dass dieser Knoten sehr robust ist, also nicht davon abhängt, welche Daten man betrachtet.

Ein niedriger Bootstrap-Wert wie zwischen Lobochilotes und Petrochromis zeigt das Gegenteil an, dieser Knoten kommt nur in etwas mehr als der Hälfte aller Wiederholungen vor, abhängig davon, auf welcher Datenbasis man den Baum berechnet. Deshalb ist es durchaus möglich, dass diese beiden Gattungen in Wirklichkeit gar keine Schwestergruppen sind, sondern eine von ihnen enger mit z.B. Tropheus oder einer anderen Gattung verwandt ist.

Ein phylogenetischer Stammbaum ist immer eine Hypothese über die Verwandtschaft zwischen den untersuchten Arten. Die Bootstrapwerte erlauben dir zu beurteilen welche Teile des Stammbaums sehr wahrscheinlich zutreffen und an welchen Stellen man nochmal genauere Nachforschungen anstellen sollte.

Diese Zahlen sind so genannte Bootstrapwerte (bootstrap values). Ein Computer kann in den allermeisten Fällen unmöglich alle möglichen Varianten eines Stammbaums durchrechnen, um den "richtigen" Stammbaum zu finden. Schon bei vergleichsweise kleinen Stammbäumen mit wenigen Ästen übersteigt die Anzahl der möglichen Stammbäume (d. h. die verschiedenen Astkombinationen) die Anzahl der Atome im Universum. Ein Computer kann deshalb nicht alle Varianten exakt durchrechnen.

Um trotzdem mit einiger Gewissheit sagen zu können, den "richtigen" Baum gefunden zu haben, kann man sich verschiedener statistischer Testverfahren bedienen. Eines davon, das sicher am gebräuchlichsten ist, ist das Bootstrapping.

Beim Bootstrappingverfahren wird aus dem Originaldatensatz, dem so genannten Alignment, durch Ziehen-und-Zurücklegen ein neuer, genauso großer Pseudodatensatz erstellt. Das Alignment ist im Prinzip nichts anderes als eine Tabelle, die in den einzelnen Zeilen die jeweiligen DNA-Sequenzen enthält und zwar in der Art, dass die homologen Nukleotide in den einzelnen Spalten untereinander stehen. Aus dem Alignment werden zufällig Zeilen ausgewählt bis die neue Tabelle (der Pseudodatensatz) genau die gleiche Anzahl an Zeilen hat wie das Alignment. Weil die Zeilen aber nach der Methode "Ziehen-und-Zurücklegen" ausgewählt werden, sind im Pseudodatensatz einige DNA-Sequenzen mehrfach enthalten, andere wiederum gar nicht. Aus dem Pseudodatensatz wird anschließend ein neuer Stammbaum berechnet. Dieses Verfahren wird mehrere Male wiederholt, üblicherweise mehrere hundert oder gar tausend Male (gängig sind 500 oder 1000 Wiederholungen).

Die Bootstrapwerte geben nun an, wie oft ein bestimmtes Schwestergruppenverhältnis (zwei miteinander durch einen Knoten verbundene Äste) in den Bootstrap-Bäumen auftaucht. Je höher der Bootstrapwert ist, umso häufiger taucht die Verzweigung in den Bootstrap-Bäumen auf und umso belastbarer ist die Aufzweigung. Hohe Bootstrapwerte werden erzeugt, wenn eine Aufzweigung durch viele Merkmale (d. h. homologe Nukleotide) gestützt wird. Niedrige Bootstrapwerte werden generiert, wenn hingegen eine Aufzweigung nur auf wenigen Merkmalen beruht. Ein Bootstrapwert von 100 gibt beispielsweise an, dass eine bestimmte Aufzweigung in 100 % der Bootstrap-Bäume auftaucht und deshalb sehr verlässlich ist. Die Aufzweigung spiegelt also mit sehr hoher Wahrscheinlichkeit die wirklichen Verwandtschaftsverhältnisse wider.
Ein Bootstrapwert von 50 hingegen bedeutet, dass eine Aufzweigung nur in der Hälfte der generierten Bootstrap-Bäume auftaucht. Sie ist kaum verlässlich, denn die Wahrscheinlichkeit, dass der Baum an dieser Stelle "richtig" ist, ist genauso groß wie die Wahrscheinlichkeit, dass er an dieser Stelle "falsch" ist.

Dargestellt wird das dann meist dadurch, dass ein Baum an dieser Stelle nicht vollständig aufgelöst wird, d. h. von einem Knoten zweigen dann nicht nur zwei, sondern mehrere Äste ab. Im Beispielstammbaum ist das z. B. der Fall. Und zwar am Knoten mit den Ästen "Tropheus", "Lobochilotes+Petrochromis" und "Pseudotropheus+Petrotilapia+...+Rhamphochromis". Verzweigungen mit niedrigen Bootstrapwerten sind also mit Vorsicht zu genießen. Das muss nicht heißen, dass die Aufzweigung grundsätzlich falsch ist. Um den Baum an dieser Stelle aber wirklich aufzulösen, sind weitere Untersuchungen notwendig, z. B. durch Einbezug anderer Gene in den Sequenzvergleich oder durch morphologischer Merkmale.

Woher ich das weiß:Studium / Ausbildung – Biologiestudium, Universität Leipzig

Weiß ich auch nicht, aber schau doch mal in der Originalpublikation nach, die da angegeben ist (Kocher et al 93).

LG