Biologischer Hintergrund
Im Laufe der Zeit neigen einige Pflanzenarten dazu, ihr gesamtes Genom zu duplizieren und eine zusätzliche Kopie jedes Gens zu erhalten. Aufgrund der Instabilität dieses Aufbaus werden viele dieser Gene dann gelöscht, und das Genom ordnet sich neu und stabilisiert sich, bereit, erneut zu duplizieren. Diese Duplikationsereignisse sind mit Speziations- und Invasionsereignissen verbunden, und die Theorie besagt, dass die Duplizierung Pflanzen hilft, sich schneller an ihre neuen Umgebungen anzupassen.
Lupinus, eine Gattung blühender Pflanzen, drang in die Anden bei einem der schnellsten Artenereignisse ein, die jemals entdeckt wurden, und außerdem scheint es mehr Kopien in seinem Genom zu haben als die am engsten verwandte Gattung Baptisia.
Und jetzt das mathematische Problem:
Die Genome eines Mitglieds von Lupinus und eines Mitglieds von Baptisia wurden sequenziert und liefern Rohdaten von etwa 25.000 Genen in jeder Art. Durch die Abfrage einer Datenbank von Genen mit bekannter Funktion habe ich jetzt eine "beste Vermutung", welche Funktionen dieses Gen ausführen könnte - so könnte Gene1298 beispielsweise mit "Fructosestoffwechsel, Salzstressreaktion, Kältestressreaktion" assoziiert sein. Ich möchte wissen, ob zwischen Baptisia und Lupinus ein Duplikationsereignis aufgetreten ist, ob der Genverlust zufällig stattgefunden hat oder ob Gene, die bestimmte Funktionen erfüllen, eher erhalten oder gelöscht wurden.
Ich habe ein Skript, das eine Tabelle wie die unten gezeigte ausgibt. L * ist eine Zählung aller mit der Funktion verbundenen Lupinus-Gene. L 1+ ist eine Anzahl von Lupinus-Genen, die mit der Funktion assoziiert sind, bei der mindestens eine Kopie vorhanden ist. Ich kann es dazu bringen, L 2+, L 3+ usw. zu produzieren, obwohl L 1+ aufgrund des Sequenzierungsprozesses eine viel zuverlässigere Gruppe als L 2+ ist.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Ich möchte für jede Genfunktion testen, ob es mehr oder weniger Gene mit Duplikaten gibt, als bei Lupinus und Baptisia rein zufällig zu erwarten sind, und ob sich Lupinus von Baptisia im Verhältnis von beobachtet zu erwartet unterscheidet.
Das Beste, was ich bisher habe
Frühere Studien an verschiedenen Arten haben die Anreicherungsanalyse mit Fisher's Exact Test und FDR-Korrektur für mehrere Proben verwendet, um einen Kontingenztest für jede Reihe durchzuführen.
Es wäre schön, dies zu verbessern. Ich bin mir nicht sicher, ob dies der beste Weg ist, dies zu tun.
Glen_b hat vorgeschlagen, ein GLM zur Analyse der Daten zu verwenden. Ich habe mit GLMs in JMP8 herumgespielt, was interessant war, aber ich gebe zu, sie nicht wirklich zu verstehen.
Das heißt, ich versuche jetzt stattdessen R zu verwenden.
Wofür benutze ich das?
Dies sollte ursprünglich Teil eines kurzen Forschungsprojekts sein, das ich an der Universität mache, hat sich aber jetzt zu einem riesigen Projekt zur Annotation von Genomen entwickelt. Warum? Weil Bioinformatik cool ist. Es ist erstaunlich, eine Reihe von A, T, C und G zu verwenden, um Informationen über Ereignisse abzuleiten, die vor Millionen von Jahren stattgefunden haben.
Unnötig zu erwähnen, dass ich nicht versuchen werde, eine freundliche Antwort als meine eigene Arbeit einzureichen. Ich würde gerne eine Bestätigung in das Papier aufnehmen, wenn ich eine hier in der eingereichten Arbeit vorgeschlagene Methode verwende.
Antworten:
Ich stimme zwar zu, dass der Fisher-Test (oder etwas Ähnliches) hier der natürlichste Ansatz ist, aber wie wäre es damit:
Der modifizierte Fisher-Test (von den Autoren, die ihn in diesem Zusammenhang zuerst beschrieben haben, CERNO genannt ) nimmt jeden geordnete Liste von Genen als Eingabe, sofern Sie sie in einige nützliche Kategorien einteilen können.
Der Vorteil dieses Ansatzes besteht darin, dass Sie neben einem p-Wert die Effektgröße der Anreicherung leicht berechnen und visualisieren können (z. B. als ROC-Kurve über der geordneten Liste von Genen). Dies gibt Ihnen eine viel bessere Vorstellung davon, wie wichtig das, was Sie beobachten, für die Biologie, die Sie studieren, wirklich ist.
quelle
Wie Sie sagen, stellen Sie zwei unterschiedliche Fragen.
Frage 1 "unterscheidet sich das Verhältnis L * / L1 + von B * / B1 + für eine gegebene Genfunktion"
Dies lässt sich am besten mit dem genauen Test von Fisher beantworten, bei dem Daten in der gesamten Zeile verwendet werden, wie Sie sie zuvor gefunden haben.
Frage 2 "Ist das Verhältnis: Gene, bei denen es eine einzelne Kopie gibt, / Gene, bei denen es mehr als eine Kopie gibt, die sich zwischen den Genfunktionen unterscheiden?"
Ich denke, dies lässt sich auch am besten mit dem genauen Test von Fisher beantworten. Sie würden das Verhältnis von L * / L1 + für Genfunktion 1 zu L * / L1 + für Genfunktion 2 testen. Dann Genfunktion 1 gegen Genfunktion 3 usw.
Keine dieser Fragen stellt fest, ob sie rein zufällig schneller als erwartet gepflegt / gelöscht werden oder nicht, sondern nur, ob sie mit unterschiedlichen Raten gelöscht / gepflegt werden. Um zu wissen, ob sie mit einer anderen Rate als zufällig gelöscht / beibehalten wurden, müssen Sie das Verhältnis von Einzelkopie / Mehrfachkopie für viele DNA-Regionen kennen, die nur zufällig betroffen sind. Wenn Sie solche Regionen finden könnten, würden Sie eine "Funktionsgruppe" erhalten, in der die Funktion "Keine" ist. Sie würden dies dann auf die gleiche Weise mit Ihren anderen Genfunktionsgruppen vergleichen, wie ich es in Frage 2 beschrieben habe.
quelle