Anreicherungsanalyse nach Gen-Duplikationsgrad

11

Biologischer Hintergrund

Im Laufe der Zeit neigen einige Pflanzenarten dazu, ihr gesamtes Genom zu duplizieren und eine zusätzliche Kopie jedes Gens zu erhalten. Aufgrund der Instabilität dieses Aufbaus werden viele dieser Gene dann gelöscht, und das Genom ordnet sich neu und stabilisiert sich, bereit, erneut zu duplizieren. Diese Duplikationsereignisse sind mit Speziations- und Invasionsereignissen verbunden, und die Theorie besagt, dass die Duplizierung Pflanzen hilft, sich schneller an ihre neuen Umgebungen anzupassen.

Lupinus, eine Gattung blühender Pflanzen, drang in die Anden bei einem der schnellsten Artenereignisse ein, die jemals entdeckt wurden, und außerdem scheint es mehr Kopien in seinem Genom zu haben als die am engsten verwandte Gattung Baptisia.

Und jetzt das mathematische Problem:

Die Genome eines Mitglieds von Lupinus und eines Mitglieds von Baptisia wurden sequenziert und liefern Rohdaten von etwa 25.000 Genen in jeder Art. Durch die Abfrage einer Datenbank von Genen mit bekannter Funktion habe ich jetzt eine "beste Vermutung", welche Funktionen dieses Gen ausführen könnte - so könnte Gene1298 beispielsweise mit "Fructosestoffwechsel, Salzstressreaktion, Kältestressreaktion" assoziiert sein. Ich möchte wissen, ob zwischen Baptisia und Lupinus ein Duplikationsereignis aufgetreten ist, ob der Genverlust zufällig stattgefunden hat oder ob Gene, die bestimmte Funktionen erfüllen, eher erhalten oder gelöscht wurden.

Ich habe ein Skript, das eine Tabelle wie die unten gezeigte ausgibt. L * ist eine Zählung aller mit der Funktion verbundenen Lupinus-Gene. L 1+ ist eine Anzahl von Lupinus-Genen, die mit der Funktion assoziiert sind, bei der mindestens eine Kopie vorhanden ist. Ich kann es dazu bringen, L 2+, L 3+ usw. zu produzieren, obwohl L 1+ aufgrund des Sequenzierungsprozesses eine viel zuverlässigere Gruppe als L 2+ ist.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Ich möchte für jede Genfunktion testen, ob es mehr oder weniger Gene mit Duplikaten gibt, als bei Lupinus und Baptisia rein zufällig zu erwarten sind, und ob sich Lupinus von Baptisia im Verhältnis von beobachtet zu erwartet unterscheidet.

Das Beste, was ich bisher habe

Frühere Studien an verschiedenen Arten haben die Anreicherungsanalyse mit Fisher's Exact Test und FDR-Korrektur für mehrere Proben verwendet, um einen Kontingenztest für jede Reihe durchzuführen.

Es wäre schön, dies zu verbessern. Ich bin mir nicht sicher, ob dies der beste Weg ist, dies zu tun.

Glen_b hat vorgeschlagen, ein GLM zur Analyse der Daten zu verwenden. Ich habe mit GLMs in JMP8 herumgespielt, was interessant war, aber ich gebe zu, sie nicht wirklich zu verstehen.

Das heißt, ich versuche jetzt stattdessen R zu verwenden.

Wofür benutze ich das?

Dies sollte ursprünglich Teil eines kurzen Forschungsprojekts sein, das ich an der Universität mache, hat sich aber jetzt zu einem riesigen Projekt zur Annotation von Genomen entwickelt. Warum? Weil Bioinformatik cool ist. Es ist erstaunlich, eine Reihe von A, T, C und G zu verwenden, um Informationen über Ereignisse abzuleiten, die vor Millionen von Jahren stattgefunden haben.

Unnötig zu erwähnen, dass ich nicht versuchen werde, eine freundliche Antwort als meine eigene Arbeit einzureichen. Ich würde gerne eine Bestätigung in das Papier aufnehmen, wenn ich eine hier in der eingereichten Arbeit vorgeschlagene Methode verwende.

TDN169
quelle
1
Beachten Sie das Problem, das ich in meiner früheren Antwort auf Ihre andere Frage erwähnt habe - über das Testen nur gegen eine Variable, wenn es andere wichtige Variablen gibt (ich habe auf den Wikipedia-Artikel über Simpsons Paradoxon verwiesen) -, dass der genaue Test von Fisher das nicht umgeht.
Glen_b -State Monica
Bioinformatik ist cool !! Willkommen auf der Seite!
Kyle.
Ich werde bald zurückkommen und ausführlichere Antworten geben, aber die entsprechenden Funktionen in R sind loglin, loglm (im Paket MASS, das mit R geliefert wird, aber nicht standardmäßig installiert ist) und glm selbst. Das Verständnis dieser Modelle wird sehr ähnlich sein wie das Verständnis der multiplen Regression und der ANOVA - mit der Ausnahme, dass die Verteilungen nicht normal sind und die
Mittelwertprotokolle

Antworten:

1

Ich stimme zwar zu, dass der Fisher-Test (oder etwas Ähnliches) hier der natürlichste Ansatz ist, aber wie wäre es damit:

  1. Für jedes einzelne Gen bestimmen Sie den Unterschied in der Anzahl der Duplikationen in L und B.
  2. Ordnen Sie Gene nach diesem Unterschied. Jetzt stehen die Gene, die die meisten Unterschiede zwischen den Arten aufweisen, ganz oben auf Ihrer Liste.
  3. Wenden Sie einen Gen-Set-Anreicherungstest auf die geordnete Liste der Gene an. Zum Beispiel können Sie eine modifizierte Fisher-Methode aus meinem Paket tmod verwenden , für die Sie Ihre Gensätze definieren müssten (dies sollte recht einfach sein). Beachten Sie, dass die Fisher-Methode nicht mit dem Fisher-Test zusammenhängt.

Der modifizierte Fisher-Test (von den Autoren, die ihn in diesem Zusammenhang zuerst beschrieben haben, CERNO genannt ) nimmt jeden geordnete Liste von Genen als Eingabe, sofern Sie sie in einige nützliche Kategorien einteilen können.

Der Vorteil dieses Ansatzes besteht darin, dass Sie neben einem p-Wert die Effektgröße der Anreicherung leicht berechnen und visualisieren können (z. B. als ROC-Kurve über der geordneten Liste von Genen). Dies gibt Ihnen eine viel bessere Vorstellung davon, wie wichtig das, was Sie beobachten, für die Biologie, die Sie studieren, wirklich ist.

Januar
quelle
0

Wie Sie sagen, stellen Sie zwei unterschiedliche Fragen.

Frage 1 "unterscheidet sich das Verhältnis L * / L1 + von B * / B1 + für eine gegebene Genfunktion"

Dies lässt sich am besten mit dem genauen Test von Fisher beantworten, bei dem Daten in der gesamten Zeile verwendet werden, wie Sie sie zuvor gefunden haben.

Frage 2 "Ist das Verhältnis: Gene, bei denen es eine einzelne Kopie gibt, / Gene, bei denen es mehr als eine Kopie gibt, die sich zwischen den Genfunktionen unterscheiden?"

Ich denke, dies lässt sich auch am besten mit dem genauen Test von Fisher beantworten. Sie würden das Verhältnis von L * / L1 + für Genfunktion 1 zu L * / L1 + für Genfunktion 2 testen. Dann Genfunktion 1 gegen Genfunktion 3 usw.

Keine dieser Fragen stellt fest, ob sie rein zufällig schneller als erwartet gepflegt / gelöscht werden oder nicht, sondern nur, ob sie mit unterschiedlichen Raten gelöscht / gepflegt werden. Um zu wissen, ob sie mit einer anderen Rate als zufällig gelöscht / beibehalten wurden, müssen Sie das Verhältnis von Einzelkopie / Mehrfachkopie für viele DNA-Regionen kennen, die nur zufällig betroffen sind. Wenn Sie solche Regionen finden könnten, würden Sie eine "Funktionsgruppe" erhalten, in der die Funktion "Keine" ist. Sie würden dies dann auf die gleiche Weise mit Ihren anderen Genfunktionsgruppen vergleichen, wie ich es in Frage 2 beschrieben habe.

Phil A.
quelle