Die negative Binomialverteilung hat sich in der Bioinformatik zu einem beliebten Modell für Zähldaten (insbesondere die erwartete Anzahl von Sequenzierungslesevorgängen innerhalb einer bestimmten Region des Genoms aus einem bestimmten Experiment) entwickelt. Erklärungen variieren:
- Einige erklären es als etwas, das wie die Poisson-Verteilung funktioniert, aber einen zusätzlichen Parameter hat, der mehr Freiheit bei der Modellierung der wahren Verteilung bietet, wobei die Varianz nicht unbedingt dem Mittelwert entspricht
- Einige erklären es als gewichtete Mischung von Poisson-Verteilungen (mit einer Gamma-Mischungsverteilung auf dem Poisson-Parameter)
Gibt es eine Möglichkeit, diese Gründe mit der traditionellen Definition einer negativen Binomialverteilung in Einklang zu bringen, indem die Anzahl der Erfolge von Bernoulli-Versuchen modelliert wird, bevor eine bestimmte Anzahl von Fehlern festgestellt wird? Oder sollte ich es einfach als glücklichen Zufall betrachten, dass eine gewichtete Mischung von Poisson-Verteilungen mit einer Gamma-Mischungsverteilung dieselbe Wahrscheinlichkeitsmassenfunktion wie das negative Binom hat?
quelle
Antworten:
IMOH, ich denke wirklich, dass die negative Binomialverteilung der Einfachheit halber verwendet wird.
In RNA Seq wird daher häufig davon ausgegangen, dass bei einer unendlichen Anzahl von Messungen desselben Gens in einer unendlichen Anzahl von Replikaten die tatsächliche Verteilung lognormal ist. Diese Verteilung wird dann über einen Poisson-Prozess (mit einer Zählung) abgetastet, so dass die wahre Verteilung, die pro Gen über Replikate gelesen wird, eine Poisson-Log-Normalverteilung wäre.
In Paketen wie EdgeR und DESeq wurde diese Verteilung jedoch als negative Binomialverteilung modelliert. Das liegt nicht daran, dass die Leute, die es geschrieben haben, nichts über eine Poisson Lognormal Distribution wussten.
Das liegt daran, dass die Poisson Lognormal-Verteilung eine schreckliche Sache ist, weil sie eine numerische Integration erfordert, um die Anpassungen usw. durchzuführen. Wenn Sie also tatsächlich versuchen, sie zu verwenden, ist die Leistung manchmal sehr schlecht.
Eine negative Binomialverteilung hat eine geschlossene Form, so dass es viel einfacher ist, mit ihr zu arbeiten, und die Gamma-Verteilung (die zugrunde liegende Verteilung) ähnelt einer logarithmischen Normalverteilung insofern, als sie manchmal normal aussieht und manchmal einen Schwanz hat.
Aber in diesem Beispiel (wenn Sie der Annahme glauben) kann es möglicherweise nicht theoretisch korrekt sein, da die theoretisch korrekte Verteilung das Poisson-Lognormal ist und die beiden Verteilungen vernünftige Annäherungen voneinander sind, aber nicht gleichwertig.
Aber ich denke immer noch, dass die "falsche" negative Binomialverteilung oft die bessere Wahl ist, da sie empirisch bessere Ergebnisse liefert, da die Integration langsam verläuft und die Anpassungen schlecht ablaufen können, insbesondere bei Verteilungen mit langen Schwänzen.
quelle
Betrachte die Zeittr r Γ(r,1/β). tr=λ/α tr Pois(λ). r
Das erklärt, warum diese Verteilungen gleich sind.
quelle
Ich kann nur Intuition anbieten, aber die Gammaverteilung selbst beschreibt (kontinuierliche) Wartezeiten (wie lange dauert es, bis ein seltenes Ereignis eintritt). Die Tatsache, dass eine gamma-verteilte Mischung diskreter Poissonverteilungen zu einer diskreten Wartezeit (Versuche bis zu N-Ausfällen) führen würde, scheint daher nicht zu überraschend. Ich hoffe jemand hat eine formellere Antwort.
Edit: Ich habe immer das negative Binomial dist begründet. Für die Sequenzierung gilt Folgendes: Der eigentliche Sequenzierungsschritt besteht einfach darin, Lesevorgänge aus einer großen Bibliothek von Molekülen zu entnehmen (Poisson). Diese Bibliothek wird jedoch durch PCR aus der ursprünglichen Probe hergestellt. Das bedeutet, dass die ursprünglichen Moleküle exponentiell amplifiziert werden. Und die Gamma-Verteilung beschreibt die Summe von k unabhängigen exponentiell verteilten Zufallsvariablen, dh wie viele Moleküle in der Bibliothek nach Amplifikation von k Probenmolekülen für die gleiche Anzahl von PCR-Zyklen vorhanden sind.
Daher die PCR mit negativen Binomialmodellen, gefolgt von Sequenzierung.
quelle
Ich werde versuchen, eine vereinfachende mechanistische Interpretation zu geben, die ich beim Nachdenken nützlich fand.
quelle