Kontinuierliche Verallgemeinerung der negativen Binomialverteilung

24

Die negative Binomialverteilung (NB) ist für nicht negative ganze Zahlen definiert und hat die WahrscheinlichkeitsmassenfunktionIst es sinnvoll, eine kontinuierliche Verteilung auf nicht negative Reelle zu betrachten, die durch dieselbe Formel definiert sind (wobei durch )? Der Binomialkoeffizient kann als ein Produkt von umgeschrieben werden , das für jedes reelle gut definiert ist . Wir hätten also ein PDF Im Allgemeinen können wir den Binomialkoeffizienten durch Gamma-Funktionen ersetzen und dabei nicht ganzzahlige Werte von : kN0xR0(k+1)(k+r-1)kf(x;r,p)r-1i=1(x+i)px(

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)kr f ( x ; r , p ) Γ ( x + r )
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Ist es eine gültige Distribution? Hat es einen Namen? Hat es irgendeine Verwendung? Ist es vielleicht eine Verbindung oder eine Mischung? Gibt es geschlossene Formeln für den Mittelwert und die Varianz (und die Proportionalitätskonstante im PDF)?

(Ich studiere derzeit eine Arbeit, die ein NB-Mischungsmodell (mit festem ) verwendet und es über EM anpasst. Die Daten sind jedoch nach einer gewissen Normalisierung Ganzzahlen, dh keine Ganzzahlen. Dennoch wenden die Autoren die Standard-NB-Formel an, um zu berechnen die Wahrscheinlichkeit und sehr vernünftige Ergebnisse zu erhalten, so scheint alles gut zu funktionieren. Ich fand es sehr rätselhaft. Beachten Sie, dass diese Frage nicht über NB GLM ist.)r=2

Amöbe sagt Reinstate Monica
quelle
1
Wäre das nicht eine Mischung aus Gammas mit dem Skalenparameter ? Wenn Sie das Polynom Sie einfach und multiplizieren dann mit ist dasselbe wie bei , wobei der Koeffizient von im Polynom ist und , also sieht es so aus, als würde es in a umgewandelt gewichteter Durchschnitt der Gamma-Verteilungen, dh eine Mischung. logpΠi=1r1(x+i)i=2raixi1pxexp{xlogp}aixi1logp<0
Jbowman
... sollte eigentlich in der obigen Summe sein. i=1
Jbowman
2
Da nur von den Parametern abhängt, ist es eine Konstante, die in der Proportionalität absorbiert werden kann. Darüber hinaus hat auch eine Konstante , die kann ignoriert werden. Wenn Sie für schreiben , fragen Sie nach einer Dichte, die proportional zuDas identifiziert als Skalierungsfaktor und als Formparameter. Für das Integral es eindeutig eine Mischung aus Gamma-Verteilungen. Es macht jedoch keinen Sinn, auf ganze Zahlen zu beschränken .(1p)r(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
Whuber
1
@whuber Richtig. Ich verwende tatsächlich eine Verteilung, die bei positiven Werten stetig ist und eine Punktmasse von Null hat. Ich glaube, das ist der richtige Ansatz. Es wurde mir jedoch vorgeschlagen, eine kontinuierliche Verallgemeinerung von NB zu verwenden, die eine Wahrscheinlichkeit ungleich Null bei Null hätte und daher anscheinend den Umgang mit exakten Nullen zulässt. Daher meine Frage.
Amöbe sagt Reinstate Monica
2
Ich denke , es kann einige Verwirrung in diesem Vorschlag sein: Es scheint eine conflate Wahrscheinlichkeit (das , was Masse ist ein Punkt hat oder eine NB Verteilung bei Null) mit einer Wahrscheinlichkeit Dichte (das ist , was der Wert von wäre). Eine Dichte ungleich Null erlaubt es Ihnen nicht, mit exakten Nullen umzugehen, da sie immer noch eine Null-Chance voraussagt, dass ein Wert von entsteht! f(0,θ)0
Whuber

Antworten:

21

Das ist eine interessante Frage. Meine Forschungsgruppe verwendet die Distribution, auf die Sie sich beziehen, seit einigen Jahren in unserer öffentlich zugänglichen Bioinformatik-Software. Soweit ich weiß, hat die Distribution keinen Namen und es gibt keine Literatur darüber. Während das von Aksakal zitierte Paper von Chandra et al. (2012) eng verwandt ist, scheint die von ihnen betrachtete Verteilung auf ganzzahlige Werte für beschränkt zu sein, und sie scheinen keinen expliziten Ausdruck für das PDF zu geben.r

Um Ihnen einige Hintergrundinformationen zu geben, wird die NB-Verteilung in der Genomforschung sehr häufig verwendet, um Genexpressionsdaten zu modellieren, die sich aus RNA-seq und verwandten Technologien ergeben. Die Zähldaten entstehen als Anzahl der DNA- oder RNA-Sequenzablesungen, die aus einer biologischen Probe extrahiert wurden, die auf jedes Gen abgebildet werden kann. Typischerweise gibt es Dutzende Millionen Lesevorgänge von jeder biologischen Probe, die auf ungefähr 25.000 Gene abgebildet sind. Alternativ könnte man DNA-Proben haben, aus denen Lesungen auf genomische Fenster abgebildet werden. Wir und andere haben einen Ansatz populär gemacht, bei dem NB glms an die Sequenzablesungen für jedes Gen angepasst werden und empirische Bayes-Methoden verwendet werden, um die genweisen Dispersionsschätzer (Dispersion zu moderierenϕ=1/r). Dieser Ansatz wurde in Zehntausenden von Zeitschriftenartikeln in der Genomliteratur zitiert, sodass Sie eine Vorstellung davon bekommen, wie viel davon verwendet wird.

Meine Gruppe verwaltet das Softwarepaket edgeR R. Vor einigen Jahren haben wir das gesamte Paket so überarbeitet, dass es mit gebrochenen Zählern unter Verwendung einer kontinuierlichen Version des NB pmf funktioniert. Wir haben einfach alle Binomialkoeffizienten in der NB pmf in Verhältnisse von Gammafunktionen konvertiert und als (gemischtes) kontinuierliches PDF verwendet. Die Motivation dafür war, dass die Anzahl der gelesenen Sequenzen manchmal gebrochen sein kann, weil (1) Lesevorgänge nicht eindeutig auf das Transkriptom oder Genom abgebildet werden und / oder (2) die Anzahl normalisiert wird, um technische Effekte zu korrigieren. Daher sind die Zählungen manchmal eher erwartete oder geschätzte Zählungen als beobachtete Zählungen. Und natürlich können die Lesezahlen mit positiver Wahrscheinlichkeit genau null sein. Unser Ansatz stellt sicher, dass die Inferenzergebnisse unserer Software in den Zählungen kontinuierlich sind und genau mit diskreten NB-Ergebnissen übereinstimmen, wenn die geschätzten Zählungen Ganzzahlen sind.

Soweit mir bekannt ist, gibt es im PDF weder eine geschlossene Form für die Normalisierungskonstante noch geschlossene Formen für den Mittelwert oder die Varianz. Wenn man bedenkt, dass es für das Integral (die Fransen-Robinson-Konstante) keine geschlossene Form gibt, ist klar, dass es für das Integral des stetigen keine geben kann NB pdf entweder. Es scheint mir jedoch, dass die traditionellen Mittelwert- und Varianzformeln für die NB weiterhin gute Näherungswerte für die kontinuierliche NB darstellen sollten. Darüber hinaus sollte die Normierungskonstante langsam mit den Parametern variieren und kann daher ignoriert werden, da sie einen vernachlässigbaren Einfluss auf die Maximalwahrscheinlichkeitsberechnungen hat.

01Γ(x)dz

Man kann diese Hypothesen durch numerische Integration bestätigen. Die NB-Verteilung entsteht in der Bioinformatik als eine Gamma-Mischung von Poisson-Verteilungen (siehe den Wikipedia-Artikel über negative Binomialzahlen oder McCarthy et al. Unten). Die kontinuierliche NB-Verteilung entsteht einfach durch Ersetzen der Poisson-Verteilung durch ihr kontinuierliches Analogon durch pdf für wobei eine Normalisierungskonstante ist, um sicherzustellen, dass die Dichte zu 1 integriert wird. Nehmen wir zum Beispiel an, dass . Die Poisson-Verteilung hat pmf gleich dem obigen pdf für die nicht negativen ganzen Zahlen und mit

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10Der Poisson-Mittelwert und die Varianz sind gleich 10. Die numerische Integration zeigt, dass und der Mittelwert und die Varianz der kontinuierlichen Verteilung gleich 10 bis ungefähr 4 signifikante Zahlen sind. Die Normierungskonstante ist also praktisch 1 und der Mittelwert und die Varianz sind fast genau die gleichen wie für die diskrete Poisson-Verteilung. Die Annäherung wird noch verbessert, wenn wir eine Kontinuitätskorrektur hinzufügen, die von bis anstelle von 0 integriert. Bei der Kontinuitätskorrektur ist alles korrekt (Normierungskonstante ist 1 und Momente stimmen mit diskretem Poisson überein) bis ungefähr 6 zahlen.a(10)=1/0.9998751/2

In unserem edgeR-Paket müssen wir keine Anpassung vornehmen, um die Tatsache zu berücksichtigen, dass die Masse bei Null liegt, da wir immer mit bedingten Log-Wahrscheinlichkeiten oder mit Log-Wahrscheinlichkeiten-Differenzen arbeiten und Delta-Funktionen aus den Berechnungen herausfallen. Dies ist typisch für Glms mit gemischten Wahrscheinlichkeitsverteilungen. Alternativ könnten wir die Verteilung so betrachten, dass sie keine Masse bei Null hat, sondern eine Unterstützung, die bei -1/2 statt bei Null beginnt. Jede theoretische Perspektive führt in der Praxis zu denselben Berechnungen.

Obwohl wir die kontinuierliche NB-Distribution aktiv nutzen, haben wir nichts explizit darüber veröffentlicht. Die unten aufgeführten Artikel erläutern den NB-Ansatz für Genomdaten, erörtern jedoch nicht explizit die kontinuierliche NB-Verteilung.

Zusammenfassend wundert es mich nicht, dass der Artikel, den Sie studieren, vernünftige Ergebnisse aus einer fortlaufenden Version des NB pdf erzielt hat, denn das ist auch unsere Erfahrung. Die Hauptanforderung ist, dass wir die Mittelwerte und Varianzen korrekt modellieren und dass dies in Ordnung ist, vorausgesetzt, dass die Daten, ob ganzzahlig oder nicht, dieselbe Form der quadratischen Mittelwert-Varianz-Beziehung aufweisen wie die NB-Verteilung.

Verweise

Robinson, M. und Smyth, GK (2008). Kleine Stichprobenschätzung der negativen Binomialdispersion mit Anwendungen auf SAGE-Daten . Biostatistics 9, 321 & ndash; 332.

Robinson, MD und Smyth, GK (2007). Moderierte statistische Tests zur Beurteilung der Unterschiede in der Häufigkeit von Tags . Bioinformatics 23, 2881 & ndash; 2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Differentialexpressionsanalyse von Multifaktor-RNA-Seq-Experimenten im Hinblick auf biologische Variation . Nucleic Acids Research 40, 4288 & ndash; 4297.

Chen, Y, Lun, ATL und Smyth, GK (2014). Differenzielle Expressionsanalyse komplexer RNA-Sequenz-Experimente unter Verwendung von edgeR. In: Statistical Analysis of Next Generation Sequence Data, Somnath Datta und Daniel S. Nettleton (Hrsg.), Springer, New York, S. 51–74. Preprint

Lun, ATL, Chen, Y und Smyth, GK (2016). Es ist DE-licious: ein Rezept für die Analyse der differentiellen Expression von RNA-seq-Experimenten unter Verwendung von Quasi-Likelihood-Methoden in edgeR. Methods in Molecular Biology 1418, 391 & ndash; 416. Preprint

Chen Y, Lun ATL und Smyth, GK (2016). Von Reads über Gene bis hin zu Signalwegen: Analyse der differentiellen Expression von RNA-Seq-Experimenten unter Verwendung von Rsubread und der EdgeR-Quasi-Likelihood-Pipeline . F1000Research 5, 1438.

Gordon Smyth
quelle
Das ist sehr hilfreich, @Gordon; Vielen Dank, dass Sie sich die Zeit genommen haben, es aufzuschreiben. Da ich auch mit RNA-seq-Daten arbeite, ist eine Antwort aus dieser Perspektive besonders wertvoll (ich habe der Frage jetzt das [bioinformatics] -Tag hinzugefügt). In Ihrer Arbeit geht es um differentiellen Ausdruck, während es in meiner aktuellen Arbeit um Clustering geht (der Artikel, den ich las, ist Harris et al. Über CA1-Interneurone; Biorxiv ). Wie auch immer, lassen Sie mich Ihnen ein paar kleine Fragen / Erläuterungen stellen. [Forts.]
Amöbe sagt Reinstate Monica
(1) Sie sagten, dass Continuous NB eine Gammamischung von Continuous Poissons ist. Könntest du es ein bisschen erweitern, vielleicht etwas expliziter zeigen? Ich denke, das wird für das allgemeine Publikum nützlich sein. Im Zusammenhang damit schrieben in den Kommentaren zu meiner Frage zwei Leute, dass Continuous NB eine Mischung aus Gammas mit dem Skalenparameter , aber nur für Integer . Sind beide Ansichten wahr? (2) Sie sagten, dass die Delta-Funktion auf Null für GLMs keine Rolle spielt. Gleichzeitig gibt es umfangreiche Literatur zu GLMs mit nicht aufgeblasenen Verteilungen. Wie passt das zusammen? log(p)r
Amöbe sagt Reinstate Monica
(3) Verwenden Sie in Ihrer praktischen Arbeit ML, um alle Parameter einschließlich abzuschätzen , oder fixieren Sie im Voraus auf einen bestimmten Wert (vielleicht den gleichen Wert, der für alle Gene gilt?) Und halten Sie ihn dann konstant? Ich würde vermuten, dass dies viel einfacher sein sollte. (ZB NB selbst ist exponentielle Dispersionsfamilie, aber nur mit festem )rrr
Amöbe sagt Reinstate Monica
1
@amoeba Danke für die biorxiv ref. (1) Die Ableitung von NB als Mischung von Poissons ist allgemein bekannt und wird in unseren Veröffentlichungen z. B. von McCarthy et al. Die Ableitung des kontinuierlichen NB folgt nur durch Ersetzen von Poisson durch kontinuierliches Poisson. Sollte ich dies zu meiner Antwort hinzufügen? Würde es lang machen. Ich verstehe nicht, wie die kontinuierliche NB als Mischung von Gammas sinnvoll dargestellt werden könnte. (2) Nein, Null-Inflation ist eine andere zusätzliche Komplikation. Wir vermeiden diese Komplikation bei unserer Arbeit.
Gordon Smyth
1
@amoeba (3) Wir schätzen alle Parameter. Es ist entscheidend, die genweisen Dispersionen zu schätzen, um eine Fehlerratenkontrolle zu erreichen. Dies muss mit besonderer Sorgfalt erfolgen, da die Stichprobengrößen oft winzig sind und die Dimension der Daten sehr groß ist. Wir verwenden ein komplexes Verfahren, das eine angepasste Profilwahrscheinlichkeit (REML) innerhalb jedes Gens beinhaltet, die mit einem empirischen Bayes-Verfahren mit gewichteter Wahrscheinlichkeit zwischen Genen verknüpft ist. Die genewise NB glms werden dann von ML mit den fixierten Dispersionen angepasst. Schließlich werden Koeffizienten unter Verwendung von Quasi-Wahrscheinlichkeits-F-Tests getestet.
Gordon Smyth
19

Schauen Sie sich dieses Papier an: Chandra, Nimai Kumar und Dilip Roy. Eine kontinuierliche Version der negativen Binomialverteilung. Statistica 72, No. 1 (2012): 81 .

Es wird in der Arbeit als die Überlebensfunktion definiert, was ein natürlicher Ansatz ist, da Neg-Binomial in der Zuverlässigkeitsanalyse eingeführt wurde:

q=e-λ,λ0,p+q=1rN,r>0

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
wobei und .q=eλ,λ0,p+q=1rN,r>0
Aksakal
quelle
Vielen Dank! Ich werde mir dieses Papier ansehen. (Ich habe nicht abgestimmt.)
Amöbe sagt Reinstate Monica
@ Amoeba, ich mache mir keine Sorgen über Abstimmungen, es ist Internet :)
Aksakal
3
(Es ist bizarr, dass diese Antwort abgelehnt wurde ...) +1
whuber
Es ist gut, diese Referenz zu haben, aber im Idealfall möchte ich hier eine detailliertere Diskussion sehen. Definiert diese Überlebensfunktion die gleiche Verteilung wie das PDF in meiner Frage? (Übrigens finde ich es etwas seltsam, dass die Autoren Binomialkoeffizienten für nicht ganzzahlige Werte von .) Mehrere Kommentare oben weisen darauf hin, dass dies eine Mischung aus Gammaverteilungen ist (ich sehe keine Diskussion darüber in das Papier); Was sind die Parameter dieser Gammas, was sind die Mischgewichte? Halten die NB-Formeln für den Mittelwert und die Varianz für die kontinuierliche Version? x
Amöbe sagt Reinstate Monica
@amoeba, die Zeitung hat Momente, sie sind leider nicht die gleichen wie in NB
Aksakal