Verständnis der Parameter in der negativen Binomialverteilung

37

Ich habe versucht, meine Daten in verschiedene Modelle einzufügen, und dabei herausgefunden, dass die fitdistrFunktion aus der Bibliothek MASSvon Rmir Negative Binomialdie beste Anpassung ergibt . Auf der Wiki- Seite lautet die Definition nun:

Die NegBin (r, p) -Verteilung beschreibt die Wahrscheinlichkeit von k Fehlern und r Erfolgen in k + r Bernoulli (p) -Studien mit Erfolg in der letzten Studie.

Wenn Rich Modellanpassungen durchführe, erhalte ich zwei Parameter meanund dispersion parameter. Ich verstehe nicht, wie ich diese interpretieren soll, da ich diese Parameter auf der Wiki-Seite nicht sehen kann. Alles was ich sehen kann ist die folgende Formel:

Negative Binomialverteilungsformel

wo kist die Anzahl der Beobachtungen und r=0...n. Wie beziehe ich diese nun mit den Parametern von R? Die Hilfedatei enthält ebenfalls nicht viele Informationen.

Um nur ein paar Worte zu meinem Experiment zu sagen: In einem sozialen Experiment, das ich durchführte, habe ich versucht, die Anzahl der Personen zu zählen, die jeder Benutzer in einem Zeitraum von 10 Tagen kontaktiert hat. Die Populationsgröße betrug 100 für das Experiment.

Wenn das Modell zum negativen Binomial passt, kann ich blind sagen, dass es dieser Verteilung folgt, aber ich möchte die intuitive Bedeutung dahinter wirklich verstehen. Was bedeutet es zu sagen, dass die Anzahl der von meinen Testpersonen kontaktierten Personen einer negativen Binomialverteilung folgt? Kann jemand bitte helfen, dies zu klären?

Legende
quelle

Antworten:

42

kθ1/θθ

Ben Bolker
quelle
7
hmm. Ich frage mich, warum die Ablehnung?
Ben Bolker
Die NB-Formulierung (Mean, Dispersion) ist auch im Abschnitt über alternative Formulierungen ( en.wikipedia.org/wiki/… ) beschrieben, der sich jetzt auf dieser Wiki-Seite befindet.
mt1022
10

Wie ich bereits in meinem früheren Beitrag an Sie erwähnt habe, arbeite ich daran, eine Distribution so anzupassen, dass auch Daten gezählt werden. Folgendes habe ich gelernt:

Wenn die Varianz größer als der Mittelwert ist, ist eine Überdispersion offensichtlich und daher ist die negative Binomialverteilung wahrscheinlich angemessen. Wenn die Varianz und der Mittelwert gleich sind, wird die Poisson-Verteilung vorgeschlagen, und wenn die Varianz kleiner als der Mittelwert ist, wird die Binomialverteilung empfohlen.

Mit den Zähldaten, an denen Sie arbeiten, verwenden Sie die "ökologische" Parametrisierung der Negative Binomial-Funktion in R. Auf diese wird (im Kontext) in Abschnitt 4.5.1.3 (Seite 175) des folgenden frei verfügbaren Buches speziell hingewiesen von R, nicht weniger!) und ich hoffe, einige Ihrer Fragen beantworten zu können:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Wenn Sie zu dem Schluss kommen, dass Ihre Daten null-abgeschnitten sind (dh die Wahrscheinlichkeit von 0 Beobachtungen ist 0), möchten Sie möglicherweise die null-abgeschnittene Variante des NBD überprüfen, der im R VGAM-Paket enthalten ist .

Hier ist ein Beispiel für die Anwendung:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Ich hoffe das ist hilfreich.

Jeff Tyzzer
quelle
Seite 165 im Buch.
SmallChess