Wie passt man eine Poisson-Verteilung an Tabellendaten an?

8

Ich habe eine Tabelle mit und , die so sind, dass die Anzahl von sagt Anzahl der Kinder, die alle haben.y = ( 3062 , 587 , 284 , 103 , 33 , 4 , 2 ) x i y ix=(0,1,2,3,4,5,6)y=(3062,587,284,103,33,4,2)xiyi

Ich werde gebeten, eine Poisson-Distribution daran anzupassen.

Was bedeutet es, eine Poisson-Distribution daran anzupassen?

Hier, S. 8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf

Es wird gesagt, dass das Anpassen von Poisson die Berechnung von für jedes . Aber wo das tun go s? Passt es zur Berechnung der s?x y P ( X = x )P(X=x)xyP(X=x)

mavavilj
quelle
Sie werden aufgefordert, ein Poisson-Regressionsmodell an diese Daten anzupassen. Dies sollte helfen: onlinecourses.science.psu.edu/stat504/node/168 . Fügen Sie dieser Hausaufgabenfrage auch das Tag zum Selbststudium hinzu.
StatsStudent

Antworten:

11

Mit "Anpassen der Verteilung an die Daten" meinen wir, dass eine gewisse Verteilung (dh eine mathematische Funktion) als Modell verwendet wird , das verwendet werden kann, um die empirische Verteilung Ihrer Daten zu approximieren. Wenn Sie die Verteilung an die Daten anpassen, müssen Sie die Verteilungsparameter aus den Daten ableiten. Sie können dies tun, indem Sie eine Software verwenden, die dies automatisch für Sie erledigt (z. B. fitdistrplusin R), oder indem Sie diese von Hand aus Ihren Daten berechnen, z. B. mit maximaler Wahrscheinlichkeit (siehe entsprechenden Eintrag in Wikipedia zur Poisson-Verteilung ).

Auf dem Diagramm unten sehen Sie Ihre Daten mit angepasster Poisson-Verteilung. Wie Sie sehen können, passt die Linie nicht perfekt, da es sich nur um eine Annäherung handelt.

Geben Sie hier die Bildbeschreibung ein

Einer der Ansätze für dieses Problem besteht unter anderem darin, die maximale Wahrscheinlichkeit zu verwenden . Erinnern Sie sich daran, dass die Wahrscheinlichkeit eine Funktion der Parameter für die festen Daten ist. Durch Maximieren dieser Funktion können wir "wahrscheinlichste" Parameter finden, wenn wir die Daten haben, d. H.

L(λ|x1,,xn)=if(xi|λ)

wobei in Ihrem Fall die Poisson-Wahrscheinlichkeitsmassenfunktion ist. Der direkte numerische Weg, um ein geeignetes zu finden, wäre die Verwendung eines Optimierungsalgorithmus. Dazu definieren Sie zuerst die Wahrscheinlichkeitsfunktion und bitten dann den Algorithmus, den Punkt zu finden, an dem die Funktion ihr Maximum erreicht:λfλ

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Sie können etwas Seltsames an diesem Code bemerken: Ich multipliziere dpois()mit y. Die Daten, die Sie haben, werden in Form einer Tabelle bereitgestellt, in der für jeden Wert von die zugehörigen Zählwerte , während die Wahrscheinlichkeitsfunktion eher als Rohdaten als als solche Tabellen definiert ist. Sie könnten die Rohdaten aus diesen Werten neu erstellen, indem Sie jedes der genau mal (dh in R) wiederholen und dies als Eingabe für Ihre Statistiksoftware verwenden, aber Sie könnten einen klügeren Ansatz wählen. Die Wahrscheinlichkeit ist ein Produkt von . Das Multiplizieren von mit identischen -exakten Zeiten ist dasselbe wie Nehmeny i x i y i f ( x i | λ ) f ( x i | λ ) x i y i y i f ( x i | λ ) y ii f ( x i | λ ) y ii log f ( x i | λ ) × y ixiyixiyirep(x, y)f(xi|λ)f(xi|λ)xiyiyi te Potenz davon: . Hier maximieren wir die Log-Wahrscheinlichkeit (siehe hier, warum wir Log nehmen ), so dass zu: . Auf diese Weise haben wir die Wahrscheinlichkeitsfunktion für tabellarische Daten erhalten.f(xi|λ)yiif(xi|λ)yiilogf(xi|λ)×yi

Es gibt jedoch einen einfacheren Weg. Wir wissen, dass der empirische Mittelwert von der Maximum-Likelihood-Schätzer von (dh er ermöglicht es uns, einen solchen Wert von zu schätzen, der die Wahrscheinlichkeit maximiert). Anstatt also eine Optimierungssoftware zu verwenden, können wir einfach den Mittelwert berechnen. Da Sie Daten in Form einer Tabelle mit Zählwerten haben, besteht der direkteste Weg darin, einfach den gewichteten Mittelwert des gewichteten Mittelwerts von , wobei als Gewichte verwendet werden.xλλxiyi

mx <- sum(x*(y/sum(y)))

Dies führt zu identischen Ergebnissen, als hätten Sie aus den Rohdaten das arithmetische Mittel berechnet. Sowohl die Maximierung der Wahrscheinlichkeit mithilfe des Optimierungsalgorithmus als auch die Ermittlung des Mittelwerts führen zu fast genau den gleichen Ergebnissen:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

So ‚s sind nicht überall in Ihre Notizen erwähnt , wie sie künstlich als eine Möglichkeit geschaffen werden , die Speicherung dieser Daten in aggregierter Form (als Tabelle), und nicht alle die Auflistung roh ‘ s. Wie oben gezeigt, können Sie Daten in diesem Format nutzen.y4075x

Mit den obigen Verfahren können Sie das "am besten passende" diese Weise passen Sie die Verteilung an die Daten an - indem Sie solche Parameter der Verteilung finden, die sie an die empirischen Daten anpassen .λ


Sie haben kommentiert, dass es für Sie immer noch unklar ist, warum als Gewichte betrachtet werden. Das arithmetische Mittel kann als Sonderfall des gewichteten Mittelwerts betrachtet werden, bei dem alle Gewichte gleich und gleich :yi1/N

x1++xnN=1N(x1++xn)=1Nx1++1Nxn

Überlegen Sie nun, wie Ihre Daten gespeichert werden. und bedeutet, dass Sie vier Fünfer haben. , und bedeutet usw. Wenn Sie den Mittelwert berechnen müssen Sie sie zuerst summieren, also: . Dies führt dazu, dass Zählungen als Gewichte für den gewichteten Mittelwert verwendet werden, was genau dem arithmetischen Mittelwert mit Rohdaten entsprichty 6 =x6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6

x1y1++xnyny1++yn=x1y1N++xnynN=x1N++x1Ny1 times++xnN++xnNyn times

wobei . Die gleiche Idee wurde auf die Wahrscheinlichkeitsfunktion angewendet, die durch Zählungen gewichtet wurde. Was hier irreführend sein könnte, ist, dass wir in einigen Fällen , um den ten beobachteten Wert von , während in Ihrem Fall ein spezifischer Wert von , der mal beobachtet wurde. Wie bereits erwähnt, ist dies nur eine alternative Methode zum Speichern derselben Daten.x i i x x i x y iN=iyixiiXxiXyi

Tim
quelle
xky
P(X=xi)xi
λ
y
y
0

Ich denke, die Antwort ist, den Mittelwert der Daten zu finden, der das Lambda des Poisson-Prozesses sein wird. Wenn die Daten in der Häufigkeitstabelle enthalten sind, ermitteln Sie den erwarteten Wert / gewichteten Durchschnitt, der, wie oben erläutert, dem arithmetischen Durchschnitt der Rohdaten entspricht.

Aravot
quelle