Ich habe eine Tabelle mit und , die so sind, dass die Anzahl von sagt Anzahl der Kinder, die alle haben.y = ( 3062 , 587 , 284 , 103 , 33 , 4 , 2 ) x i y i
Ich werde gebeten, eine Poisson-Distribution daran anzupassen.
Was bedeutet es, eine Poisson-Distribution daran anzupassen?
Hier, S. 8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf
Es wird gesagt, dass das Anpassen von Poisson die Berechnung von für jedes . Aber wo das tun go s? Passt es zur Berechnung der s?x y P ( X = x )
Antworten:
Mit "Anpassen der Verteilung an die Daten" meinen wir, dass eine gewisse Verteilung (dh eine mathematische Funktion) als Modell verwendet wird , das verwendet werden kann, um die empirische Verteilung Ihrer Daten zu approximieren. Wenn Sie die Verteilung an die Daten anpassen, müssen Sie die Verteilungsparameter aus den Daten ableiten. Sie können dies tun, indem Sie eine Software verwenden, die dies automatisch für Sie erledigt (z. B.
fitdistrplus
in R), oder indem Sie diese von Hand aus Ihren Daten berechnen, z. B. mit maximaler Wahrscheinlichkeit (siehe entsprechenden Eintrag in Wikipedia zur Poisson-Verteilung ).Auf dem Diagramm unten sehen Sie Ihre Daten mit angepasster Poisson-Verteilung. Wie Sie sehen können, passt die Linie nicht perfekt, da es sich nur um eine Annäherung handelt.
Einer der Ansätze für dieses Problem besteht unter anderem darin, die maximale Wahrscheinlichkeit zu verwenden . Erinnern Sie sich daran, dass die Wahrscheinlichkeit eine Funktion der Parameter für die festen Daten ist. Durch Maximieren dieser Funktion können wir "wahrscheinlichste" Parameter finden, wenn wir die Daten haben, d. H.
wobei in Ihrem Fall die Poisson-Wahrscheinlichkeitsmassenfunktion ist. Der direkte numerische Weg, um ein geeignetes zu finden, wäre die Verwendung eines Optimierungsalgorithmus. Dazu definieren Sie zuerst die Wahrscheinlichkeitsfunktion und bitten dann den Algorithmus, den Punkt zu finden, an dem die Funktion ihr Maximum erreicht:λf λ
Sie können etwas Seltsames an diesem Code bemerken: Ich multiplizierexich yi xi yi f(xi|λ) f(xi|λ) xi yi yi te Potenz davon: . Hier maximieren wir die Log-Wahrscheinlichkeit (siehe hier, warum wir Log nehmen ), so dass zu: . Auf diese Weise haben wir die Wahrscheinlichkeitsfunktion für tabellarische Daten erhalten.f(xi|λ)yi ∏if(xi|λ)yi ∑ilogf(xi|λ)×yi
dpois()
mity
. Die Daten, die Sie haben, werden in Form einer Tabelle bereitgestellt, in der für jeden Wert von die zugehörigen Zählwerte , während die Wahrscheinlichkeitsfunktion eher als Rohdaten als als solche Tabellen definiert ist. Sie könnten die Rohdaten aus diesen Werten neu erstellen, indem Sie jedes der genau mal (dh in R) wiederholen und dies als Eingabe für Ihre Statistiksoftware verwenden, aber Sie könnten einen klügeren Ansatz wählen. Die Wahrscheinlichkeit ist ein Produkt von . Das Multiplizieren von mit identischen -exakten Zeiten ist dasselbe wie Nehmeny i x i y i f ( x i | λ ) f ( x i | λ ) x i y i y i f ( x i | λ ) y i ∏ i f ( x i | λ ) y i ∑ i log f ( x i | λ ) × y irep(x, y)
Es gibt jedoch einen einfacheren Weg. Wir wissen, dass der empirische Mittelwert von der Maximum-Likelihood-Schätzer von (dh er ermöglicht es uns, einen solchen Wert von zu schätzen, der die Wahrscheinlichkeit maximiert). Anstatt also eine Optimierungssoftware zu verwenden, können wir einfach den Mittelwert berechnen. Da Sie Daten in Form einer Tabelle mit Zählwerten haben, besteht der direkteste Weg darin, einfach den gewichteten Mittelwert des gewichteten Mittelwerts von , wobei als Gewichte verwendet werden.x λ λ xi yi
Dies führt zu identischen Ergebnissen, als hätten Sie aus den Rohdaten das arithmetische Mittel berechnet. Sowohl die Maximierung der Wahrscheinlichkeit mithilfe des Optimierungsalgorithmus als auch die Ermittlung des Mittelwerts führen zu fast genau den gleichen Ergebnissen:
So ‚s sind nicht überall in Ihre Notizen erwähnt , wie sie künstlich als eine Möglichkeit geschaffen werden , die Speicherung dieser Daten in aggregierter Form (als Tabelle), und nicht alle die Auflistung roh ‘ s. Wie oben gezeigt, können Sie Daten in diesem Format nutzen.y 4075 x
Mit den obigen Verfahren können Sie das "am besten passende" diese Weise passen Sie die Verteilung an die Daten an - indem Sie solche Parameter der Verteilung finden, die sie an die empirischen Daten anpassen .λ
Sie haben kommentiert, dass es für Sie immer noch unklar ist, warum als Gewichte betrachtet werden. Das arithmetische Mittel kann als Sonderfall des gewichteten Mittelwerts betrachtet werden, bei dem alle Gewichte gleich und gleich :yi 1/N
Überlegen Sie nun, wie Ihre Daten gespeichert werden. und bedeutet, dass Sie vier Fünfer haben. , und bedeutet usw. Wenn Sie den Mittelwert berechnen müssen Sie sie zuerst summieren, also: . Dies führt dazu, dass Zählungen als Gewichte für den gewichteten Mittelwert verwendet werden, was genau dem arithmetischen Mittelwert mit Rohdaten entsprichty 6 =x6=5 y6=4 x6={5,5,5,5} x7=6 y7=2 x7={6,6} 5+5+5+5=5×4=x6×y6
wobei . Die gleiche Idee wurde auf die Wahrscheinlichkeitsfunktion angewendet, die durch Zählungen gewichtet wurde. Was hier irreführend sein könnte, ist, dass wir in einigen Fällen , um den ten beobachteten Wert von , während in Ihrem Fall ein spezifischer Wert von , der mal beobachtet wurde. Wie bereits erwähnt, ist dies nur eine alternative Methode zum Speichern derselben Daten.x i i x x i x y iN=∑iyi xi i X xi X yi
quelle
Ich denke, die Antwort ist, den Mittelwert der Daten zu finden, der das Lambda des Poisson-Prozesses sein wird. Wenn die Daten in der Häufigkeitstabelle enthalten sind, ermitteln Sie den erwarteten Wert / gewichteten Durchschnitt, der, wie oben erläutert, dem arithmetischen Durchschnitt der Rohdaten entspricht.
quelle