Wie kann die Wahrscheinlichkeitsfunktion für die Binomialverteilung für die Parameterschätzung abgeleitet werden?

22

Gemäß Miller und Freund's Probability and Statistics for Engineers, 8ed (S. 217-218), wird die Wahrscheinlichkeitsfunktion zur Maximierung der Binomialverteilung (Bernoulli-Versuche) als angegeben

L(p)=ich=1npxich(1-p)1-xich

Wie kommt man zu dieser Gleichung? Was die anderen Distributionen Poisson und Gauß betrifft, scheint mir das ziemlich klar zu sein.

L(θ)=i=1nPDF or PMF of dist.

Aber die für Binomial ist nur ein bisschen anders. Um ehrlich zu sein, wie war das?

nCx px(1p)nx

werden

pxich(1-p)1-xich

in der obigen Wahrscheinlichkeitsfunktion?

Ébe Isaac
quelle

Antworten:

25

Bei der Maximum-Likelihood-Schätzung versuchen Sie, zu maximieren . Das Maximieren entspricht jedoch dem Maximieren von für ein festes . p x ( 1 - p ) n - x xnCx px(1-p)n-xpx(1-p)n-xx

Tatsächlich beziehen die Wahrscheinlichkeiten für Gauß und Poisson auch nicht die führenden Konstanten mit ein, so dass dieser Fall genau wie der für w ist


OPs ansprechen Kommentar

Hier ist ein bisschen mehr Detail:

Erstens ist die Gesamtzahl der Erfolge, während ein einzelner Versuch ist (0 oder 1). Deshalb:xxich

ich=1npxich(1-p)1-xich=p1nxich(1-p)1n1-xich=px(1-p)n-x

Das zeigt, wie Sie die Faktoren für die Wahrscheinlichkeit ermitteln (indem Sie die obigen Schritte rückwärts ausführen).

Warum verschwindet die Konstante? Informell und was die meisten Leute (einschließlich mir) tun, ist nur zu bemerken, dass die führende Konstante den Wert von , der die Wahrscheinlichkeit maximiert, nicht beeinflusst , also ignorieren wir ihn einfach (setzen ihn effektiv auf 1).p

Wir können dies ableiten, indem wir das Protokoll der Wahrscheinlichkeitsfunktion nehmen und herausfinden, wo ihre Ableitung Null ist:

ln(nCx px(1-p)n-x)=ln(nCx)+xln(p)+(n-x)ln(1-p)

Nehmen Sie die Ableitung wrt und setzen Sie sie auf :p0

ddpln(nCx)+xln(p)+(n-x)ln(1-p)=xp-n-x1-p=0

nx=1pp=xn

Beachten Sie, dass die führende Konstante aus der Berechnung des MLE herausgefallen ist.

Philosophisch gesehen ist eine Wahrscheinlichkeit nur für den Rückschluss bis zu einer Multiplikationskonstante von Bedeutung, so dass wenn wir zwei Wahrscheinlichkeitsfunktionen und , sie äquivalent sind. Dies nennt man das Gesetz der Wahrscheinlichkeit . Wenn wir also verschiedene Werte von mit der gleichen Wahrscheinlichkeitsfunktion vergleichen, wird der führende Term irrelevant.L1,L2L1=kL2p

Auf praktischer Ebene basiert die Inferenz unter Verwendung der Wahrscheinlichkeitsfunktion tatsächlich auf dem Wahrscheinlichkeitsverhältnis und nicht auf dem absoluten Wert der Wahrscheinlichkeit. Dies liegt an der asymptotischen Theorie der Wahrscheinlichkeitsverhältnisse (die asymptotisch Chi-Quadrat sind - unter bestimmten, oft angemessenen Regularitätsbedingungen). Aufgrund des Neyman-Pearson-Lemmas werden Likelihood-Ratio-Tests bevorzugt . Wenn wir also versuchen, zwei einfache Hypothesen zu testen, nehmen wir das Verhältnis und der gemeinsame Leitfaktor wird aufgehoben.

HINWEIS: Dies ist nicht der Fall, wenn Sie zwei verschiedene Modelle miteinander vergleichen, beispielsweise ein Binom und ein Poisson. In diesem Fall sind die Konstanten wichtig.

Von den oben genannten Gründen beantwortet der erste (irrelevant für das Finden des Maximierers von L) Ihre Frage am direktesten.


quelle
2
Wir können sehen, dass das die Idee ist. Aber können Sie etwas näher erläutern, wie entfernt und durch 1 ersetzt wird? nCxn
Ébe Isaac
@ ÉbeIsaac hat weitere Details hinzugefügt
2

xi im Produkt bezieht sich auf jeden einzelnen Versuch. Für jeden einzelnen Versuch kann xi 0 oder 1 sein und n ist immer gleich 1. Daher ist der Binomialkoeffizient trivial gleich 1. Daher ist in der Produktformel für die Wahrscheinlichkeit das Produkt der Binomialkoeffizienten 1 und daher gibt es kein nCx in der Formel. Dies wurde realisiert, als ich es Schritt für Schritt ausarbeitete :)

Abhishek Tiwari
quelle