Zunächst möchte ich präzisieren, dass ich kein Experte für dieses Thema bin.
Angenommen, zwei Zufallsvariablen und sind binomisch, bzw. Beachten Sie hier, dass gleich ist. Ich weiß, dass
Sei eine Stichprobe für und eine Stichprobe für , gibt es eine Standardmethode zur Schätzung von und ?
Folgendes haben wir getan:
- nimm die "neue Probe" für gegeben durch ,
- Mit dem Likelihood Estimator erhalten wir Schätzungen für und ,
- Mit den Fisher-Informationen versuchen wir, die Fehler über und zu verstehen .
Die Methode scheint zu funktionieren, aber wir haben immer noch einige Zweifel. Sei die Gruppe der Permutation über Elemente. Für jedes wir die "Stichprobe" betrachten, die durchWenn wir den Likelihood Estimator für jede der "neuen Stichproben" anwenden (es gibt Unterschiedliche Summen), erhalten wir unterschiedliche Schätzungen für und .
Was ist die Bedeutung davon? Wie korrelieren die neuen Werte ? Es kann zur Berechnung des Fehlers für ? Verwendet werden .
Einige Kommentare: Die Frage wurde zuvor hier gestellt , aber ein Benutzer schlägt mir vor, tats / crossvalidated SE zu verwenden.
In dem Beispiel, an das ich denke, ist die Anzahl der Vögel in einer bestimmten Region und die Sichtbarkeitswahrscheinlichkeit. Ich muss Regionen mit ähnlichem aggregieren , sonst sind die Daten zu klein. Insbesondere brauche ich, wenn möglich, eine Schätzung nur für , wobei a priori unbekannt istp p n p
Ein Beispiel Um klar zu sein und die Antwort von kjetil b halvorsen zu sehen, werde ich versuchen, hier ein praktisches Beispiel zu nennen. Angenommen, wir haben nur eine Region, die mit einer Wahrscheinlichkeit gleich einem festen in zwei Zonen unterteilt ist, und unsere Daten lauten wie folgt:
Zone 1 Zone 2
a1 b1
a2 b2
a3 b3
a4 b4
a5 b5
a6 b6
Wir können dann Folgendes berücksichtigen:
Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
c4
c5
c6
Dann können wir die Loglikelihood-Methode verwenden, um und auch zu schätzen, wobei der Parameter für das Binomial der beobachteten Variablen in Zone . Ist es richtig? p N i i
Jetzt weiß ich, dass die Wahrscheinlichkeitsmethode nicht stabil ist (für mich bedeutet stabil nur gut). Können wir die Fisher-Informationen verwenden? Wenn ja, welche Informationen können wir haben?
Schließlich sei und zwei Permutationen über Elemente (es gibt verschiedene Paare), als wir die neuen Daten von betrachten könnenτ 6 ( 6 ! ) 2
Zone 1 + 2
c1 = a + b
c2 = a + b
c3 = a + b
c4 = a + b
c5 = a + b
c6 = a + bτ ( 1 ) σ ( 2 ) τ ( 2 ) σ ( 3 ) τ ( 3 ) σ ( 4 ) τ ( 4 ) σ ( 5 ) τ ( 5 ) σ ( 6 ) τ ( 6 )
Wenn wir die Wahrscheinlichkeitsmethode mit diesen neuen Variablen , erhalten wir unterschiedliche Schätzungen für .
Die Frage ist also: Gibt mir die Schätzung einige Informationen über die Fehler?
quelle
Antworten:
Ich werde eine Antwort versuchen, auch wenn mir die Situation nicht ganz klar ist. Formeln müssen angepasst werden! Das Problem der Schätzung von in der Binomialverteilung ist alt und es gibt mehrere relevante Arbeiten. Ich werde am Ende einige Referenzen geben.N
Es gebe Regionen (im OP-Beispiel ) mit Abtastwerten (aus disjunkten Zeitintervallen gleicher Länge) aus jeder Region. Die beobachteten Variablen sind die unabhängige binomische Zufallsvariablen sind, wobei die Verteilung beide unbekannt ist. Die Log-Likelihood-Funktion wird zu Beachten Sie, dass in dem üblichen Problem, wenn ist, so dass nur unbekannt ist, die Summe (oder der Mittelwert) des BinomialsR R=2 T xit Bin(Ni,p) ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit) Ni p xit ist eine ausreichende Zusammenfassung, so dass die Analyse hinsichtlich der Binomialverteilung der Summe durchgeführt werden kann. In unserem Problem ist dies jedoch aufgrund des ersten Terms in der Log-Likelihood-Funktion nicht der Fall, und die Log-Likelihood hängt von jeder einzelnen Zählung ab! Also, was Sie vorschlagen, um auf die Summe der Zählungen (über ) zu reduzieren , sollte nicht getan werden, da dies Informationen verlieren wird (wie viel, ich weiß nicht, aber das kann untersucht werden ...). Versuchen wir das etwas besser zu verstehen. Zuerst sehen wir unten, dass ein konsistenter Schätzer voni maxt(xit) Ni Dieser konsistente Schätzer ist jedoch keine Funktion der summierten Zählungen. Dies ist ein klarer Hinweis darauf, dass die Summierung Informationen verliert! Beachten Sie auch, dass der Mittelwert ein unvoreingenommener Schätzer seiner Erwartung ist, der , aber keine Informationen über und einzeln zu enthalten scheint , wenn nichts über den anderen Parameter bekannt ist. zeigt an, dass nützliche Informationen über in der Wahrscheinlichkeitsfunktion in der Streuung der WerteNip Ni p Ni xi1…,xiT Dies zeigt erneut an, dass die Summierung schlecht ist. Das unten erwähnte Papier von Olkin et al. Zeigt in der Tat, dass der Schätzer der Momentmethode in vielen Fällen besser ist als die maximale Wahrscheinlichkeit! und das nutzt die empirische Varianz der , konnte also nicht aus den summierten Daten berechnet werden.xi1…,xiT
Es ist bekannt, dass dieses Problem instabil ist. Versuchen wir zu verstehen warum. In dem üblichen Problem, bei dem geschätzt wird, wenn bekannt ist, kann die Schätzung aus einer der Daten, dem Mittelwert, erfolgen. Wenn wir versuchen, sowohl als auch zu schätzen , verwenden wir viel feinere Eigenschaften der Log-Likelihood-Funktion (also der Daten). Um zu sehen, warum, denken Sie daran, dass wir die Poisson-Verteilung als Grenze des Binomials erhalten können, wenn auf Null geht und ohne Grenzen mit einem konstant positiven Produkt wächst. Also, wenn klein ist undp Ni Ni p p N p N groß, wird die Binomialverteilung ziemlich nahe an dieser Grenze liegen. Nehmen Sie zwei Fälle: (A) , (B) . Zeichnen Sie Histogramme für die beiden (Binomial-) Verteilungen:N=100,p=0.01 N=20,p=0.05
Über einer Tabelle dieser Wahrscheinlichkeiten. Um anhand der beobachteten Daten zu erkennen, welche dieser beiden Verteilungen man hat, muss in diesem Fall entschieden werden, ob oder . Es ist offensichtlich ziemlich schwierig, und die Instabilität der resultierenden Schätzer ist nur zu erwarten. Dieses Beispiel zeigte auch, dass die Instabilität hauptsächlich für kleine . Sie sagen, Sie erwarten um 0,7, also könnte das Problem dann stabiler sein. Sie können dies für Ihre Daten untersuchen, indem Sie den Maximum-Likelihood-Schätzer als Funktion eines bekannten und diesen für zeichnenN=100 N=20 p p p p in einem gewissen Konfidenzintervall. Oder Sie könnten volle Bayes gehen, dies ist ein Fall, in dem sogar einige ziemlich vage vorherige Informationen hilfreich sein könnten.
Die Parameter sind tatsächlich schätzbar. Es ist klar, dass , so dass es möglich ist, diese maximale Anzahl als Schätzer für . Dieser Schätzer ist stark konsistent, und ein Parameter mit einem konsistenten Schätzer muss schätzbar sein. Wie das obige Beispiel zeigt, ist die Schätzbarkeit fast eine Formalität; In der Praxis sind Verteilungen mit sehr unterschiedlichen sehr eng, so dass sehr schwach abschätzbar ist.Ni≥maxt(xit) N N N
Ich werde hier keine Details zu den Schätzmethoden geben, aber einige Referenzen, die Sie überprüfen können:
Ingram Olkin, A John Petkau, James V Zidek: Ein Vergleich von N Schätzern für die Binomialverteilung. JASA 1981. Dies ist ein klassisches Papier, das ML- und Momentschätzer sowie einige stabilere Varianten entwickelt und analysiert. Interessanterweise zeigt sich auch, dass in vielen Fällen der Schätzer für die Momentmethode besser ist als der ML-Schätzer!
Raymond J Carrol und F Lombard: Ein Hinweis zu N Schätzern für die Binomialverteilung. JASA 1985.p
Entwickelt einen alternativen, stabileren und vielleicht besseren Schätzer, der auf der Integration von aus der Wahrscheinlichkeit basiert . Stellt auch fest, dass die summierten Zählungen nicht ausreichen.
J Andrew Royle: N_Mixture-Modelle zur Schätzung der Populationsgröße anhand räumlich replizierter Zählungen. Biometrics, 2004. Dies gibt einen anderen, alternativen Bayes'schen Ansatz, den Sie versuchen können.
Zurück zu Ihrer konkreten Frage. Sie sollten die Zählungen über Ihre beiden Regionen NICHT summieren! Das wird Informationen verlieren. Wenn Sie einführen, kann die Log-Likelihood-Funktion als Funktion von , und (oder ) geschrieben werden. Dann sollte der zusätzliche Parameter durch eine Prozedur eliminiert werden. Ich werde darauf zurückkommen, aber nein, es ist keine Zeit!N=N1+N2 N p N1 N2 N1
quelle