Schätzen von Parametern für ein Binomial

8

Zunächst möchte ich präzisieren, dass ich kein Experte für dieses Thema bin.

Angenommen, zwei Zufallsvariablen und sind binomisch, bzw. Beachten Sie hier, dass gleich ist. Ich weiß, dassXYXB(n1,p)YB(n2,p),pZ=X+YB(n1+n2,p).

Sei eine Stichprobe für und eine Stichprobe für , gibt es eine Standardmethode zur Schätzung von und ?{x1,,xk}X{y1,,yk}Yn=n1+n2p

Folgendes haben wir getan:

  1. nimm die "neue Probe" für gegeben durch ,Z{x1+y1,,xk+yk}
  2. Mit dem Likelihood Estimator erhalten wir Schätzungen für und ,np
  3. Mit den Fisher-Informationen versuchen wir, die Fehler über und zu verstehen .np

Die Methode scheint zu funktionieren, aber wir haben immer noch einige Zweifel. Sei die Gruppe der Permutation über Elemente. Für jedes wir die "Stichprobe" betrachten, die durchWenn wir den Likelihood Estimator für jede der "neuen Stichproben" anwenden (es gibt Unterschiedliche Summen), erhalten wir unterschiedliche Schätzungen für und .SkkσSk{x1+yσ(1),,xk+yσ(k)}.k!(nσ,pσ)np

Was ist die Bedeutung davon? Wie korrelieren die neuen Werte ? Es kann zur Berechnung des Fehlers für ? Verwendet werden .nσ,pσn

Einige Kommentare: Die Frage wurde zuvor hier gestellt , aber ein Benutzer schlägt mir vor, tats / crossvalidated SE zu verwenden.

In dem Beispiel, an das ich denke, ist die Anzahl der Vögel in einer bestimmten Region und die Sichtbarkeitswahrscheinlichkeit. Ich muss Regionen mit ähnlichem aggregieren , sonst sind die Daten zu klein. Insbesondere brauche ich, wenn möglich, eine Schätzung nur für , wobei a priori unbekannt istp p n pnppnp

Ein Beispiel Um klar zu sein und die Antwort von kjetil b halvorsen zu sehen, werde ich versuchen, hier ein praktisches Beispiel zu nennen. Angenommen, wir haben nur eine Region, die mit einer Wahrscheinlichkeit gleich einem festen in zwei Zonen unterteilt ist, und unsere Daten lauten wie folgt:p

Zone 1   Zone 2
  a1      b1
  a2      b2
  a3      b3
  a4      b4
  a5      b5
  a6      b6

Wir können dann Folgendes berücksichtigen:

Zone 1+2
c1=a1+b1
c2=a2+b2
c3=a3+b3
   c4
   c5
   c6

Dann können wir die Loglikelihood-Methode verwenden, um und auch zu schätzen, wobei der Parameter für das Binomial der beobachteten Variablen in Zone . Ist es richtig? p N i iN1+N2pNii

Jetzt weiß ich, dass die Wahrscheinlichkeitsmethode nicht stabil ist (für mich bedeutet stabil nur gut). Können wir die Fisher-Informationen verwenden? Wenn ja, welche Informationen können wir haben?

Schließlich sei und zwei Permutationen über Elemente (es gibt verschiedene Paare), als wir die neuen Daten von betrachten könnenτ 6 ( 6 ! ) 2στ6(6!)2

Zone 1 + 2
c1 = a + b c2 = a + b c3 = a + b c4 = a + b c5 = a + b c6 = a + bτ ( 1 ) σ ( 2 ) τ ( 2 ) σ ( 3 ) τ ( 3 ) σ ( 4 ) τ ( 4 ) σ ( 5 ) τ ( 5 ) σ ( 6 ) τ ( 6 )σ(1)τ(1)
σ(2)τ(2)
σ(3)τ(3)
σ(4)τ(4)
σ(5)τ(5)
σ(6)τ(6)

Wenn wir die Wahrscheinlichkeitsmethode mit diesen neuen Variablen , erhalten wir unterschiedliche Schätzungen für .N1+N2

Die Frage ist also: Gibt mir die Schätzung einige Informationen über die Fehler?

amorvincomni
quelle
Sie sollten etwas mehr Details geben. Wie viele Regionen möchten Sie verwenden ( vorausgesetzt, der gleiche Sichtbarkeitsparameter ? (Das Q nimmt zwei an))? Wie viele Proben haben Sie für jede Region? (Ich nehme an, das sind Zählungen über disjunkte Zeitintervalle gleicher Länge?) Da Ihr Interessenparameter und der Ansatz der Summierung nicht korrekt sein! n 1 n 2pn1n2
Wir
@kjetilbhalvorsen: Die Anzahl der Regionen in meinem Q beträgt und ich habe 6 Proben für jede Region. Die Zählungen erfolgen über gleich lange Intervalle (es wird jedoch angenommen, dass konstant ist). Ich interessiere mich für und nicht für die Single . Ich hoffe das kann helfen. n i n 1 + n 2 n i2nin1+n2ni
Amorvincomni
Eine andere Frage: Wie groß (ungefähr) sind die Zählungen? In den Zehnern? Hunderte? Tausende? Haben Sie eine Vorstellung von wahrscheinlichen Werten von ? Sehr niedrig? (Wenn die p
Anzahl
Ich habe versucht, die Anzahl zu aggregieren, weil die Zahlen niedrig waren. In Wirklichkeit habe ich 5 verschiedene Zonen (eine Zone entspricht Regionen mit der gleichen Wahrscheinlichkeit). In jeder Zone habe ich ungefähr Regionen. Die verschiedenen Zählungen variieren von bis (das scheint nicht verwandt zu sein und kann von bis etwas mehr als variieren ). Die aggregierten Daten können jedoch von der von uns gewählten Permutation abweichen. (Zum Beispiel gibt es in einer Zone von Regionen mit Zählungen für jede Region verschiedene Aggregationen). Schließlich scheint nahe bei . 1525 n i 0 25 10 6 ( 6 ! ) 10 p .7025ni025106(6!)10p.7
amorvincomni
2
Sie werden wahrscheinlich auch viel von informativen Prioritäten profitieren, da es ein Identifikationsproblem zwischen n und p gibt.
Arthur B.

Antworten:

12

Ich werde eine Antwort versuchen, auch wenn mir die Situation nicht ganz klar ist. Formeln müssen angepasst werden! Das Problem der Schätzung von in der Binomialverteilung ist alt und es gibt mehrere relevante Arbeiten. Ich werde am Ende einige Referenzen geben. N

Es gebe Regionen (im OP-Beispiel ) mit Abtastwerten (aus disjunkten Zeitintervallen gleicher Länge) aus jeder Region. Die beobachteten Variablen sind die unabhängige binomische Zufallsvariablen sind, wobei die Verteilung beide unbekannt ist. Die Log-Likelihood-Funktion wird zu Beachten Sie, dass in dem üblichen Problem, wenn ist, so dass nur unbekannt ist, die Summe (oder der Mittelwert) des BinomialsRR=2TxitBin(Ni,p)

(Ni,p)=ln(Nixit)+lnpxit+ln(1p)(Nixit)
Nipxitist eine ausreichende Zusammenfassung, so dass die Analyse hinsichtlich der Binomialverteilung der Summe durchgeführt werden kann. In unserem Problem ist dies jedoch aufgrund des ersten Terms in der Log-Likelihood-Funktion nicht der Fall, und die Log-Likelihood hängt von jeder einzelnen Zählung ab! Also, was Sie vorschlagen, um auf die Summe der Zählungen (über ) zu reduzieren , sollte nicht getan werden, da dies Informationen verlieren wird (wie viel, ich weiß nicht, aber das kann untersucht werden ...). Versuchen wir das etwas besser zu verstehen. Zuerst sehen wir unten, dass ein konsistenter Schätzer vonimaxt(xit)NiDieser konsistente Schätzer ist jedoch keine Funktion der summierten Zählungen. Dies ist ein klarer Hinweis darauf, dass die Summierung Informationen verliert! Beachten Sie auch, dass der Mittelwert ein unvoreingenommener Schätzer seiner Erwartung ist, der , aber keine Informationen über und einzeln zu enthalten scheint , wenn nichts über den anderen Parameter bekannt ist. zeigt an, dass nützliche Informationen über in der Wahrscheinlichkeitsfunktion in der Streuung der WerteNipNipNixi1,xiTDies zeigt erneut an, dass die Summierung schlecht ist. Das unten erwähnte Papier von Olkin et al. Zeigt in der Tat, dass der Schätzer der Momentmethode in vielen Fällen besser ist als die maximale Wahrscheinlichkeit! und das nutzt die empirische Varianz der , konnte also nicht aus den summierten Daten berechnet werden.xi1,xiT

Es ist bekannt, dass dieses Problem instabil ist. Versuchen wir zu verstehen warum. In dem üblichen Problem, bei dem geschätzt wird, wenn bekannt ist, kann die Schätzung aus einer der Daten, dem Mittelwert, erfolgen. Wenn wir versuchen, sowohl als auch zu schätzen , verwenden wir viel feinere Eigenschaften der Log-Likelihood-Funktion (also der Daten). Um zu sehen, warum, denken Sie daran, dass wir die Poisson-Verteilung als Grenze des Binomials erhalten können, wenn auf Null geht und ohne Grenzen mit einem konstant positiven Produkt wächst. Also, wenn klein ist undpNiNippNpNgroß, wird die Binomialverteilung ziemlich nahe an dieser Grenze liegen. Nehmen Sie zwei Fälle: (A) , (B) . Zeichnen Sie Histogramme für die beiden (Binomial-) Verteilungen:N=100,p=0.01N=20,p=0.05

> zapsmall(cbind(0:20,pA,pB))
               pA       pB
 [1,]  0 0.366032 0.358486
 [2,]  1 0.369730 0.377354
 [3,]  2 0.184865 0.188677
 [4,]  3 0.060999 0.059582
 [5,]  4 0.014942 0.013328
 [6,]  5 0.002898 0.002245
 [7,]  6 0.000463 0.000295
 [8,]  7 0.000063 0.000031
 [9,]  8 0.000007 0.000003
[10,]  9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000

Über einer Tabelle dieser Wahrscheinlichkeiten. Um anhand der beobachteten Daten zu erkennen, welche dieser beiden Verteilungen man hat, muss in diesem Fall entschieden werden, ob oder . Es ist offensichtlich ziemlich schwierig, und die Instabilität der resultierenden Schätzer ist nur zu erwarten. Dieses Beispiel zeigte auch, dass die Instabilität hauptsächlich für kleine . Sie sagen, Sie erwarten um 0,7, also könnte das Problem dann stabiler sein. Sie können dies für Ihre Daten untersuchen, indem Sie den Maximum-Likelihood-Schätzer als Funktion eines bekannten und diesen für zeichnenN=100N=20ppppin einem gewissen Konfidenzintervall. Oder Sie könnten volle Bayes gehen, dies ist ein Fall, in dem sogar einige ziemlich vage vorherige Informationen hilfreich sein könnten.

Die Parameter sind tatsächlich schätzbar. Es ist klar, dass , so dass es möglich ist, diese maximale Anzahl als Schätzer für . Dieser Schätzer ist stark konsistent, und ein Parameter mit einem konsistenten Schätzer muss schätzbar sein. Wie das obige Beispiel zeigt, ist die Schätzbarkeit fast eine Formalität; In der Praxis sind Verteilungen mit sehr unterschiedlichen sehr eng, so dass sehr schwach abschätzbar ist.Nimaxt(xit)NNN

Ich werde hier keine Details zu den Schätzmethoden geben, aber einige Referenzen, die Sie überprüfen können:

Ingram Olkin, A John Petkau, James V Zidek: Ein Vergleich von N Schätzern für die Binomialverteilung. JASA 1981. Dies ist ein klassisches Papier, das ML- und Momentschätzer sowie einige stabilere Varianten entwickelt und analysiert. Interessanterweise zeigt sich auch, dass in vielen Fällen der Schätzer für die Momentmethode besser ist als der ML-Schätzer!

Raymond J Carrol und F Lombard: Ein Hinweis zu N Schätzern für die Binomialverteilung. JASA 1985.
Entwickelt einen alternativen, stabileren und vielleicht besseren Schätzer, der auf der Integration von aus der Wahrscheinlichkeit basiert . Stellt auch fest, dass die summierten Zählungen nicht ausreichen.p

J Andrew Royle: N_Mixture-Modelle zur Schätzung der Populationsgröße anhand räumlich replizierter Zählungen. Biometrics, 2004. Dies gibt einen anderen, alternativen Bayes'schen Ansatz, den Sie versuchen können.

Zurück zu Ihrer konkreten Frage. Sie sollten die Zählungen über Ihre beiden Regionen NICHT summieren! Das wird Informationen verlieren. Wenn Sie einführen, kann die Log-Likelihood-Funktion als Funktion von , und (oder ) geschrieben werden. Dann sollte der zusätzliche Parameter durch eine Prozedur eliminiert werden. Ich werde darauf zurückkommen, aber nein, es ist keine Zeit! N=N1+N2NpN1N2N1

kjetil b halvorsen
quelle
1
Vielen Dank für Ihre Antwort, leider kann ich nicht upvoten. Es tut mir leid, wenn ich unklar war, aber für die Summe meine ich die Summe über verschiedene Zonen. Ich habe mein Q aktualisiert und ein Beispiel (theoretisch) und einige vielleicht verständlichere Fragen hinzugefügt.
Amorvincomni
1
Obwohl diese Antwort vollständig detailliert ist, habe ich immer noch einen Zweifel: Angenommen, ich habe eine Kamera für jede Region und die Kameras befinden sich in benachbarten Regionen (aber ohne Fluss). Ich interessiere mich nur für und nicht für die Einzelwerte und . Gibt es einen Unterschied, wenn Sie nur eine große Kamera nehmen? Die beobachteten Variablen der großen Kamera sind immer noch Binome mit ParameterWas ich verliere (es scheint mir), sind nur Informationen über das lokale Verhalten, aber das ist für mich nicht wichtig. NN1N2yt1=xt1+xt2N,p.
Amorvincomni
1
Das ist nicht richtig! Informationen über sind in der Variation der einzelnen Zählungen enthalten! N
kjetil b halvorsen