Intuitiver Grund, warum die Fisher Information of Binomial umgekehrt proportional zu

12

Es verwirrt / verwirrt mich, dass das Binomial eine Varianz proportional zu p(1p) . Entsprechend ist die Fisher-Information proportional zu 1p(1p) . Was ist der Grund dafür? Warum wird die Fisher-Information beiminimiertp=0.5? Das heißt, warum ist die Inferenz beiam schwierigstenp=0.5?

Kontext:

Ich arbeite an einem Stichprobengrößenrechner, und die Formel für N , die benötigte Stichprobengröße, ist ein zunehmender Faktor von p(1p) , das Ergebnis einer Varianzschätzung in der Ableitung.

Cam.Davidson.Pilon
quelle
3
Die Varianz einer Bernoulli- Zufallsvariablen mit dem Parameter ist p ( 1 - p ) und die binomiale Zufallsvariable, die die Summe von N unabhängigen Bernoulli-Zufallsvariablen ist, hat die Varianz N p ( 1 - p ) , die die Summe von N ist Abweichungen. Im Hinblick auf warum p ( 1 - p ) , betrachten Varianz als Trägheitsmoment um die Mitte der Masse der Massen p und 1 - p auf 1pp(1p)NNp(1p)N p(1p)p1p1 und ist. 0
Dilip Sarwate
Ja, ich sagte proportional zu , ignorieren die N . Können Sie auf Ihren zweiten Teil näher eingehen, es scheint eine interessante Perspektive zu sein. p(1p)N
Cam.Davidson.Pilon

Antworten:

13

Um intuitiv zu sehen, dass die Varianz bei maximiert ist , nehmen Sie p gleich 0,99 (bzw. p = 0,01 ). Dann wird eine Probe von X ~ Bernoulli ( p ) wird wahrscheinlich viele enthält 1 's (resp. 0 ' s) und nur ein paar 0 's (resp. 1 ' s). Da gibt es nicht viel Abwechslung.p=0.5p0.99p=0.01XBernoulli(p)1001

Ocram
quelle
Das ist richtig. Vielleicht sollte ich fragen, warum die Fisher-Informationen auf minimiert sind . p=0.5, dh warum ist die Inferenz bei am schwierigsten ? Ich werde meine Frage aktualisieren, um dies widerzuspiegeln. p=0.5
Cam.Davidson.Pilon
3
Ganz intuitiv: Je mehr Abwechslung, desto mehr Informationen benötigen Sie.
30.
9

Die Folgerung ist „hart“ für ‚in der Mitte, weil eine Probe mit p in der Mitte mit einem breiteren Spektrum von konsistent ist p . In der Nähe der Enden kann es nicht so weit sein - weil die Enden "Barrieren" sind, über die p nicht hinausgehen kann.pp^pp

Ich denke jedoch, dass die Intuition bei abweichender Betrachtung einfacher ist.

Die Intuition, dass die Varianz eines Binomials in der Mitte groß und an den Enden klein ist, ist ziemlich einfach: In der Nähe der Endpunkte ist kein Platz für eine "Ausbreitung" der Daten. Betrachten Sie small - da der Mittelwert nahe bei 0 liegt, kann die Abweichung nicht groß sein -, damit die Daten gemittelt werdenp mitteln, kann sie nur so weit vom Mittelwert abweichen.p

Betrachten wir die Varianz eines Stichprobenanteils in einer Reihe von Bernoulli-Versuchen. Hier . Wenn Sie also n festhalten und p variieren , ist die Variation für p in der Nähe von 0 viel kleiner :Var(p^)=p(1p)/nnpp

Stichprobenanteil in Binomialstichproben - hier ist nur zufällig gleichförmig; Der blaue Fall hat einen Mittelwert von 0,03, der schwarze Mittelwert von 0,5 (etwas Jitter hinzugefügt, damit sich die Punkte nicht zu sehr häufen und Details verlieren). yenter image description here

Die entsprechenden Wahrscheinlichkeitsfunktionen: enter image description here

Achten Sie in jedem Fall auf die Linien, die den Mittelwert markieren. Wenn sich die Mittellinie mehr an der Barriere festsetzt, können Punkte unter dem Mittelwert nur einen kleinen Teil darunter liegen.

p=12

enter image description here

p^p über dem Mittelwert, muss es unter dem Mittelwert , so weit entsprechend mehr Wahrscheinlichkeit über gestaucht sein , wie es gehen kann. Diese sich abzeichnende Barriere bei 0 begrenzt die Variabilität und führt zu einer Schräglage.

[Diese Form der Intuition sagt uns nicht, warum sie genau diese funktionale Form annimmt, aber sie macht deutlich, warum die Varianz in der Nähe der Enden klein sein und kleiner werden muss, je näher Sie den Enden kommen.]

Glen_b - Setzen Sie Monica wieder ein
quelle
Infolgedessen können Punkte über dem Mittelwert normalerweise nicht zu weit über dem Mittelwert liegen (da sich der Mittelwert sonst verschieben würde!). In der Nähe von p = 12 "schieben" sich die Endpunkte nicht wirklich auf dieselbe Weise nach oben. Zu perfekt. Dies ist eine großartige Erklärung.
Cam.Davidson.Pilon
7

Die Fisher-Information ist die Varianz der Bewertungsfunktion. Und es hängt mit der Entropie zusammen. Für einen Bernoulli-Versuch erhalten wir für jeden Versuch ein Bit. Diese Fisher-Information hat also ähnliche Eigenschaften wie die Shannon-Entropie, wie wir es erwarten würden. Insbesondere hat die Entropie ein Maximum bei 1/2 und die Information ein Minimum bei 1/2.

James
quelle
Ah, noch eine großartige Perspektive. Ich hatte aus entropischer Sicht nicht darüber nachgedacht!
Cam.Davidson.Pilon