Die Score-Funktion von Fisher hat den Mittelwert Null - was bedeutet das überhaupt?

8

Ich versuche, der prinzipiellen Überprüfung der Wahrscheinlichkeitstheorie zu folgen . Sie definieren Fisher’s score functionals Die erste Ableitung der Log-Likelihood-Funktion und sie sagen, dass die Punktzahl ein Zufallsvektor ist. ZB für die geometrische Verteilung:

u(π)=n(1π- -y¯1- -π)

Und ich kann sehen, dass es tatsächlich eine Funktion (des Parameters) ist π), und es ist zufällig, wie es beinhaltet y¯.

ABER dann sagen sie etwas, was ich nicht verstehe: "Die Punktzahl wird mit dem wahren Parameterwert bewertet π hat Mittelwert Null "und sie formulieren es als E(u(π))=0. Was bedeutet es, es am "wahren Parameterwert" auszuwerten und dann seinen Mittelwert herauszufinden? Und im geometrischen Beispiel, wenn ich die Identität verwendeE(y)=E(y¯)=1ππ werde ich das nicht sofort bekommen E(u(π))=0? Was hat der "wahre Parameterwert" damit zu tun?

ihadanny
quelle

Antworten:

8

Wie Sie auf die Score-Funktion hingewiesen haben u wird unter geeigneten Regelmäßigkeitsbedingungen als "die erste Ableitung der Log-Likelihood-Funktion" definiert.

Nehmen wir das an X ist eine Zufallsvariable mit Dichtefunktion f(x). Normalerweise ändert sich diese Dichte in Abhängigkeit von einem Vektor von Parameternπ. Somit ist es zweckmäßig, die Dichtefunktion als zu schreibenf(x;π)um die Abhängigkeit vom Parameter deutlich zu machen. Wir werden annehmen, dass der "wahre" Wert vonπ für die Zufallsvariable X ist π=π0. (Was ich meine ist dasX.f(;;π0))

Die Score-Funktion kann nun wie folgt geschrieben werden:

u(π;;x)=πLogf(x;;π),
und es ist jetzt klar, dass es eine Funktion von beiden ist x und von π. (In deiner Frage hast duL. anstelle von f, aber es gibt keinen Unterschied, da die Wahrscheinlichkeitsfunktion nur die Dichtefunktion ist.)

Betrachten Sie nun die Zufallsvariable u(π,X.) und seine Erwartung ξ(π)=E.π0(u(π,X.)). Hierbei ist zu beachten, dass der Indexπ0 ist da, um den (wahren) Parameter in der Verteilung von anzugeben X. und von dem Wert unterscheiden π mit denen wir rechnen u.

Vorausgesetzt, dass f ist eine kontinuierliche Dichte (der diskrete Fall ist ähnlich), die wir haben:

ξ(π)=+(πlogf(x;π))f(x;π0)dx=+f(x;π)f(x;π)f(x;π0)dx

und wenn Sie bewerten ξ am wahren Parameterwert π0 wir bekommen:

ξ(π0)=- -+f'(x;;π0)f(x;;π0)f(x;;π0)dx=- -+f'(x;;π0)dx
=π- -+f(x;;π0)dx=0

Dies ist die Begründung für die Score-Funktion mit der Erwartung Null am wahren Parameter.

Sie sollten sich Bücher wie dieses (Kapitel 3) ansehen , um ein besseres Verständnis der Bedingungen zu erhalten, unter denen diese Ableitungen (wie das Vertauschen von Ableitungen und Integralen) zutreffen.

Mur1lo
quelle
Vielen Dank! aber ich bin mir immer noch nicht ganz sicher, warum es nicht 0 ist, wenn ich einen anderen Wert einsteckeπ1? werden wir nicht in der Lage sein, den gleichen Trick des Umschaltens zwischen dem Integral zu verwenden?x und die Ableitung wrt π?
Ihadanny
1
ξ(π1)=f'(x;;π1)f(x;;π1)f(x;;π0)dx und jetzt können wir den Nenner nicht stornieren, wenn π1π0.
Mur1lo
eine andere Frage - meinten Sie in Ihrer Antwort die Bewertungsfunktion für eine einzelne Beobachtung oder die Bewertungsfunktion für die gesamte Stichprobe von n Beobachtungen?
Ihadanny
@ihadanny Es macht keinen Unterschied, da Sie Ihre Stichprobe als einzelne Realisierung einer Zufallsvariablen in sehen können R.n.
Mur1lo
Dies ist der klarste Beweis, den ich zu diesem Thema gesehen habe. Vielen Dank! :)
jjepsuomi
4

Ok, dank der hervorragenden @ Mur1lo-Antwort habe ich jetzt ein besseres Verständnis und möchte meinen eigenen Versuch machen, dieses abstrakte Konzept so konkret wie möglich zu machen.

Angenommen, wir haben eine Stichprobe von 5 Münzergebnissen. Wir nehmen an, dass sie aus einer Population mit Bernoulli-Verteilung mit dem wahren Parameter entnommen wurdenπ0.

Wenn wir uns eine bestimmte Münze mit Ergebnis ansehen x3=1können wir die logarithmische Wahrscheinlichkeit berechnen, mit der dieser Patient aus einer Bernoulli-Verteilung mit allen Arten von Parameterwerten, zπ=0,2 oder π=0,9und so weiter. Die Log-Wahrscheinlichkeit ist also eine Funktion, die die Wahrscheinlichkeit von abschätztx3 für jeden möglichen Wert von π.

L.L.(π|x3)=x3ln(π)+(1- -x3)ln(1- -π)

Was einfach bedeutet, dass wenn x3=1 die Wahrscheinlichkeit dafür war π und wenn es 0 ist, ist die Wahrscheinlichkeit dafür 1- -π.

Wenn wir die Unabhängigkeit zwischen den Münzzügen annehmen, haben wir eine 'Durchschnitts'-Funktion, die die logarithmische Wahrscheinlichkeit der gesamten Stichprobe von n = 5 Münzzügen darstellt.

L.L.(π|X.)=xichln(π)+(n- -(xich))ln(1- -π)

Wir wollen das Maximum von finden L.L.(π|X.)- die mle =πmle.

Die Score-Funktion u(π)ist ein Vektor der Ableitungen für jeden Parameter der Log-Wahrscheinlichkeit. Zum Glück ist es in unserem Fall ein einfacher Skalar, da es nur einen Parameter gibt. Unter bestimmten Umständen hilft es uns bei der Sucheπmle, da in diesem Punkt die Score-Funktion wäre u(πmle)=0. Wir können die Beobachtungswertfunktion für eine einzelne Beobachtung berechnen (Münzziehung):

u(π|x3)=x3π- -1- -x31- -π

und die Stichproben-Score-Funktion von n = 5 Patienten:

u(π|X.)=xichπ- -n- -xich1- -π

Wenn wir diese letzte Funktion auf 0 setzen, erhalten wir πmle.


ABER das spezifische 5-Draws-Sample hat nichts mit der Erwartung der Score-Funktion zu tun! Die Erwartung ist der Wert der Beobachtungswertfunktion für jeden möglichen Wert von x, multipliziert mit der Wahrscheinlichkeit dieses Wertes, der die Dichtefunktion ist! In unserem Fall kann x nur 2 Werte annehmen: 0 und 1. Und die Dichtefunktion ist, wie wir angenommen haben, ein Bernoulli mit Parameterπ0::

E.(u(π|xich))=x(xπ- -1- -x1- -π)π0x(1- -π0)1- -x=π0π- -1- -π01- -π

und es ist klar, dass es Null wird, wenn es am wahren Parameter ausgewertet wird π0. Die intuitive Interpretation lautet: Für jeden Wert vonπWas ist die mittlere Änderungsrate der Wahrscheinlichkeit?


Die Informationsmatrix ist die Varianz der Wahrscheinlichkeit - wie empfindlich wird unsere Lösung für unterschiedliche Daten sein? (siehe diese Antwort ).

ich(π|xich)=veinr(u(π|xich))=veinr(xichπ- -1- -xich1- -π)=veinr(xich- -ππ(1- -π))=veinr(xich)π2(1- -π)2=π0(1- -π0)π2(1- -π)2

und wenn am wahren Parameter ausgewertet π0 es vereinfacht sich zu:

ich(π0|xich)=1π0(1- -π0)

( Weitere Informationen finden Sie in den Washington Edu-Notizen .)

Erstaunlicherweise gibt es eine andere Möglichkeit zu messen, wie empfindlich die Wahrscheinlichkeit in einem bestimmten Fall sein würde π! das ist die Erwartung der Krümmung = Hessisch = zweite Ableitung. Je steiler unsere Wahrscheinlichkeit ist, desto genauer werden wir sein. Details finden Sie im Blog von Mark Reid

ihadanny
quelle