Ich versuche, der prinzipiellen Überprüfung der Wahrscheinlichkeitstheorie zu folgen . Sie definieren Fisher’s score function
als Die erste Ableitung der Log-Likelihood-Funktion und sie sagen, dass die Punktzahl ein Zufallsvektor ist. ZB für die geometrische Verteilung:
Und ich kann sehen, dass es tatsächlich eine Funktion (des Parameters) ist ), und es ist zufällig, wie es beinhaltet .
ABER dann sagen sie etwas, was ich nicht verstehe: "Die Punktzahl wird mit dem wahren Parameterwert bewertet hat Mittelwert Null "und sie formulieren es als . Was bedeutet es, es am "wahren Parameterwert" auszuwerten und dann seinen Mittelwert herauszufinden? Und im geometrischen Beispiel, wenn ich die Identität verwende werde ich das nicht sofort bekommen ? Was hat der "wahre Parameterwert" damit zu tun?
Antworten:
Wie Sie auf die Score-Funktion hingewiesen habenu wird unter geeigneten Regelmäßigkeitsbedingungen als "die erste Ableitung der Log-Likelihood-Funktion" definiert.
Nehmen wir das anX ist eine Zufallsvariable mit Dichtefunktion f(x) . Normalerweise ändert sich diese Dichte in Abhängigkeit von einem Vektor von Parameternπ . Somit ist es zweckmäßig, die Dichtefunktion als zu schreibenf(x;π) um die Abhängigkeit vom Parameter deutlich zu machen. Wir werden annehmen, dass der "wahre" Wert vonπ für die Zufallsvariable X ist π=π0 . (Was ich meine ist dasX.∼f(⋅;;π0) )
Die Score-Funktion kann nun wie folgt geschrieben werden:
Betrachten Sie nun die Zufallsvariableu (π, X.) und seine Erwartung ξ(π) =E.π0( u (π, X.) ) . Hierbei ist zu beachten, dass der Indexπ0 ist da, um den (wahren) Parameter in der Verteilung von anzugeben X. und von dem Wert unterscheiden π mit denen wir rechnen u .
Vorausgesetzt, dassf ist eine kontinuierliche Dichte (der diskrete Fall ist ähnlich), die wir haben:
und wenn Sie bewertenξ am wahren Parameterwert π0 wir bekommen:
Dies ist die Begründung für die Score-Funktion mit der Erwartung Null am wahren Parameter.
Sie sollten sich Bücher wie dieses (Kapitel 3) ansehen , um ein besseres Verständnis der Bedingungen zu erhalten, unter denen diese Ableitungen (wie das Vertauschen von Ableitungen und Integralen) zutreffen.
quelle
Ok, dank der hervorragenden @ Mur1lo-Antwort habe ich jetzt ein besseres Verständnis und möchte meinen eigenen Versuch machen, dieses abstrakte Konzept so konkret wie möglich zu machen.
Angenommen, wir haben eine Stichprobe von 5 Münzergebnissen. Wir nehmen an, dass sie aus einer Population mit Bernoulli-Verteilung mit dem wahren Parameter entnommen wurdenπ0 .
Wenn wir uns eine bestimmte Münze mit Ergebnis ansehenx3= 1 können wir die logarithmische Wahrscheinlichkeit berechnen, mit der dieser Patient aus einer Bernoulli-Verteilung mit allen Arten von Parameterwerten, zπ= 0,2 oder π= 0,9 und so weiter. Die Log-Wahrscheinlichkeit ist also eine Funktion, die die Wahrscheinlichkeit von abschätztx3 für jeden möglichen Wert von π .
Was einfach bedeutet, dass wennx3= 1 die Wahrscheinlichkeit dafür war π und wenn es 0 ist, ist die Wahrscheinlichkeit dafür 1 - π .
Wenn wir die Unabhängigkeit zwischen den Münzzügen annehmen, haben wir eine 'Durchschnitts'-Funktion, die die logarithmische Wahrscheinlichkeit der gesamten Stichprobe von n = 5 Münzzügen darstellt.
Wir wollen das Maximum von findenL L ( π|X.) - die mle =πm l e .
Die Score-Funktionu ( π) ist ein Vektor der Ableitungen für jeden Parameter der Log-Wahrscheinlichkeit. Zum Glück ist es in unserem Fall ein einfacher Skalar, da es nur einen Parameter gibt. Unter bestimmten Umständen hilft es uns bei der Sucheπm l e , da in diesem Punkt die Score-Funktion wäre u (πm l e) = 0 . Wir können die Beobachtungswertfunktion für eine einzelne Beobachtung berechnen (Münzziehung):
und die Stichproben-Score-Funktion von n = 5 Patienten:
Wenn wir diese letzte Funktion auf 0 setzen, erhalten wirπm l e .
ABER das spezifische 5-Draws-Sample hat nichts mit der Erwartung der Score-Funktion zu tun! Die Erwartung ist der Wert der Beobachtungswertfunktion für jeden möglichen Wert von x, multipliziert mit der Wahrscheinlichkeit dieses Wertes, der die Dichtefunktion ist! In unserem Fall kann x nur 2 Werte annehmen: 0 und 1. Und die Dichtefunktion ist, wie wir angenommen haben, ein Bernoulli mit Parameterπ0 ::
und es ist klar, dass es Null wird, wenn es am wahren Parameter ausgewertet wirdπ0 . Die intuitive Interpretation lautet: Für jeden Wert vonπ Was ist die mittlere Änderungsrate der Wahrscheinlichkeit?
Die Informationsmatrix ist die Varianz der Wahrscheinlichkeit - wie empfindlich wird unsere Lösung für unterschiedliche Daten sein? (siehe diese Antwort ).
und wenn am wahren Parameter ausgewertetπ0 es vereinfacht sich zu:
( Weitere Informationen finden Sie in den Washington Edu-Notizen .)
Erstaunlicherweise gibt es eine andere Möglichkeit zu messen, wie empfindlich die Wahrscheinlichkeit in einem bestimmten Fall sein würdeπ ! das ist die Erwartung der Krümmung = Hessisch = zweite Ableitung. Je steiler unsere Wahrscheinlichkeit ist, desto genauer werden wir sein. Details finden Sie im Blog von Mark Reid
quelle