Prämisse: Dies kann eine dumme Frage sein. Ich kenne nur die Aussagen über die asymptotischen Eigenschaften von MLE, habe die Beweise aber nie studiert. Wenn ich das täte, würde ich diese Fragen vielleicht nicht stellen, oder ich würde erkennen, dass diese Fragen keinen Sinn ergeben.
Ich habe oft Aussagen gesehen, die besagen, dass der MLE-Schätzer der Parameter eines Modells asymptotisch normal und effizient ist. Die Aussage wird normalerweise geschrieben als
wie
wobei die Anzahl der Abtastwerte ist, die Fisher-Information ist und & der wahre Wert des Parameters (Vektors) ist . Bedeutet dies, da es einen Verweis auf ein echtes Modell gibt, dass das Ergebnis nicht gültig ist, wenn das Modell nicht wahr ist?
Beispiel: Angenommen, ich modelliere die Ausgangsleistung einer Windkraftanlage als Funktion der Windgeschwindigkeit plus additivem Gaußschem Rauschen
Ich weiß, dass das Modell aus mindestens zwei Gründen falsch ist: 1) ist wirklich proportional zur dritten Potenz von V und 2) der Fehler ist nicht additiv, weil ich andere Prädiktoren vernachlässigt habe, die nicht unkorreliert mit der Windgeschwindigkeit sind (ich weiß auch dass β 0 0 sein sollte, da bei 0 Windgeschwindigkeit keine Leistung erzeugt wird, aber das ist hier nicht relevant). Angenommen, ich habe eine unendliche Datenbank mit Leistungs- und Windgeschwindigkeitsdaten meiner Windkraftanlage. Ich kann so viele Muster zeichnen, wie ich möchte, egal in welcher Größe. Angenommen I zeichnen 1000 Samples, die jeweils eine Größe von 100, und Rechen β 100 , die MLE Schätzung von β = ( β 0 , & bgr; 1 (was nach meinem Modell nur die OLS-Schätzung wäre). Ich habe also 1000 Proben aus der Verteilung von ß 100 . Ich kann die Übung mit N = 500 , 1000 , 1500 , ... wiederholen. Als N → ∞ , sollte die Verteilung von ß N neigen asymptotisch normal zu sein, mit dem angegebenen Mittelwert undVarianz? Oder macht die Tatsache, dass das Modell falsch ist, dieses Ergebnis ungültig?
Der Grund, den ich frage, ist, dass selten (wenn überhaupt) Modelle in Anwendungen "wahr" sind. Wenn die asymptotischen Eigenschaften von MLE verloren gehen, wenn das Modell nicht wahr ist, ist es möglicherweise sinnvoll, andere Schätzprinzipien zu verwenden, die zwar in einer Umgebung, in der das Modell korrekt ist, weniger aussagekräftig sind, in anderen Fällen jedoch eine bessere Leistung erbringen als MLE.
EDIT : In den Kommentaren wurde festgestellt, dass der Begriff des wahren Modells problematisch sein kann. Ich hatte die folgende Definition im Sinn: Wenn eine Modellfamilie gegeben ist, die durch den Parametervektor θ angegeben wird , kann für jedes Modell in der Familie immer geschrieben werden
durch einfaches Definieren von als Y - f θ ( X ) . Im Allgemeinen ist der Fehler jedoch nicht orthogonal zu X , hat den Mittelwert 0 und muss nicht unbedingt die bei der Ableitung des Modells angenommene Verteilung haben. Wenn es einen Wert θ 0 gibt, so dass ϵ diese beiden Eigenschaften sowie die angenommene Verteilung hat, würde ich sagen, dass das Modell wahr ist. Ich denke, das hängt direkt damit zusammen, dass f θ 0 ( X ) = E [ Y | X ] , weil der Fehlerterm bei der Zerlegung
hat die beiden oben genannten Eigenschaften.
quelle
Antworten:
Ich glaube nicht, dass es eine einzige Antwort auf diese Frage gibt.
Wenn wir mögliche Verteilungsfehler bei der Anwendung der Maximum-Likelihood-Schätzung berücksichtigen, erhalten wir den sogenannten "Quasi-Maximum-Likelihood" -Schätzer (QMLE). In bestimmten Fällen ist das QMLE sowohl konsistent als auch asymptotisch normal.
Was es mit Sicherheit verliert, ist asymptotische Effizienz. Dies liegt an der asymptotischen Varianz von (dies ist die Mengedie eine asymptotische Verteilung aufweist, nicht nur θ ) ist, in allen Fällen,n−−√(θ^−θ) θ^
Dabei ist die hessische Matrix der logarithmischen Wahrscheinlichkeit und S der Gradient, und der Hut gibt Stichprobenschätzungen an.H S
Nun, wenn wir korrekte Spezifikation, erhalten wir zunächst fest , dass
wobei der Index " " die Bewertung bei den wahren Parametern angibt (und zu beachten ist, dass der mittlere Term die Definition von Fisher Information ist), und zweitens, dass die " Informationsmatrixgleichheit " gilt und besagt, dass - E [ H 0 ] = E [ S 0 S T 0 ] , was bedeutet, dass die asymptotische Varianz endlich sein wird0 −E[H0]=E[S0ST0]
Das ist die Umkehrung der Fisher-Information.
Wenn wir jedoch eine Fehlspezifikation haben, führt Ausdruck nicht zu Ausdruck ( 2 ) (da die erste und die zweite Ableitung in ( 1 ) auf der Grundlage der falschen Wahrscheinlichkeit abgeleitet wurden). Dies impliziert wiederum, dass die Informationsmatrix-Ungleichung nicht gilt, dass wir nicht in Ausdruck ( 3 ) enden und dass die (Q) MLE nicht die volle asymptotische Effizienz erreicht.(1) (2) (1) (3)
quelle