Ist die MLE-Schätzung asymptotisch normal und effizient, auch wenn das Modell nicht wahr ist?

12

Prämisse: Dies kann eine dumme Frage sein. Ich kenne nur die Aussagen über die asymptotischen Eigenschaften von MLE, habe die Beweise aber nie studiert. Wenn ich das täte, würde ich diese Fragen vielleicht nicht stellen, oder ich würde erkennen, dass diese Fragen keinen Sinn ergeben.

Ich habe oft Aussagen gesehen, die besagen, dass der MLE-Schätzer der Parameter eines Modells asymptotisch normal und effizient ist. Die Aussage wird normalerweise geschrieben als

θ^dN(θ0,I(θ0)1)wieN

wobei N die Anzahl der Abtastwerte ist, I die Fisher-Information ist und & θ0 der wahre Wert des Parameters (Vektors) ist . Bedeutet dies, da es einen Verweis auf ein echtes Modell gibt, dass das Ergebnis nicht gültig ist, wenn das Modell nicht wahr ist?

Beispiel: Angenommen, ich modelliere die Ausgangsleistung einer Windkraftanlage P als Funktion der Windgeschwindigkeit V plus additivem Gaußschem Rauschen

P=β0+β1V+β2V2+ϵ

Ich weiß, dass das Modell aus mindestens zwei Gründen falsch ist: 1) ist wirklich proportional zur dritten Potenz von V und 2) der Fehler ist nicht additiv, weil ich andere Prädiktoren vernachlässigt habe, die nicht unkorreliert mit der Windgeschwindigkeit sind (ich weiß auch dass β 0 0 sein sollte, da bei 0 Windgeschwindigkeit keine Leistung erzeugt wird, aber das ist hier nicht relevant). Angenommen, ich habe eine unendliche Datenbank mit Leistungs- und Windgeschwindigkeitsdaten meiner Windkraftanlage. Ich kann so viele Muster zeichnen, wie ich möchte, egal in welcher Größe. Angenommen I zeichnen 1000 Samples, die jeweils eine Größe von 100, und Rechen β 100 , die MLE Schätzung von β = ( β 0 , & bgr; 1PVβ0β^100 (was nach meinem Modell nur die OLS-Schätzung wäre). Ich habe also 1000 Proben aus der Verteilung von ß 100 . Ich kann die Übung mit N = 500 , 1000 , 1500 , ... wiederholen. Als N , sollte die Verteilung von ß N neigen asymptotisch normal zu sein, mit dem angegebenen Mittelwert undVarianz? Oder macht die Tatsache, dass das Modell falsch ist, dieses Ergebnis ungültig?β=(β0,β1,β2)β^100N=500,1000,1500,Nβ^N

Der Grund, den ich frage, ist, dass selten (wenn überhaupt) Modelle in Anwendungen "wahr" sind. Wenn die asymptotischen Eigenschaften von MLE verloren gehen, wenn das Modell nicht wahr ist, ist es möglicherweise sinnvoll, andere Schätzprinzipien zu verwenden, die zwar in einer Umgebung, in der das Modell korrekt ist, weniger aussagekräftig sind, in anderen Fällen jedoch eine bessere Leistung erbringen als MLE.

EDIT : In den Kommentaren wurde festgestellt, dass der Begriff des wahren Modells problematisch sein kann. Ich hatte die folgende Definition im Sinn: Wenn eine Modellfamilie gegeben ist, die durch den Parametervektor θ angegeben wird , kann für jedes Modell in der Familie immer geschrieben werden fθ(x)θ

Y=fθ(X)+ϵ

durch einfaches Definieren von als Y - f θ ( X ) . Im Allgemeinen ist der Fehler jedoch nicht orthogonal zu X , hat den Mittelwert 0 und muss nicht unbedingt die bei der Ableitung des Modells angenommene Verteilung haben. Wenn es einen Wert θ 0 gibt, so dass ϵ diese beiden Eigenschaften sowie die angenommene Verteilung hat, würde ich sagen, dass das Modell wahr ist. Ich denke, das hängt direkt damit zusammen, dass f θ 0 ( X ) = E [ Y | X ] , weil der Fehlerterm bei der ZerlegungϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

hat die beiden oben genannten Eigenschaften.

DeltaIV
quelle
3
Die MLE-Schätzung ist oft asymptotisch normal, auch wenn das Modell nicht wahr ist. Sie kann beispielsweise für die "am wenigsten falschen" Parameterwerte konsistent sein. In solchen Fällen ist es jedoch schwierig, die Effizienz oder andere Optimalitätseigenschaften zu zeigen.
kjetil b halvorsen
1
Vor der Effizienz sollten wir auf Konsistenz achten. In einem Szenario, in dem sich die Wahrheit nicht in Ihrem Suchraum befindet, benötigen wir eine andere Definition der Konsistenz: d (P *, P), wobei d eine Divergenz ist, P * das nächstliegende Modell in Bezug auf d ist und P die Wahrheit ist. Wenn d beispielsweise KL-Divergenz ist (was MLE minimiert), ist bekannt, dass Bayes'sche Prozeduren inkonsistent sind (das nächste Modell kann nicht erreicht werden), es sei denn, das Modell ist konvex. Daher würde ich davon ausgehen, dass MLE auch inkonsistent sein wird. Daher wird die Effizienz schlecht definiert. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Cagdas Ozgenc
1
@Cagdas Ozgenc: In vielen Fällen (z. B. logistische Regression) ist MLE für die "am wenigsten falschen" Parameter immer noch konsistent. Haben Sie eine Referenz für Ihre Behauptung über Inkonsistenzen im nicht konvexen Fall? Wäre sehr interessiert? (Wahrscheinlichkeitsfunktion der logistischen Regression ist konvex)
kjetil b halvorsen
@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf Es ist weit über meinem Kopf, aber es ist das, was ich verstehe. Wenn mein Verständnis falsch ist, korrigieren Sie mich bitte. Immerhin bin ich nur ein Hobbyist.
Cagdas Ozgenc
4
Ich denke, wir geraten in Schwierigkeiten, wenn wir Begriffe wie "Modell ist wahr" oder "am wenigsten falsch" verwenden. Wenn es sich um Modelle in der Praxis handelt, handelt es sich um Näherungswerte. Wenn wir bestimmte Annahmen treffen, können wir mithilfe der Mathematik statistische Eigenschaften darstellen. Hier besteht immer ein Konflikt zwischen Wahrscheinlichkeitsmathematik und praktischer Datenanalyse.
Michael R. Chernick

Antworten:

4

Ich glaube nicht, dass es eine einzige Antwort auf diese Frage gibt.

Wenn wir mögliche Verteilungsfehler bei der Anwendung der Maximum-Likelihood-Schätzung berücksichtigen, erhalten wir den sogenannten "Quasi-Maximum-Likelihood" -Schätzer (QMLE). In bestimmten Fällen ist das QMLE sowohl konsistent als auch asymptotisch normal.

Was es mit Sicherheit verliert, ist asymptotische Effizienz. Dies liegt an der asymptotischen Varianz von (dies ist die Mengedie eine asymptotische Verteilung aufweist, nicht nur θ ) ist, in allen Fällen,n(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

Dabei ist die hessische Matrix der logarithmischen Wahrscheinlichkeit und S der Gradient, und der Hut gibt Stichprobenschätzungen an.HS

Nun, wenn wir korrekte Spezifikation, erhalten wir zunächst fest , dass

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

wobei der Index " " die Bewertung bei den wahren Parametern angibt (und zu beachten ist, dass der mittlere Term die Definition von Fisher Information ist), und zweitens, dass die " Informationsmatrixgleichheit " gilt und besagt, dass - E [ H 0 ] = E [ S 0 S T 0 ] , was bedeutet, dass die asymptotische Varianz endlich sein wird0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

Das ist die Umkehrung der Fisher-Information.

Wenn wir jedoch eine Fehlspezifikation haben, führt Ausdruck nicht zu Ausdruck ( 2 ) (da die erste und die zweite Ableitung in ( 1 ) auf der Grundlage der falschen Wahrscheinlichkeit abgeleitet wurden). Dies impliziert wiederum, dass die Informationsmatrix-Ungleichung nicht gilt, dass wir nicht in Ausdruck ( 3 ) enden und dass die (Q) MLE nicht die volle asymptotische Effizienz erreicht.(1)(2)(1)(3)

Alecos Papadopoulos
quelle
ist die asymptotische Varianz der Zufallsvariablen, und plim steht für Wahrscheinlichkeitskonvergenz, oder? Ihre Antwort scheint sehr interessant zu sein, aber ich verstehe nicht, was θ in Ihrem Kontext ist. Ich bezog mich auf einen Fall, in dem der richtige Wert von θ einfach nicht existiert: siehe mein Windkraftanlagenbeispiel, in dem unabhängig vom Wert von β = ( β 0 , β 1 , β 2 ) kein Wertvorliegt, der das Modell korrekt macht , weil es keinen β 3 -Term gibt und weil andere mit V korrelierte Prädiktorenfehlen. Was würde θAvarplimθθβ=(β0,β1,β2)β3Vθmeinen in diesem zusammenhang?
DeltaIV
θθn(θ^θ)
1
@ DeltaIV Zero. Wird das QMLE das "fangen"? Es hängt davon ab, ob es konsistent ist oder nicht - und wieder gibt es keine einzige Antwort auf diese Frage
Alecos Papadopoulos
1
I understood. So the QMLE (if consistent) should converge to θ=0: I would have thought it would converge to some "least false" parameter value, as suggested by @kjetilbhalvorsen. Can you suggest any reference on the QMLE and the equations you wrote? Thanks
DeltaIV
1
@ DeltaIV Ich würde die Ausstellung in Hayashi ch vorschlagen. 7 über Extremum Estimators, in Bezug auf MLE-Konsistenz, Normalität usw. In Bezug auf QMLE ist das Thema ziemlich breit. Zum Beispiel können wir unter "QMLE" tatsächlich auch Situationen haben, in denen wir von Anfang an bestätigen, dass die Parameter, die wir schätzen, möglicherweise keinen eindeutigen Zusammenhang mit "wahren Parametern" haben (aber die Übung ist immer noch als Annäherung gültig). und so einen "am wenigsten falschen" Vektor erhalten, wie vorgeschlagen.
Alecos Papadopoulos