In der berühmten Arbeit von 1938 (" Die Verteilung des Wahrscheinlichkeitsverhältnisses bei großen Stichproben zum Testen von zusammengesetzten Hypothesen ", Annals of Mathematical Statistics, 9: 60-62) leitete Samuel Wilks die asymptotische Verteilung des (log Likelihood Ratio) ab. für verschachtelte Hypothesen unter der Annahme, dass die größere Hypothese korrekt angegeben ist. Die Grenzverteilung ist (Chi-Quadrat) mit Freiheitsgraden, wobei die Anzahl der Parameter in der größeren Hypothese und≤ 2 h - m h mist die Anzahl der freien Parameter in der verschachtelten Hypothese. Es ist jedoch bekannt, dass dieses Ergebnis nicht zutrifft, wenn die Hypothesen falsch spezifiziert sind (dh wenn die größere Hypothese nicht die wahre Verteilung für die Stichprobendaten ist).
Kann mir jemand erklären warum? Es scheint mir, dass Wilks 'Beweis mit geringfügigen Änderungen noch funktionieren sollte. Es beruht auf der asymptotischen Normalität der Maximum-Likelihood-Schätzung (MLE), die bei falsch spezifizierten Modellen immer noch gilt. Der einzige Unterschied ist die Kovarianzmatrix der limitierenden multivariaten Normalen: Für korrekt spezifizierte Modelle können wir die Kovarianzmatrix mit der inversen Fisher-Informationsmatrix approximieren, bei falscher Spezifikation können wir die Sandwich-Schätzung der Kovarianzmatrix verwenden ( ). Letzteres reduziert sich bei korrekter Modellangabe auf die Inverse der Fisher - Informationsmatrix (da J - 1 K J - 1 J = K c - 1). AFAICT, Wilks Beweis ist es egal, woher die Schätzung der Kovarianzmatrix stammt, solange wir eine invertierbare asymptotische Kovarianzmatrix der multivariaten Normalen für die MLEs haben ( in der Wilks-Veröffentlichung).
Antworten:
RV Foutz und RC Srivastava haben das Thema eingehend untersucht. Ihr 1977 Papier „Die Leistung der Wahrscheinlichkeitsverhältnis - Prüfung , wenn das Modell nicht richtig ist“ enthält eine Erklärung des verteilungs Ergebnisses bei Fehlspezifikation neben einer sehr kurzen Skizze des Beweises, während ihres 1978 Papiers „Die Häufigkeitsverteilung des Wahrscheinlichkeitsverhältnisses , wenn das Modell ist falsch " enthält den Proof - letzterer ist jedoch in altmodischem Schreibmaschinenstil geschrieben (beide Papiere verwenden jedoch die gleiche Schreibweise, sodass Sie sie beim Lesen kombinieren können). Außerdem beziehen sie sich für einige Beweisschritte auf einen Aufsatz von KP Roy "Ein Hinweis zur asymptotischen Verteilung des Wahrscheinlichkeitsverhältnisses" aus dem Jahr 1957, der nicht online verfügbar zu sein scheint, selbst wenn er nicht vollständig ist.
Im Falle einer verteilten Fehlspezifikation folgt die LR-Statistik , wenn die MLE immer noch konsistent und asymptotisch normal ist (was nicht immer der Fall ist), asymptotisch einer linearen Kombination unabhängiger Chi-Quadrate (jeweils mit einem Freiheitsgrad).
wo . Man kann die "Ähnlichkeit" sehen: Anstelle eines Chi-Quadrats mit Freiheitsgraden haben wir Chi-Quadrate mit jeweils einem Freiheitsgrad. Aber die "Analogie" hört hier auf, weil eine lineare Kombination von Chi-Quadraten keine geschlossene Formdichte hat. Jedes skalierte Chi-Quadrat ist ein Gamma, aber mit einem anderen Parameter, der zu einem anderen Skalierungsparameter für das Gamma führt, und die Summe solcher Gammas ist nicht geschlossen, obwohl ihre Werte berechnet werden können.h - m h - m c ir = h - m h - m h - m cich
Für die Konstanten haben wir und sie sind die Eigenwerte einer Matrix ... welche Matrix? Nun, unter Verwendung der Autoren-Notation, setze als das Hessische der log-Wahrscheinlichkeit und als das äußere Produkt des Gradienten der log-Wahrscheinlichkeit (erwartungsgemäß). Also ist die asymptotische Varianz-Kovarianz-Matrix des MLE.c 1 ≥ c 2 ≥ . . . c r ≥ 0 ≤ C V = ≤ - 1 C ( ≤ ' ) - 1cich c1≥ c2≥ . . . cr≥ 0 Λ C V= Λ- 1C( Λ′)- 1
Dann setzt die zu oberen diagonalen Block von . r × r VM r × r V
Schreiben Sie auch in BlockformΛ
und setze ( ist das Negativ des Schur-Komplements von ). W ≤W= - Λr × r+ Λ′2Λ- 13Λ2 W Λ
Dann sind die die Eigenwerte der Matrix die mit den wahren Werten der Parameter bewertet werden. M Wcich MW
ADDENDUM In[ 9 ] [ 9 ] Wenn die Spezifikation korrekt ist, handelt es sich nur um die Summe der normalen Zufallsvariablen im Quadrat. Sie werden also als ein Chi-Quadrat mit Freiheitsgraden verteilt: (generische Notation)h - m h - m
Reaktion auf die gültige Bemerkung des OP in den Kommentaren (manchmal werden Fragen zu einem Sprungbrett für die Weitergabe eines allgemeineren Ergebnisses und können dabei selbst vernachlässigt werden) geht Wilks 'Beweis folgendermaßen vor: Wilks beginnt mit der Verbindung Normalverteilung des MLE und leitet den funktionalen Ausdruck des Likelihood Ratio ab. Bis einschließlich seiner Gl. kann sich der Beweis weiterentwickeln, selbst wenn wir annehmen, dass wir eine verteilte Fehlspezifikation haben: Wie das OP feststellt, unterscheiden sich die Begriffe der Varianz-Kovarianz-Matrix im Szenario der Fehlspezifikation, aber Wilks nimmt nur Derivate und identifiziert sie asymptotisch vernachlässigbare Begriffe. Und so kommt er zu Gl. wo wir sehen, dass die Wahrscheinlichkeitsverhältnisstatistik,[ 9 ] h - m h - m
Aber wenn wir eine Fehlspezifikation haben, dann sind die Terme, die verwendet werden, um das zentrierte und vergrößerte MLE zu skalieren, nicht länger die Terme, die die Varianzen jedes Elements gleich Eins machen. und so transformieren Sie jeden Term in ein normales rv und die Summe in ein Chi-Quadrat. Und sie sind es nicht, weil diese Terme die erwarteten Werte der zweiten Ableitungen der log-Wahrscheinlichkeit beinhalten ... aber der erwartete Wert kann nur in Bezug auf die wahre Verteilung genommen werden, da die MLE eine Funktion der Daten und der ist Daten folgen der wahren Verteilung, während die zweiten Ableitungen der log-Wahrscheinlichkeit auf der Grundlage der falschen Dichteannahme berechnet werden.n--√( θ^- θ )
Unter falscher Angabe haben wir also etwas wie und das Beste, was wir tun können, ist, es zu manipulieren
Dies ist eine Summe skalierter Chi-Quadrat-RVs, die nicht länger als ein Chi-Quadrat-RV mit Freiheitsgraden verteilt sind. Der Verweis des OP ist in der Tat eine sehr klare Darstellung dieses allgemeineren Falls, der Wilks 'Ergebnis als Sonderfall enthält.h - m
quelle
Wilks 'Beweis von 1938 funktioniert nicht, weil Wilks in seinem Beweis als asymptotische Kovarianzmatrix verwendete. ist das Inverse des Hessischen der negativen Log-Wahrscheinlichkeit und nicht der Sandwich-Schätzer . Wilks bezeichnet das te Element von als in seinem Beweis. Unter der Annahme, dass Wilks (1938) davon aus, dass gilt, was die Fisher Information Matrix-Gleichheit ist. Wenn das Wahrscheinlichkeitsmodell richtig spezifiziert ist, istJ- 1 J- 1 J- 1KJ- 1 ich j J cich j J- 1KJ- 1= J- 1 K= J K= J . Eine Interpretation der Annahme von Wilks ist daher, dass er die stärkere Annahme annimmt, dass das Wahrscheinlichkeitsmodell korrekt spezifiziert ist.
quelle