Warum wird ein Likelihood-Ratio-Test im Chi-Quadrat verteilt?

34

Warum ist die Teststatistik eines Likelihood-Ratio-Tests im Chi-Quadrat verteilt?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Dr. Beeblebrox
quelle
3
Hilft das ?
Nick Sabbe
14
Danke für den Hinweis. Hier ist eine von mir: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
5
Beachten Sie das "Holen Sie Ihren Humor" dort. Ich wollte nicht unhöflich sein, aber die Antwort auf diese Frage wäre relativ langwierig und besteht im Grunde genommen aus dem Inhalt dieses Artikels (oder einigen der besseren Statistiklehrbücher). Wenn Sie bei einer dieser Erklärungen Ihr genaues Problem angeben, helfe ich Ihnen gerne weiter.
Nick Sabbe
2
Direkter Link zu Wilks 'Originalpapier ohne Paywall.
Ayorgo

Antworten:

23

Wie von @Nick erwähnt, ist dies eine Konsequenz von Wilks 'Theorem . Beachten Sie jedoch, dass die Teststatistik asymptotisch χ2 -verteilt und nicht χ2 -verteilt ist.

Ich bin sehr beeindruckt von diesem Satz, weil er in einem sehr weiten Zusammenhang steht. Betrachten wir ein statistisches Modell mit Wahrscheinlichkeit l(θy) wobei y der Vektor Beobachtungen von n unabhängigen replizierten Beobachtungen aus einer Verteilung mit Parameter θ Zugehörigkeit zu einer Untermannigfaltigkeit B1 von Rd mit Dimension dim(B1)=s . Sei B0B1 eine Untervielfalt mit der Dimension dim(B0)=m . Stellen Sie sich vor, Sie möchten testenH0:{θB0}.

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))2d(y)χ2H 0smH0

Dies wird in Wilks Originalarbeit, die von @Nick erwähnt wurde, bewiesen. Ich denke, dieses Papier ist nicht leicht zu lesen. Wilks veröffentlichte später ein Buch, vielleicht mit der einfachsten Darstellung seines Satzes. Ein kurzer heuristischer Beweis findet sich in Williams 'ausgezeichnetem Buch .

Stéphane Laurent
quelle
3
Schade, dass dieser Satz nicht in der Wikipedia-Seite erwähnt wird, die Samuel S. Wilks
Stéphane Laurent am
5
Ach komm schon Stephane. Dies ist Wikipedia, Sie können es bearbeiten und verbessern!
StasK
1
@StasK Ich weiß das, aber ich habe es nie versucht. Und ich verbringe bereits zu viel Zeit meines Lebens mit Statistik und Mathematik;)
Stéphane Laurent
Gibt es eine Intuition dafür, warum die 2 in der Definition der Abweichung vor dem Protokoll steht?
user56834
@ Programmer2134 Wird aus einer Taylor-Erweiterung zweiter Ordnung abgeleitet.
Frank Vel
25

Ich halte mich an Nick Sabbes harten Kommentar und meine kurze Antwort lautet: Es ist nicht so . Ich meine, es ist nur im normalen linearen Modell. Für absolut andere Umstände ist die genaue Verteilung kein . In vielen Situationen können Sie hoffen, dass die Wilks'schen Theorem-Bedingungen erfüllt sind, und dann konvergiert die Log-Likelihood-Verhältnis-Teststatistik asymptotisch in der Verteilung zu . Einschränkungen und Verstöße gegen die Bedingungen des Wilks-Theorems sind zu zahlreich, um ignoriert zu werden.χ 2χ2χ2

  1. Der Satz geht davon aus iid Daten Probleme mit abhängigen Daten, wie Zeitreihen oder ungleiche Wahrscheinlichkeit Stichproben (für die die Wahrscheinlichkeiten schlecht definiert sind, trotzdem erwarten, die „normale“ χ 2 Tests, wie Unabhängigkeit Tests in Kreuztabellen, beginnt verhalte als Summe Σ k a k v k , v k ~ iid χ 2 1 ( Rao & Scott ). für iid Daten, ein k = 1 , und die Summe der wird χ 2 . Aber für nicht-unabhängige Daten, das ist kein länger der Fall.χ2kakvk,vki.i.d.χ12ak=1χ2
  2. Der Satz nimmt an, dass der wahre Parameter im Inneren des Parameterraums liegt. Wenn Sie einen euklidischen Raum haben, mit dem Sie arbeiten können, ist das kein Problem. Bei einigen Problemen können jedoch natürliche Einschränkungen auftreten, wie z. B. Varianz 0 oder Korrelation zwischen -1 und 1. Wenn der wahre Parameter eine der Grenzen ist, ist die asymptotische Verteilung eine Mischung aus 2 mit verschiedenen Freiheitsgraden. in dem Sinne, dass das cdf des Tests die Summe solcher cdfs ist ( Andrews 2001 plus zwei oder drei weitere seiner Arbeiten aus derselben Zeit, wobei die Geschichte bis Chernoff 1954 zurückreicht ).χ2
  3. Der Satz geht davon aus, dass alle relevanten Ableitungen ungleich Null sind. Dies kann mit einigen nichtlinearen Problemen und / oder Parametrisierungen und / oder Situationen in Frage gestellt werden, in denen ein Parameter nicht unter der Null identifiziert wird. Angenommen, Sie haben ein Gaußsches Mischungsmodell und Ihre Null ist eine Komponente gegenüber der Alternative von zwei unterschiedlichen Komponenten f N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 )N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)mit einer Mischfraktion . Die Null ist anscheinend in der Alternative verschachtelt, aber dies kann auf verschiedene Arten ausgedrückt werden: als f = 0 (in welchem ​​Fall die Parameter μ 1 , σ 2 1 nicht identifiziert werden), f = 1 (in welchem ​​Fall μ 2) , σ 2 2 sind nicht identifiziert) oder μ 1 = μ 2 , σ 1 = σ 2 (in welchem ​​Fall fff=0μ1,σ12f=1μ2,σ22μ1=μ2,σ1=σ2fwird nicht identifiziert). Hier können Sie nicht einmal sagen, wie viele Freiheitsgrade Ihr Test haben soll, da Sie abhängig von der Parametrisierung der Verschachtelung unterschiedliche Einschränkungen haben. Siehe hierzu die Arbeit von Jiahua Chen, zB CJS 2001 .
  4. Die kann OK arbeiten , wenn die Verteilung korrekt angegeben wurde. Ist dies nicht der Fall, wird der Test erneut abgebrochen. In dem (von Statistikern weitgehend vernachlässigten) Teilbereich der multivariaten Analyse, der als Strukturgleichungs-Kovarianz-Modellierung bezeichnet wird, wird häufig eine multivariate Normalverteilung angenommen. Selbst wenn die Struktur korrekt ist, verhält sich der Test bei einer anderen Verteilung nicht korrekt. Satorra und Bentler 1995 zeigt , dass die Verteilung wird sich Σ k ein k v k , v k ~ iid χ 2 1 , die gleiche Geschichte wie bei nicht-unabhängigen Daten in meiner Nummer 1, aber sie haben auch gezeigt , wie dieχ2kakvk,vki.i.d.χ12 s hängen von der Struktur des Modells und den vierten Momenten der Verteilung ab.ak
  5. Prob[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b

Für eine Übersicht über diese und ähnliche esoterische Probleme in Likelihood Inference siehe Smith 1989 .

StasK
quelle
1
B0B1 χ2
Bei bekannter Varianz sollte ich hinzufügen.
StasK