Warum werden Informationskriterien (nicht angepasstes

9

In Zeitreihenmodellen wie ARMA-GARCH werden zur Auswahl einer geeigneten Verzögerung oder Reihenfolge des Modells verschiedene Informationskriterien wie AIC, BIC, SIC usw. verwendet.

Meine Frage ist sehr einfach: Warum verwenden wir nicht angepasstes , um ein geeignetes Modell auszuwählen? Wir können ein Modell auswählen, das zu einem höheren Wert des angepassten . Weil sowohl das angepasste als auch das Informationskriterium eine zusätzliche Anzahl von Regressoren im Modell bestrafen, wobei erstere und später den Wahrscheinlichkeitswert bestrafen. R 2 R 2 R 2R2R2R2R2

Neeraj
quelle
Ich vermisse möglicherweise etwas in den Antworten (unten), aber R-Quadrate sowie angepasste R-Quadrate sind für die relativ begrenzte Klasse von OLS-geschätzten Modellen geeignet, während AICs, BICs usw. für die breitere Klasse von verallgemeinerten linearen Modellen geeignet sind Modelle vielleicht mit ML oder einer Variante geschätzt.
Mike Hunter

Antworten:

12

Ich würde argumentieren, dass zumindest bei der Diskussion linearer Modelle (wie AR-Modelle) angepasste R2 und AIC nicht so unterschiedlich sind.

Betrachten Sie die Frage, ob in y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ enthalten sein soll. Dies entspricht dem Vergleich der Modelle M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
wobeiE(u|X1,X2)=0 ist. Wir sagen, dassM2daswahre Modell ist,wennβ20 ist. Beachten Sie, dassM1M2 ist. Die Modelle sind somitverschachtelt. Ein Modellauswahlprozedur M
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^ ist eine datenabhängige Regel, die das plausibelste von mehreren Modellen auswählt.

M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Betrachten Sie das angepasste . Das heißt, wählen Sie wenn . Da in monoton abnimmt , entspricht diese Prozedur der Minimierung von . Dies entspricht wiederum der Minimierung von . Für ausreichend großes kann letzteres als whereR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2ist der ML-Schätzer der Fehlervarianz. Die Modellauswahl basierend auf entspricht daher asymptotisch der Auswahl des Modells mit dem kleinsten . Dieses Verfahren ist inkonsistent.R¯2log(σ^2)+K/n

Satz :

limnP(R¯12>R¯22|M1)<1

Beweis : wobei die vorletzte Zeile folgt, da die Statistik die LR-Statistik im linearen Regressionsfall ist, der einem asymptotischen folgt Nullverteilung. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Betrachten Sie nun Akaikes Kriterium Daher tauscht der AIC auch die Reduzierung der SSR durch zusätzliche Regressoren gegen die "Strafzeit" aus , "die in die entgegengesetzte Richtung zeigt. Wählen Sie also wenn , andernfalls .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Es ist ersichtlich, dass der auch inkonsistent ist, indem der obige Beweis in Zeile drei mit . Das angepasste und der wählen daher mit positiver Wahrscheinlichkeit das "große" Modell , selbst wenn das wahre Modell ist.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Da der Nachteil für die Komplexität in AIC etwas größer ist als für angepasstes , ist es möglicherweise weniger anfällig für eine Überauswahl. Und es hat andere nette Eigenschaften (Minimierung der KL-Divergenz zum wahren Modell, wenn dies nicht in der Gruppe der betrachteten Modelle enthalten ist), die in meinem Beitrag nicht behandelt werden.R2

Christoph Hanck
quelle
1
Tolle Antwort: nicht zu schwer, aber trotzdem genau! Wenn es gestern dort gewesen wäre, hätte ich meine nicht gepostet.
Richard Hardy
Was ist mit dem ARMA-GARCH-Fall? Wie würde sich bei der Auswahl der Begriffe amung MA und GARCH verhalten? Radj2
Zachary Blumenfeld
Ich würde es nicht wagen zu sagen. Wie Sie erklären, ist nicht einmal klar, was R2 für die Passform eines solchen Modells bedeutet.
Christoph Hanck
5

Die Strafe in ergibt nicht die schönen Eigenschaften in Bezug auf die Modellauswahl, wie sie vom AIC oder BIC aufgestellt wurden. Die Strafe in reicht aus, um einem unvoreingenommenen Schätzer der Population wenn keiner der Regressoren tatsächlich zum Modell gehört (gemäß Dave Giles 'Blog-Posts "In What Sense" ist das "angepasste" R-Quadrat unvoreingenommen? " und " Mehr zu den Eigenschaften des "angepassten" Bestimmungskoeffizienten " ); jedoch ist keine optimale Modellwähler. R 2 a d j R 2 a d j R 2 R 2 a d jRadj2Radj2Radj2R2Radj2

(Es könnte einen Beweis durch Widerspruch geben: Wenn AIC in einem Sinne optimal ist und BIC in einem anderen optimal ist und keinem von beiden äquivalent ist, dann ist in beiden nicht optimal dieser beiden Sinne.) R 2 a d jRadj2Radj2

Richard Hardy
quelle
R2R2adjSSR
Adressiert dies tatsächlich den ursprünglichen Beitrag oder meine Antwort? Auf jeden Fall stimme ich Ihren Punkten zu.
Richard Hardy
Radj2SSTSSRSSTR2
Zachary Blumenfeld