In Zeitreihenmodellen wie ARMA-GARCH werden zur Auswahl einer geeigneten Verzögerung oder Reihenfolge des Modells verschiedene Informationskriterien wie AIC, BIC, SIC usw. verwendet.
Meine Frage ist sehr einfach: Warum verwenden wir nicht angepasstes , um ein geeignetes Modell auszuwählen? Wir können ein Modell auswählen, das zu einem höheren Wert des angepassten . Weil sowohl das angepasste als auch das Informationskriterium eine zusätzliche Anzahl von Regressoren im Modell bestrafen, wobei erstere und später den Wahrscheinlichkeitswert bestrafen. R 2 R 2 R 2
regression
time-series
model-selection
aic
bic
Neeraj
quelle
quelle
Antworten:
Ich würde argumentieren, dass zumindest bei der Diskussion linearer Modelle (wie AR-Modelle) angepassteR.2 und AIC nicht so unterschiedlich sind.
Betrachten Sie die Frage, ob in y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ enthalten sein soll. Dies entspricht dem Vergleich der Modelle M 1X.2
Betrachten Sie das angepasste . Das heißt, wählen Sie wenn . Da in monoton abnimmt , entspricht diese Prozedur der Minimierung von . Dies entspricht wiederum der Minimierung von . Für ausreichend großes kann letzteres als whereR.2 M.1 R.¯21> R.¯22 R.¯2 s2 s2 Log( s2) n
Satz :
Beweis : wobei die vorletzte Zeile folgt, da die Statistik die LR-Statistik im linearen Regressionsfall ist, der einem asymptotischen folgt Nullverteilung. QED
Betrachten Sie nun Akaikes Kriterium Daher tauscht der AIC auch die Reduzierung der SSR durch zusätzliche Regressoren gegen die "Strafzeit" aus , "die in die entgegengesetzte Richtung zeigt. Wählen Sie also wenn , andernfalls .
Es ist ersichtlich, dass der auch inkonsistent ist, indem der obige Beweis in Zeile drei mit . Das angepasste und der wählen daher mit positiver Wahrscheinlichkeit das "große" Modell , selbst wenn das wahre Modell ist.AIC P(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1) R2 AIC M2 M1
Da der Nachteil für die Komplexität in AIC etwas größer ist als für angepasstes , ist es möglicherweise weniger anfällig für eine Überauswahl. Und es hat andere nette Eigenschaften (Minimierung der KL-Divergenz zum wahren Modell, wenn dies nicht in der Gruppe der betrachteten Modelle enthalten ist), die in meinem Beitrag nicht behandelt werden.R2
quelle
Die Strafe in ergibt nicht die schönen Eigenschaften in Bezug auf die Modellauswahl, wie sie vom AIC oder BIC aufgestellt wurden. Die Strafe in reicht aus, um einem unvoreingenommenen Schätzer der Population wenn keiner der Regressoren tatsächlich zum Modell gehört (gemäß Dave Giles 'Blog-Posts "In What Sense" ist das "angepasste" R-Quadrat unvoreingenommen? " und " Mehr zu den Eigenschaften des "angepassten" Bestimmungskoeffizienten " ); jedoch ist keine optimale Modellwähler. R 2 a d j R 2 a d j R 2 R 2 a d jR2adj R2adj R2adj R2 R2adj
(Es könnte einen Beweis durch Widerspruch geben: Wenn AIC in einem Sinne optimal ist und BIC in einem anderen optimal ist und keinem von beiden äquivalent ist, dann ist in beiden nicht optimal dieser beiden Sinne.) R 2 a d jR2adj R2adj
quelle