AIC-Formel in Einführung in das statistische Lernen

9

Ich bin ein wenig verwirrt über eine Formel, die in Hasties "Einführung in das statistische Lernen" vorgestellt wird. In Kapitel 6, Seite 212 (sechster Druck, hier verfügbar ) heißt es:

AIC=RSSnσ^2+2dn

Für lineare Modelle mit Gaußschem Rauschen ist die Anzahl der Prädiktoren und die Schätzung der Fehlervarianz. Jedoch,dσ^

σ^2=RSS(n2)

Was in Kapitel 3, Seite 66 angegeben ist.

Was bedeuten würde:

AIC=(n2)n+2dn

Welches kann nicht richtig sein. Kann jemand darauf hinweisen, was ich falsch mache?

Sue Doh Nimh
quelle
Wenn ich nichts vermisse, denke ich nicht, dass das Buch richtig sein kann.
Glen_b -State Monica

Antworten:

3

Ich denke, dass Sie die zwei verbleibenden Quadratsummen, die Sie haben, verwechseln. Sie haben ein RSS, um das in der Formel zu schätzen. Dieses RSS ist in gewissem Sinne unabhängig von der Anzahl der Parameter, . Dieses sollte unter Verwendung aller Ihrer Kovariaten geschätzt werden, um eine Basisfehlereinheit zu erhalten . Sie sollten das RSS in der Formel für AIC aufrufen : , was bedeutet, dass es dem Modell mit Parametern entspricht ( es kann viele Modelle mit Parametern geben ). Das RSS in der Formel wird also für ein bestimmtes Modell berechnet, während das RSS fürp σ 2RSSpiipp σ 2σ^2pσ^2RSSpiippσ^2 ist für das vollständige Modell.

Dies wird auch auf der vorherigen Seite erwähnt, auf der für .Cpσ^2Cp

Das RSS für die Formel in AIC ist also nicht unabhängig von , sondern wird für ein bestimmtes Modell berechnet. Die Einführung von in all dies bedeutet lediglich eine Basiseinheit für den Fehler, so dass ein "fairer" Vergleich zwischen der Anzahl der Parameter und der Verringerung des Fehlers besteht. Sie müssen die Anzahl der Parameter mit etwas vergleichen, das anhand der Größe des Fehlers skaliert wird.& sgr; 2pσ^2

Wenn Sie das RSS nicht anhand des Basisfehlers skalieren würden, könnte es sein, dass das RSS viel mehr als die Anzahl der eingeführten Variablen verliert und Sie daher gieriger werden, wenn Sie mehr Variablen hinzufügen. Wenn Sie es auf eine Einheit skalieren, ist der Vergleich mit der Anzahl der Parameter unabhängig von der Größe des Grundlinienfehlers.

Dies ist nicht die allgemeine Methode zur Berechnung des AIC, sondern läuft im Wesentlichen auf etwas Ähnliches hinaus, wenn es möglich ist, einfachere Versionen der Formel abzuleiten.

Gumeo
quelle
Könnten Sie eine Referenz angeben, in der ich mehr über die Gründe für die Schätzung der Fehlervarianz in diesen Modellen mit einer Gesamtmenge verfügbarer Prädiktoren im Gegensatz zum RSS einer Teilmenge lesen kann? Ich sehe, wie Ihre Antwort diese Frage beantwortet, bin mir aber nicht sicher, warum dies überhaupt legitim ist.
Sue Doh Nimh
@ SueDohNimh Diese Folien bieten einen guten Start. Beachten Sie, dass die beste Schätzung für das vollständige Modell verwendet, das für . Der AIC, den Sie haben, ist derjenige, bei dem bekannt ist, aber Sie verwenden nur die beste Schätzung, die Sie erhalten können. Das Abschätzen von kann sehr schwierig sein. Diese Diskussion ist ebenfalls relevant. Dies ist auch relevant . C p σ 2 σ 2σ2Cpσ2σ2
Gumeo
2
Sie sollten auch Akaikes Originalarbeit lesen. Ich denke, das ist die beste Quelle. Sie enthält derzeit über 15.000 Zitate. Hier ist es , Sie sollten es irgendwo online finden oder von einer Universität aus darauf zugreifen können.
Gumeo
5

Leider wird dies eine eher unbefriedigende Antwort sein ...

Zunächst verwenden Sie normalerweise für die AIC-Berechnung die Maximum-Likelihood-Schätzung von die verzerrt wäre. Das würde sich also auf reduzieren und letztendlich würde sich die Berechnung auf reduzieren . Zweitens verweise ich Sie auf den Wikipedia-Artikel über AIC, insbesondere im Abschnitt über Äquivarianzfälle . Wie Sie dort sehen, ist es klar, dass die meisten Ableitungen eine Konstante weglassen . Diese Konstante ist für Modellvergleichszwecke irrelevant und wird daher weggelassen. Es ist etwas üblich, widersprüchliche Ableitungen von AIC zu sehen, genau wegen dieses Problems. Zum Beispiel geben Johnson & Wicherns Applied Multivariate Statistical Analysis, 6. Ausgabe , AIC wie folgt an:σ 2 = R S S.σ2σ2=RSSn1+2dnCnlog(RSSN)+2d (Kap. 7.6), was eindeutig nicht der Definition von James et al. du benutzt. Kein Buch ist per se falsch . Nur Leute, die verschiedene Konstanten verwenden. Im Fall von James et al. Buch es scheint, dass sie diesen Punkt nicht anspielen. In anderen Büchern z. Ravishanker und Dey's Ein erster Kurs in linearer Modelltheorie Dies ist umso tiefer, als die Autoren schreiben:

EINichC.(p)=- -2l(y;;X.,β^M.L.,σ^M.L.2)+2p=- -N.Log(σ^M.L.2)/.2- -N./.2+2p(7.5.10)

was interessanterweise auch nicht gleichzeitig wahr sein kann. Wie Burnham & Anderson (1998) Chapt 2.2 schreiben: " Im speziellen Fall der kleinsten Quadrate (LS) Schätzung mit normalerweise Fehler verteilt ist , und abgesehen von einem beliebigen additiven Konstante kann AIC als eine einfache Funktion der Restsumme von Quadraten ausgedrückt werden . "; B & A schlägt dieselbe AIC-Variante vor, die J & W verwendet. Was Sie durcheinander bringt, ist diese bestimmte Konstante (und die Tatsache, dass Sie die ML-Schätzung nicht für die Residuen verwendet haben). Wenn ich mir M. Bishops Mustererkennung und maschinelles Lernen (2006) anschaue, finde ich eine noch widersprüchlichere Definition als:

EINichC.=l(D.|wM.L.)- -M.(1,73)

Das ist lustig, weil es nicht nur den Multiplikator aus dem Originalpapier weglässt, sondern auch die Zeichen taumelt, damit die AIC-basierte Auswahl als Maximierungsproblem verwendet werden kann ...

Ich würde empfehlen, bei der altmodischen Definition bleiben, wenn Sie theoretische Ableitungen durchführen möchten. Dies ist der, den Akaike in seiner Originalarbeit angibt. Alle anderen Zwischenformeln neigen dazu, chaotisch zu sein und / oder implizite Annahmen zu treffen. Wenn es ein Trost ist, haben Sie "nichts falsch gemacht".- -2Log(L.)+2p

usεr11852
quelle
Ah! Nun, das ist in der Tat ein wenig enttäuschend, aber danke. Implizit nimmt Hasties AIC jedoch sowohl in d linear zu als auch nicht in Abhängigkeit von der Summe der quadratischen Residuen! Die anderen Definitionen, die Sie mindestens angegeben haben, variieren mit Trainingssatzfehlern, während der AIC von Hastie implizieren würde, dass das optimale Modell nur eins mit 0 Prädiktoren wäre. Gibt es eine Möglichkeit, das zu heiraten?
Sue Doh Nimh
1
Entschuldigung, ich weiß nicht, warum sie diese Formel geben. Normalerweise ist irgendwo ein beteiligt. Im Text arbeiten sie nicht viel mit AIC und sie konzentrieren sich auf Mallows daher bin ich nicht überrascht, wenn sie vereinfachende Annahmen treffen. Im Allgemeinen scheint dieses Kapitel etwas seltsame Konventionen zu verwenden. Das Heiraten scheint gleichbedeutend damit zu sein, die Logarithmen mehr oder weniger fallen zu lassen. Sie scheinen auch einen -Multiplikator zu bevorzugen ; Ich vermute, dass dies getan wird, um ähnlicher zu machen . Übrigens ist es James 'Buch. Hastie ist ein erstaunlicher Akademiker, aber er ist der 3. Autor. C p 1LogC.p Cp1N.C.p
usεr11852
Ich bin zu den gleichen Schlussfolgerungen gekommen wie Sie, als ich das berühmte Hastie / Tibshirani-Buch "Die Elemente des statistischen Lernens" (S. 230-233) gelesen habe, in dem die Definitionen von AIC / BIC den Definitionen in "Einführung in die Statistik" sehr ähnlich sind Lernen in R ". Hastie ist ein großartiger Akademiker, aber er kann AIC / BIC nicht so gut definieren =).
Rodvi