Ich bin ein wenig verwirrt über eine Formel, die in Hasties "Einführung in das statistische Lernen" vorgestellt wird. In Kapitel 6, Seite 212 (sechster Druck, hier verfügbar ) heißt es:
Für lineare Modelle mit Gaußschem Rauschen ist die Anzahl der Prädiktoren und die Schätzung der Fehlervarianz. Jedoch,
Was in Kapitel 3, Seite 66 angegeben ist.
Was bedeuten würde:
Welches kann nicht richtig sein. Kann jemand darauf hinweisen, was ich falsch mache?
regression
machine-learning
aic
Sue Doh Nimh
quelle
quelle
Antworten:
Ich denke, dass Sie die zwei verbleibenden Quadratsummen, die Sie haben, verwechseln. Sie haben ein RSS, um das in der Formel zu schätzen. Dieses RSS ist in gewissem Sinne unabhängig von der Anzahl der Parameter, . Dieses sollte unter Verwendung aller Ihrer Kovariaten geschätzt werden, um eine Basisfehlereinheit zu erhalten . Sie sollten das RSS in der Formel für AIC aufrufen : , was bedeutet, dass es dem Modell mit Parametern entspricht ( es kann viele Modelle mit Parametern geben ). Das RSS in der Formel wird also für ein bestimmtes Modell berechnet, während das RSS fürp σ 2RSSpiipp σ 2σ^2 p σ^2 RSSpich ich p p σ^2 ist für das vollständige Modell.
Dies wird auch auf der vorherigen Seite erwähnt, auf der für .Cpσ^2 C.p
Das RSS für die Formel in AIC ist also nicht unabhängig von , sondern wird für ein bestimmtes Modell berechnet. Die Einführung von in all dies bedeutet lediglich eine Basiseinheit für den Fehler, so dass ein "fairer" Vergleich zwischen der Anzahl der Parameter und der Verringerung des Fehlers besteht. Sie müssen die Anzahl der Parameter mit etwas vergleichen, das anhand der Größe des Fehlers skaliert wird.& sgr; 2p σ^2
Wenn Sie das RSS nicht anhand des Basisfehlers skalieren würden, könnte es sein, dass das RSS viel mehr als die Anzahl der eingeführten Variablen verliert und Sie daher gieriger werden, wenn Sie mehr Variablen hinzufügen. Wenn Sie es auf eine Einheit skalieren, ist der Vergleich mit der Anzahl der Parameter unabhängig von der Größe des Grundlinienfehlers.
Dies ist nicht die allgemeine Methode zur Berechnung des AIC, sondern läuft im Wesentlichen auf etwas Ähnliches hinaus, wenn es möglich ist, einfachere Versionen der Formel abzuleiten.
quelle
Leider wird dies eine eher unbefriedigende Antwort sein ...
Zunächst verwenden Sie normalerweise für die AIC-Berechnung die Maximum-Likelihood-Schätzung von die verzerrt wäre. Das würde sich also auf reduzieren und letztendlich würde sich die Berechnung auf reduzieren . Zweitens verweise ich Sie auf den Wikipedia-Artikel über AIC, insbesondere im Abschnitt über Äquivarianzfälle . Wie Sie dort sehen, ist es klar, dass die meisten Ableitungen eine Konstante weglassen . Diese Konstante ist für Modellvergleichszwecke irrelevant und wird daher weggelassen. Es ist etwas üblich, widersprüchliche Ableitungen von AIC zu sehen, genau wegen dieses Problems. Zum Beispiel geben Johnson & Wicherns Applied Multivariate Statistical Analysis, 6. Ausgabe , AIC wie folgt an:σ 2 = R S S.σ2 σ2= R S.S.n 1 + 2 dn C. n log( R S.S.N.) + 2 d (Kap. 7.6), was eindeutig nicht der Definition von James et al. du benutzt. Kein Buch ist per se falsch . Nur Leute, die verschiedene Konstanten verwenden. Im Fall von James et al. Buch es scheint, dass sie diesen Punkt nicht anspielen. In anderen Büchern z. Ravishanker und Dey's Ein erster Kurs in linearer Modelltheorie Dies ist umso tiefer, als die Autoren schreiben:
was interessanterweise auch nicht gleichzeitig wahr sein kann. Wie Burnham & Anderson (1998) Chapt 2.2 schreiben: " Im speziellen Fall der kleinsten Quadrate (LS) Schätzung mit normalerweise Fehler verteilt ist , und abgesehen von einem beliebigen additiven Konstante kann AIC als eine einfache Funktion der Restsumme von Quadraten ausgedrückt werden . "; B & A schlägt dieselbe AIC-Variante vor, die J & W verwendet. Was Sie durcheinander bringt, ist diese bestimmte Konstante (und die Tatsache, dass Sie die ML-Schätzung nicht für die Residuen verwendet haben). Wenn ich mir M. Bishops Mustererkennung und maschinelles Lernen (2006) anschaue, finde ich eine noch widersprüchlichere Definition als:
Das ist lustig, weil es nicht nur den Multiplikator aus dem Originalpapier weglässt, sondern auch die Zeichen taumelt, damit die AIC-basierte Auswahl als Maximierungsproblem verwendet werden kann ...
Ich würde empfehlen, bei der altmodischen Definition bleiben, wenn Sie theoretische Ableitungen durchführen möchten. Dies ist der, den Akaike in seiner Originalarbeit angibt. Alle anderen Zwischenformeln neigen dazu, chaotisch zu sein und / oder implizite Annahmen zu treffen. Wenn es ein Trost ist, haben Sie "nichts falsch gemacht".- 2 log( L ) + 2 p
quelle