AIC der Gratregression: Freiheitsgrade vs. Anzahl der Parameter

Ich möchte den AICc eines Gratregressionsmodells berechnen. Das Problem ist die Anzahl der Parameter. Für die lineare Regression schlagen die meisten Menschen vor, dass die Anzahl der Parameter der Anzahl der geschätzten Koeffizienten plus Sigma (der Varianz des Fehlers) entspricht.

Wenn es um die Gratregression geht, lese ich, dass die Spur der Hutmatrix - der Freiheitsgrad (df) - einfach als Anzahl der Parameter in der AIC-Formel verwendet wird (z. B. hier oder hier ).

Ist das richtig? Kann ich den AICc auch einfach mit dem df berechnen? Kann ich einfach +1 zum df addieren, um die Fehlervarianz zu berücksichtigen?

regression aic ridge-regression degrees-of-freedom julianisch
quelle

Ich mag diese Frage, weil die allgemeinen Eingaben für AICc RSS, k und n sind - aber es wird tendenziell keine robusten Modelle über Modelle mit geringstem Fehler für die gleiche Anzahl von Parametern ausgewählt. Wenn Sie für die Kandidatenmodelle den gleichen Anpassungsansatz verwenden und auf denselben Daten basieren, ist die Modellauswahl die Modellauswahl. Ich mag die Frage, wie man informationstheoretisch die beste Anpassung mit demselben Modell und denselben Daten misst, aber unterschiedliche Anpassungstypen wie Fehler im kleinsten Fehlerquadrat und Huber-Verlust verwendet.

EngrStudent - Wiedereinsetzung von Monica

@EngrStudent, nur eine kleine Anmerkung: RSS ist ein Sonderfall mit normaler Wahrscheinlichkeit. Wenn eine andere (nicht normale) Verteilung angenommen wird, enthält der AIC nicht RSS, sondern die Log-Wahrscheinlichkeit des Modells. Auch Anpassungstypen : Meinen Sie Verlustfunktionen, mit denen das Modell bewertet wird, oder Verlustfunktionen, die zum Anpassen des Modells verwendet werden, oder noch etwas anderes?

Richard Hardy

Siehe: web.mit.edu/lrosasco/www/publications/model_focm.pdf

kjetil b halvorsen

@RichardHardy - Sie haben Recht mit der normalen Wahrscheinlichkeit! In der Praxis wird der zentrale Grenzwertsatz überstrapaziert. In diesem Fall bedeutete es dasselbe, wenn ich "Fit-Funktion" sagte und Sie "Verlustfunktion" sagten. Ich denke an kleinste Quadrate in Bezug auf Pseudo-Inversen zuerst und Fehlermetriken zweitens. Es ist eine "Sequenz des Lernens" in meinen Gedanken- und Kommunikationsprozessen.

EngrStudent - Wiedereinsetzung von Monica

@EngrStudent, danke. Beachten Sie auch, dass ich zwei Verwendungen für eine Verlustfunktion angeboten habe: Anpassung (empirische Zielfunktion, aus der ein Schätzer abgeleitet wird) und Bewertung (theoretische Zielfunktion, die wir optimieren möchten).

Richard Hardy

Antworten:

AIC- und Ridge-Regression können kompatibel gemacht werden, wenn bestimmte Annahmen getroffen werden. Es gibt jedoch keine einzige Methode zur Auswahl einer Schrumpfung für die Kammregression, sodass es keine allgemeine Methode zur Anwendung von AIC auf diese gibt. Die Ridge-Regression ist eine Teilmenge der Tikhonov-Regularisierung . Es gibt viele Kriterien , die zur Auswahl der Glättungsfaktoren für Tikhonov Regularisierung angewendet werden können, siehe zB dies . Um AIC in diesem Zusammenhang zu verwenden, gibt es ein Papier, das ziemlich spezifische Annahmen darüber macht, wie diese Regularisierung durchgeführt werden soll: Auswahl von auf der Informationskomplexität basierenden Regularisierungsparametern zur Lösung von schlecht konditionierten inversen Problemen . Im Einzelnen wird dies vorausgesetzt

„In einem statistischen Rahmen, ... den Wert des Regelungsparameter entschieden α und durch die maximale Wahrscheinlichkeit bestraft Verwendung (MPL) Methode .... Wenn man bedenkt unkorreliert Gaußsches Rauschen mit der Varianz $\sigma ^2$ und verwende die Strafe $p(x) =$ eine komplizierte Norm, siehe Link oben , die MPL-Lösung ist die gleiche wie die von Tikhonov (1963) regulierte Lösung. "

Dann stellt sich die Frage, ob diese Annahmen getroffen werden sollten. Die Frage nach den benötigten Freiheitsgraden ist zweitrangig gegenüber der Frage, ob AIC und Gratregression in einem konsistenten Kontext verwendet werden. Ich würde vorschlagen, den Link für Details zu lesen. Ich vermeide die Frage nicht, es ist nur so, dass man viele Dinge als Kammziele verwenden kann, zum Beispiel könnte man den Glättungsfaktor verwenden, der den AIC selbst optimiert . Daher verdient eine gute Frage die andere: "Warum sollte man sich mit AIC im Kammkontext beschäftigen?" In einigen Gratregressionskontexten ist es schwierig zu erkennen, wie AIC relevant gemacht werden könnte. Beispielsweise wurde eine Gratregression angewendet, um die relative Fehlerausbreitung von $b$ , d. H. Min $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ der Gammaverteilung (GD) gegeben durch

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

$[0,\infty)$ $[t_1,t_n]$ Zeitproben. Klar ist, dass dies geschieht, weil die AUC ein schlecht positioniertes Integral ist, und andernfalls, z. B. bei Verwendung von ML, die Anpassung der Gammaverteilung keine Robustheit aufweisen würde. Somit ist für diese spezielle Anwendung die maximale Wahrscheinlichkeit, also AIC, tatsächlich irrelevant. (Es wird gesagt, dass AIC für die Vorhersage und BIC für die Anpassungsgüte verwendet wird. Vorhersage und Anpassungsgüte hängen jedoch beide eher indirekt mit einem robusten Maß der AUC zusammen.)

$df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ $\infty$ $df$

$df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

Carl
quelle