Warum wird die Kantenschätzung durch Hinzufügen einer Konstanten zur Diagonale besser als bei OLS?
59
Ich verstehe, dass die Grat-Regressionsschätzung das , das die Restsumme des Quadrats und eine Strafe für die Größe von β minimiertββ
βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]
Allerdings verstehe ich die Bedeutung der Tatsache, dass sich von dadurch unterscheidet, dass nur eine kleine Konstante zur Diagonale von . Tatsächlich,βridgeβOLSX′X
βOLS=(X′X)−1X′y
Mein Buch erwähnt, dass dies die Schätzung numerisch stabiler macht - warum?
Bezieht sich die numerische Stabilität auf die Schrumpfung der Kammschätzung gegen 0 oder ist dies nur ein Zufall?
In einer ungepflasterten Regression können Sie häufig einen Grat * im Parameterraum erhalten, bei dem viele verschiedene Werte entlang des Grats für das Kriterium der kleinsten Quadrate genauso gut oder nahezu genauso gut sind.
* (Zumindest ist es ein Kamm in der Wahrscheinlichkeitsfunktion - im RSS-Kriterium sind es tatsächlich Täler $, aber ich werde es weiterhin einen Kamm nennen, wie dies konventionell zu sein scheint - oder sogar, wie Alexis zeigt in Kommentaren könnte ich sagen , dass ein Talweg das Gegenstück eines Kamms ist)
Wenn im Parameterraum ein Kamm im Kriterium der kleinsten Quadrate vorhanden ist, werden diese Kämme durch die mit der Kammregression erzielte Strafe beseitigt, indem das Kriterium nach oben gedrückt wird, während sich die Parameter vom Ursprung entfernen:
Im ersten Diagramm führt eine große Änderung der Parameterwerte (entlang des Kamms) zu einer geringfügigen Änderung des RSS-Kriteriums. Dies kann zu numerischer Instabilität führen. Es reagiert sehr empfindlich auf kleine Änderungen (z. B. eine winzige Änderung eines Datenwerts, sogar Abschneiden oder Rundungsfehler). Die Parameterschätzungen sind nahezu perfekt korreliert. Möglicherweise erhalten Sie Parameterschätzungen, deren Größe sehr groß ist.
Im Gegensatz dazu können kleine Änderungen der Bedingungen (z. B. ein kleiner Rundungs- oder Kürzungsfehler) keine riesigen Änderungen des Ergebnisses bewirken, indem Sie die der (indem Sie die Strafe hinzufügen ), wenn die Parameter von 0 Schätzungen. Der Strafwert führt zu einer Schrumpfung gegen 0 (was zu einer gewissen Verzerrung führt). Eine geringe Verzerrung kann zu einer wesentlichen Verbesserung der Varianz führen (indem diese Kante beseitigt wird).L2
Die Unsicherheit der Schätzungen wird verringert (die Standardfehler stehen in umgekehrter Beziehung zur zweiten Ableitung, die durch die Strafe größer wird).
Die Korrelation bei Parameterschätzungen wird verringert. Sie erhalten jetzt keine sehr großen Parameterschätzungen, wenn der RSS-Wert für kleine Parameter nicht wesentlich schlechter wäre.
Diese Antwort hilft mir wirklich, die Schrumpfung und die numerische Stabilität zu verstehen. Ich bin mir jedoch immer noch unklar, wie durch das Hinzufügen einer kleinen Konstante zu diese beiden Dinge erreicht werden. X′X
Heisenberg
4
Das Hinzufügen einer Konstanten zur Diagonale * ist dasselbe wie das Hinzufügen eines kreisförmigen Paraboloids mit der Mitte zum RSS (mit dem oben gezeigten Ergebnis - es wird von Null "nach oben gezogen" - wodurch der Grat beseitigt wird). * (es ist nicht unbedingt klein, es hängt davon ab, wie Sie es sehen und wie viel Sie hinzugefügt haben)0
Glen_b
6
Glen_b das antonym für "ridge" in der englischen sprache, die sie suchen (der weg / die kurve entlang eines talbodens ) ist thalweg . Das habe ich erst vor zwei Wochen gelernt und verehre es einfach. Es ist nicht einmal klingen wie ein englisches Wort! : D
Alexis
5
@Alexis Das wäre ohne Zweifel ein praktisches Wort, also danke dafür. Es klingt wahrscheinlich nicht englisch, weil es ein deutsches Wort ist (in der Tat ist das thal dasselbe 'thal' wie in " Neandertaler " = " Neandertal " und weg = 'Weg'). [So wie es war, wollte ich "Grat", nicht weil ich mir nicht vorstellen konnte, wie ich es nennen soll, sondern weil die Leute es einen Grat nennen, egal ob sie auf Wahrscheinlichkeit oder RSS schauen, und ich erklärte meinen Wunsch zu folgen die Konvention, obwohl es seltsam erscheint. Thalweg wäre eine ausgezeichnete Wahl für genau das richtige Wort, wenn ich nicht dem ungeraden Weg der Konvention folgen würde.]
Glen_b
4
X nähert sich einer Matrix, die nicht den vollen Rang hat (und daher wird X'X nahezu singulär), genau dann, wenn ein Kamm in der Wahrscheinlichkeit erscheint. Der Grat ist eine direkte Konsequenz einer nahezu linearen Beziehung zwischen den Spalten von , die s (nahezu) linear abhängig macht. Xβ
Glen_b
28
+1 auf Glen_bs Illustration und die Statistikkommentare zum Ridge Estimator. Ich möchte nur eine rein mathematische (lineare Algebra) POV zur Ridge-Regression hinzufügen, die die Fragen 1) und 2) des OP beantwortet.
Zunächst ist zu beachten, dass eine symmetrische positive semidefinite Matrix ist - mal die Sample-Kovarianzmatrix. Daher hat es die EigenzerlegungX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Da nun die Matrixinversion der Inversion der Eigenwerte entspricht, benötigt der OLS-Schätzer (beachte, dass ). Offensichtlich funktioniert dies nur, wenn alle Eigenwerte streng größer als Null sind, . Für dies unmöglich; für es im Allgemeinen wahr - hier geht es in der Regel um Multikollinearität .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Als Statistiker wollen wir auch wissen, wie kleine Störungen in den Daten die Schätzungen verändern. Es ist klar, dass eine kleine Änderung in jedem zu einer großen Änderung in wenn sehr klein ist.Xdi1/didi
Ridge-Regression verschiebt also alle Eigenwerte weiter von Null als
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
das nun Eigenwerte . Aus diesem Grund macht die Auswahl eines positiven Strafparameters die Matrix invertierbar - auch im Fall von . Für die Ridge-Regression hat eine kleine Variation in den Daten nicht mehr den extrem instabilen Effekt, den sie auf die Matrixinversion hat.di+λ≥λ≥0p≫nX
Die numerische Stabilität hängt mit der Schrumpfung auf Null zusammen, da beide eine Folge der Addition einer positiven Konstante zu den Eigenwerten sind: Sie macht sie stabiler, weil eine kleine Störung in das Inverse nicht zu sehr ändert; es schrumpft nahe an da jetzt der Term mit multipliziert wird, was näher an Null liegt als die OLS-Lösung mit den inversen Eigenwerten .X0V−1X′y1/(di+λ)1/d
Diese Antwort beantwortet den algebraischen Teil meiner Frage zufriedenstellend! Zusammen mit Glen_b answer wird das Problem vollständig erklärt.
Heisenberg
17
@ Glen_b Demonstration ist wunderbar. Ich möchte nur hinzufügen, dass neben der genauen Ursache des Problems und der Beschreibung der Funktionsweise der quadratischen bestraften Regression unter dem Strich die Bestrafung den Nettoeffekt hat, die anderen Koeffizienten als den Achsenabschnitt gegen Null zu verkleinern. Dies bietet eine direkte Lösung für das Problem der Überanpassung, das den meisten Regressionsanalysen eigen ist, wenn die Stichprobengröße im Verhältnis zur Anzahl der geschätzten Parameter nicht enorm ist. Nahezu jede Bestrafung gegen Null für Nicht-Intercepts wird die Vorhersagegenauigkeit gegenüber einem nicht bestraften Modell verbessern.
+1 auf Glen_bs Illustration und die Statistikkommentare zum Ridge Estimator. Ich möchte nur eine rein mathematische (lineare Algebra) POV zur Ridge-Regression hinzufügen, die die Fragen 1) und 2) des OP beantwortet.
Zunächst ist zu beachten, dass eine symmetrische positive semidefinite Matrix ist - mal die Sample-Kovarianzmatrix. Daher hat es die EigenzerlegungX′X p×p n
Da nun die Matrixinversion der Inversion der Eigenwerte entspricht, benötigt der OLS-Schätzer (beachte, dass ). Offensichtlich funktioniert dies nur, wenn alle Eigenwerte streng größer als Null sind, . Für dies unmöglich; für es im Allgemeinen wahr - hier geht es in der Regel um Multikollinearität .(X′X)−1=VD−1V′ V′=V−1 di>0 p≫n n≫p
Als Statistiker wollen wir auch wissen, wie kleine Störungen in den Daten die Schätzungen verändern. Es ist klar, dass eine kleine Änderung in jedem zu einer großen Änderung in wenn sehr klein ist.X di 1/di di
Ridge-Regression verschiebt also alle Eigenwerte weiter von Null als
Die numerische Stabilität hängt mit der Schrumpfung auf Null zusammen, da beide eine Folge der Addition einer positiven Konstante zu den Eigenwerten sind: Sie macht sie stabiler, weil eine kleine Störung in das Inverse nicht zu sehr ändert; es schrumpft nahe an da jetzt der Term mit multipliziert wird, was näher an Null liegt als die OLS-Lösung mit den inversen Eigenwerten .X 0 V−1X′y 1/(di+λ) 1/d
quelle
@ Glen_b Demonstration ist wunderbar. Ich möchte nur hinzufügen, dass neben der genauen Ursache des Problems und der Beschreibung der Funktionsweise der quadratischen bestraften Regression unter dem Strich die Bestrafung den Nettoeffekt hat, die anderen Koeffizienten als den Achsenabschnitt gegen Null zu verkleinern. Dies bietet eine direkte Lösung für das Problem der Überanpassung, das den meisten Regressionsanalysen eigen ist, wenn die Stichprobengröße im Verhältnis zur Anzahl der geschätzten Parameter nicht enorm ist. Nahezu jede Bestrafung gegen Null für Nicht-Intercepts wird die Vorhersagegenauigkeit gegenüber einem nicht bestraften Modell verbessern.
quelle