PRESS-Statistik für die Ridge-Regression

9

In gewöhnlichen kleinsten Quadraten, die einen Zielvektor gegen einen Satz von Prädiktoren zurückführen , wird die Hutmatrix als berechnetyX.

H.=X.(X.tX.)- -1X.t

und die PRESSE (vorhergesagte verbleibende Quadratsumme) wird berechnet durch

S.S.P.=ich(eich1- -hichich)2

wobei der te Rest ist und die diagonalen Elemente der sind.eichichhichich

Bei der Gratregression mit dem Strafkoeffizienten wird die Hutmatrix so modifiziert, dass sie istλ

H.=X.(X.tX.+λich)- -1X.t

Kann die PRESS-Statistik auf die gleiche Weise unter Verwendung der modifizierten Hutmatrix berechnet werden?

Chris Taylor
quelle

Antworten:

7

Ja, ich verwende diese Methode häufig für die Kernel-Ridge-Regression und sie ist eine gute Möglichkeit, den Ridge-Parameter auszuwählen (siehe z. B. dieses Dokument [doi , Preprint] ).

Eine Suche nach dem optimalen Gratparameter kann sehr effizient durchgeführt werden, wenn die Berechnungen in kanonischer Form durchgeführt werden (siehe z. B. dieses Papier ), wobei das Modell neu parametrisiert wird, so dass die Umkehrung einer Diagonalmatrix erforderlich ist.

Dikran Beuteltier
quelle
Vielen Dank. Wenn Sie Ihrer Erfahrung nach PRESS zur Auswahl des Ridge-Parameters verwenden, wie ist Ihr tatsächlicher Vorhersagefehler bei einem Testsatz mit Ihrer gemessenen PRESS bei dem Trainingssatz zu vergleichen? Vermutlich ist (PRESS / n) eine Unterschätzung des Vorhersagefehlers, aber in der Praxis zuverlässig?
Chris Taylor
1
PRESS ist ungefähr unvoreingenommen, das eigentliche Problem dabei ist die Varianz, was bedeutet, dass es abhängig von der jeweiligen Datenstichprobe, auf der es ausgewertet wird, eine große Variabilität gibt. Dies bedeutet, dass Sie, wenn Sie PRESS bei der Modellauswahl optimieren, das Modellauswahlkriterium überanpassen und ein schlechtes Modell erhalten können. Für den Modelltyp, an dem ich interessiert bin (Kernel-Lernmethoden), ist er jedoch ziemlich effektiv und das Varianzproblem scheint nicht viel schlimmer zu sein als andere Kriterien, von denen erwartet werden kann, dass sie besser funktionieren.
Dikran Beuteltier
Im Zweifelsfall können Sie neben der Firstregression auch immer das Absacken als eine Art "Gürtel-und-Hosenträger" -Ansatz verwenden, um eine Überanpassung zu vermeiden.
Dikran Beuteltier
Danke für Ihre Hilfe! Ich hatte den Eindruck, dass das Absacken bei linearen Modellen keine Verbesserung brachte, z. B. wie im Wikipedia-Artikel behauptet ? Könntest Du das erläutern?
Chris Taylor
kein Problem. Ich vermute, dass der Wikipedia-Artikel falsch ist. Die Auswahl von Teilmengen in linearer Regression ist eines der Beispiele, die Brieman im Originalartikel über Bagging verwendet. Es ist möglich, dass die lineare Regression der kleinsten Quadrate ohne Auswahl von Teilmengen vom Absacken assymptotisch nicht beeinflusst wird, aber selbst dann bezweifle ich, dass sie allgemeiner für lineare Modelle gilt (z. B. logistische Regression).
Dikran Beuteltier
0

Der folgende Ansatz kann verwendet werden, um die L2-Regularisierung anzuwenden und die PRESS-Statistik abzurufen. Die Methode verwendet einen Datenerweiterungsansatz.

Angenommen, Sie haben N Stichproben von Y und K erklärenden Variablen X1, X2 ... Xk .... XK

  1. Fügen Sie eine zusätzliche Variable X0 hinzu, die 1 über den N Abtastwerten hat
  2. Ergänzen Sie mit K zusätzlichen Proben, wobei:
    • Der Y-Wert ist 0 für jede der K Abtastungen
    • Der X0-Wert ist 0 für jede der K Abtastungen
    • Der Xk-Wert ist SQRT (Lambda * N) * [STDEV (Xk) über N Abtastwerte], wenn er diagonal ist, und ansonsten 0
  3. Es gibt jetzt N + K Samples und K + 1 Variablen. Mit diesen Eingaben kann eine normale lineare Regression gelöst werden.
  4. Da dies eine in einem Schritt durchgeführte Regression ist, kann die PRESS-Statistik wie gewohnt berechnet werden.
  5. Die Lambda-Regularisierungseingabe muss entschieden werden. Durch Überprüfen der PRESS-Statistik für verschiedene Eingaben von Lambada kann ein geeigneter Wert ermittelt werden.
James65
quelle