Regularisierte Anpassung aus zusammengefassten Daten: Auswahl des Parameters

9

In Anlehnung an meine frühere Frage lautet die Lösung der normalen Gleichungen für die Gratregression wie folgt:

β^λ=(XTX+λI)1XTy

Könnten Sie die Regularisierungsparameter jede Führung bieten für die Wahl . Da zusätzlich die Diagonale von mit der Anzahl der Beobachtungen wachsen , sollte auch eine Funktion sein ?λXTXmλm

NPE
quelle

Antworten:

7

Meine Antwort basiert auf einer schönen Überprüfung des Problems durch Anders Bjorkstorm Ridge Regression und inverse Probleme (ich würde empfehlen, den gesamten Artikel zu lesen).

Teil 4 dieser Übersicht befasst sich mit der Auswahl eines Parameters in der Gratregression, wobei verschiedene Schlüsselansätze vorgestellt werden:λ

  1. Ridge Trace entspricht einer grafischen Analyse von gegen . Ein typischer Plot zeigt ein instabiles Verhalten (für ein wirklich schlecht veröffentlichtes Problem müssen Sie auf jeden Fall sicher sein, dass Sie diese Regularisierung benötigen) des Verhaltens verschiedener -Schätzungen für Nähe von Null und ab einem bestimmten Punkt nahezu konstant (ungefähr müssen wir für alle Parameter einen Schnittbereich mit konstantem Verhalten ermitteln). Die Entscheidung, wo dieses fast konstante Verhalten beginnt, ist jedoch etwas subjektiv. Eine gute Nachricht für diesen Ansatz ist, dass und nicht beachtet werden müssen .β^i,λλβ^i,λλXy
  2. L Kurve zeigt die euklidische Norm des Vektors der geschätzten Parametergegen die Restnorm. Die Form liegt normalerweise in der Nähe des Buchstabens daher gibt es eine Ecke, die bestimmt, wo der optimale Parameter hingehört (man kann den Punkt in der Kurve wählen, an dem diese die maximale Krümmung erreicht , aber es ist besser, nach Hansens Artikel zu suchen , um mehr zu erhalten Einzelheiten).|β^λ||yXβ^λ|LL
  3. Für die Kreuzvalidierung wird häufig ein einfacher " Auslassungsansatz " gewählt, bei dem nach gesucht wird , das einige Prognosegenauigkeitskriterien maximiert (oder minimiert) (Sie haben eine breite Palette davon, RMSE und MAPE sind die beiden zu Beginn) mit). Schwierigkeiten mit 2. und 3. sind, dass Sie und beobachten müssen, um sie in die Praxis umzusetzen.λXy
Dmitrij Celov
quelle
3
Nach meiner Erfahrung führt das Auslassen einer Kreuzvalidierung fast immer zu einer zu geringen Regularisierung. fache Kreuzvalidierung funktioniert fast immer besser. k
Kardinal
(+1) @cardinal, nette Ergänzung, um ehrlich zu sein, ich habe wenig Erfahrung mit Kreuzvalidierungsmethoden. Die üblichen einfachen Dinge, die ich in der Praxis verwendet habe, sind Klappmesser (bis zu nachfolgende Beobachtungen) und Out-of-Samples für Zeitreihendaten. Obwohl fold auch für einige Zeitreihenmodelle implementiert werden könnte, muss ich es zuerst versuchen, um meine eigenen Erfahrungen aufzubauen. kk
Dmitrij Celov
Es gibt einige nette Block-Bootstrap-Methoden für stationäre Zeitreihen. Möglicherweise könnten oder könnten sie zum Zwecke der Auswahl eines Regularisierungsparameters geändert worden sein.
Kardinal
Das folgende Papier ist möglicherweise hilfreich: Golub, GH; Heath, M. & Wahba, G. Verallgemeinerte Kreuzvalidierung als Methode zur Auswahl eines guten Ridge-Parameters. Technometrics, 1979, 21, 215 & ndash; 223. Das von Golub et al. erfordert keine erneute Probenahme.
Emakalic