Kreuzvalidierung für elastische Netzregression: Quadratischer Fehler vs. Korrelation auf dem Testsatz

7

Betrachten Sie die elastische Netzregression mit einer glmnetähnlichen Parametrisierung der VerlustfunktionIch habe einen Datensatz mit n \ ll p (44 bzw. 3000) und verwende eine wiederholte 11-fache Kreuzvalidierung, um die optimalen Regularisierungsparameter \ alpha und \ lambda auszuwählen . Normalerweise würde ich einen quadratischen Fehler als Leistungsmetrik für den Testsatz verwenden, z. B. diese R-quadratische Metrik: L_ \ text {test} = 1- \ frac {\ lVert y_ \ text {test} - \ hat \ beta_0 - X_ \ text {test} \ hat \ beta \ rVert ^ 2} {\ lVert y_ \ text {test} - \ hat \ beta_0 \ rVert ^ 2},

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2).
npαλ
Ltest=1ytestβ^0Xtestβ^2ytestβ^02,
Diesmal habe ich aber auch versucht, eine Korrelationsmetrik zu verwenden (beachten Sie, dass für die nicht regulierte OLS-Regression die Minimierung des quadratischen Fehlerverlusts der Maximierung der Korrelation entspricht):
Ltest=corr(ytest,Xtestβ^).

Es ist klar, dass diese beiden Leistungsmetriken nicht genau gleichwertig sind, aber seltsamerweise stimmen sie nicht ganz überein:

Elastische Netzkreuzvalidierung

Beachten Sie insbesondere, was bei kleinen Alphas passiert, z. B. α=.2 (grüne Linie): Die maximale Testsatzkorrelation wird erreicht, wenn der Testsatz R2 im Vergleich zu seinem Maximum ziemlich stark abfällt. Im Allgemeinen scheint für jedes gegebene α Korrelation bei einem größeren λ als einem quadratischen Fehler maximiert zu sein .

Warum passiert es und wie geht man damit um? Welches Kriterium sollte bevorzugt werden? Hat jemand diesen Effekt erlebt?

Amöbe
quelle
Sind die CV-Falten in jedem Experiment genau gleich?
Alexey Burnakov
@ AlexanderBurnakov Ja. Die Loop-Over-Regularisierungsparameter befinden sich innerhalb der Loop-Over-Falten.
Amöbe
Wenn die Modelle in beiden Diagrammen auch gleich sind, würde ich sagen, dass die Ergebnisse erst dann sinnvoll sind, wenn ein Fehler in der Berechnung vorliegt. Ich habe Elasticnet ausprobiert, aber nicht mit diesen Leistungsmetriken.
Alexey Burnakov
Tatsächlich wird mit CV die Verlustmetrik über Testfalten gemittelt, und in Ihrem Fall muss R ^ 2 nicht genau zur Korrelation ^ 2 passen, oder? Vielleicht liegt die Diskrepanz darin, dass die Werte beider Verlustmetriken über die CV-Testfalten hinweg sehr ungleichmäßig sind? ZB 0,5, 0,9, 0,1, 0,99, 0,05, welche Mittelung würde am Ende eine bizarre Zahl ergeben, die mit der der anderen völlig nicht übereinstimmt?
Alexey Burnakov
1
Ich bin mir nicht sicher, was du damit gemeint hast @AlexeyBurnakov. Aber auf jeden Fall siehe die Antwort, die ich gerade gepostet habe.
Amöbe

Antworten:

5

Ich glaube, ich habe herausgefunden, was hier passiert ist.

Beachten Sie, dass der Korrelationswert nicht von der Länge von abhängt . Wenn also die Testkorrelation weiter zunimmt, während das Test-R-Quadrat abfällt, kann dies darauf hinweisen, dass nicht optimal ist und eine Skalierung von um einen Skalarfaktor hilfreich sein kann.β^β^β^

Nachdem ich dies erkannt hatte, erinnerte ich mich daran, dass es in der Literatur mehrere Behauptungen gab, dass elastisches Netz und sogar Lasso allein die Koeffizienten "überschrumpfen". Für Lasso gibt es das "entspannte Lasso" -Verfahren, mit dem diese Tendenz geändert werden soll: Siehe Vorteile des "Doppel-Lassos" oder der zweimaligen Durchführung von Lasso? . Für elastische Netze befürwortete das Originalpapier von Zou & Hastie 2005 tatsächlich eine Hochskalierung von um einen konstanten Faktor. Siehe Warum verwendet glmnet ein "naives" elastisches Netz von Originalpapier von Zou & Hastie? . Eine solche Skalierung würde den Korrelationswert nicht ändern, sondern das R-Quadrat beeinflussen.β^

Wenn ich die heuristische Skalierung von Zou & Hastie ich das folgende Ergebnis:

β^=(1+λ(1α))β^,

Geben Sie hier die Bildbeschreibung ein

Hier sind die durchgezogenen Linien die gleichen wie in der Abbildung in meiner Frage, während die gestrichelten Linien im linken Teilplot die neu skalierte Beta verwenden. Jetzt werden beide Metriken durch ungefähr die gleichen Werte von und maximiert .αλ

Magie!

Amöbe
quelle
1
Gut gemacht! Subtil ...
Matthew Drury