Warum ist Lambda „innerhalb eines Standardfehlers vom Minimum“ ein empfohlener Wert für Lambda in einer elastischen Netto-Regression?

23

Ich verstehe, welche Rolle Lambda in einer elastischen Netzregression spielt. Und ich kann verstehen, warum man lambda.min auswählen würde, den Wert von lambda, der quervalidierte Fehler minimiert.

Meine Frage ist, wo in der Statistikliteratur die Verwendung von Lambda.1se empfohlen wird, dh der Wert von Lambda, der den CV-Fehler plus einen Standardfehler minimiert . Ich kann anscheinend kein formelles Zitat oder gar einen Grund dafür finden, warum dies oft ein guter Wert ist. Ich verstehe, dass es eine restriktivere Regularisierung ist und die Parameter mehr gegen Null schrumpfen werden, aber ich bin mir nicht immer sicher, unter welchen Bedingungen Lambda.1se eine bessere Wahl ist als Lambda.min. Kann jemand helfen zu erklären?

jhersh
quelle
5
Eine formale Referenz findet sich bei Hastie et al. "Die Elemente des statistischen Lernens" Seite 61. Sie geben jedoch nicht viel Rechtfertigung für diese Wahl ...
Richard Hardy
Siehe stats.stackexchange.com/questions/80268 .
Amöbe sagt Reinstate Monica

Antworten:

22

Friedman, Hastie und Tibshirani (2010) zitieren die Elemente des statistischen Lernens und schreiben:

Bei der Auswahl des besten Modells verwenden wir häufig die Ein-Standard-Fehler-Regel. dies erkennt die Tatsache an, dass die Risikokurven fehlerhaft geschätzt werden, was auf der Seite der Sparsamkeit liegt.

Der Grund für die Verwendung eines Standardfehlers im Gegensatz zu jeder anderen Menge scheint darin zu liegen, dass er ... Standard ist. Krstajic et al. (2014) schreiben (fettgedruckte Hervorhebung meiner):

Breiman et al. [25] haben im Fall der Auswahl der optimalen Baumgröße für Klassifizierungsbaummodelle festgestellt, dass die Baumgröße mit minimalem Kreuzvalidierungsfehler ein Modell erzeugt, das im Allgemeinen überpasst. In Abschnitt 3.4.3 ihres Buches Breiman et al. [25] Definieren Sie eine Standardfehlerregel (1 SE-Regel) für die Auswahl einer optimalen Baumgröße und implementieren Sie diese im gesamten Buch. Um den Standardfehler für die Kreuzvalidierung einzelner V-Faltungen zu berechnen, muss die Genauigkeit für jede Faltung berechnet werden, und der Standardfehler wird aus den V-Genauigkeiten jeder Faltung berechnet. Hastie et al. [4] Definieren Sie die 1-SE-Regel so, dass das sparsamste Modell ausgewählt wird, dessen Fehler nicht mehr als ein Standardfehler über dem Fehler des besten Modells liegt, und schlagen Sie an mehreren Stellen vor, die 1-SE-Regel für die allgemeine Kreuzvalidierung zu verwenden.Der Hauptpunkt der 1 SE-Regel, der wir zustimmen, ist die Auswahl des einfachsten Modells, dessen Genauigkeit mit dem besten Modell vergleichbar ist .

λ

Shadowtalker
quelle
1
Vielen Dank! Jetzt kann ich endlich etwas Passendes anführen, wenn die Frage für diejenigen auftaucht, die mit der "Standard" -Wahl von Lambda nicht vertraut sind. Auch der Link zu Krstajic et al. Sieht gut aus.
jhersh
Dieses Zitat besagt nur "1se wurde als optimal für die Klassifizierung befunden ". Aber die Frage nach der Regression gestellt ! Es gibt Alternativen. Wenn wir zB versuchen, auf 2se zurückzugehen, bekommen wir das Problem, dass Lambda zu groß ist und die Coeffts zu stark schrumpft. Wir könnten aber z. B. das Modell neu erstellen, das alle Variablen ausschließt, die im Originalmodell nicht bei lambda.1se ausgewählt wurden.
smci
@smci welches Zitat? Es ist nicht in einer der Anführungszeichen, die ich extrahiert habe, die beide darauf hindeuten, dass die 1-SE-Regel im Allgemeinen anwendbar ist, nicht nur in der Klassifizierung.
Shadowtalker
6

Das Buch von Breiman et al. (Zitiert im Zitat der anderen Antwort von Krstajic) ist die älteste Referenz, die ich für die 1SE-Regel gefunden habe.

Dies sind die Klassifikations- und Regressionsbäume von Breiman, Friedman, Stone und Olshen (1984). Diese Regel leiten sie in Abschnitt 3.4.3 ab.

Wenn Sie also ein offizielles Zitat benötigen, scheint dies die ursprüngliche Quelle zu sein.

civilstat
quelle