Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre.
Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden.
Angenommen, wir betrachten Modelle die durch einen Komplexitätsparameter indiziert sind , so dass genau dann "komplexer" ist als , wenn . Nehmen wir weiter an, dass wir die Qualität eines Modells durch einen Randomisierungsprozess, z. B. Kreuzvalidierung , bewerten . Es sei die "durchschnittliche" Qualität von , z. B. der mittlere Vorhersagefehler aus dem Sack über viele Kreuzvalidierungsläufe. Wir möchten diese Menge minimieren . τ ∈ R M τ M τ ' τ > τ ' M q ( M ) M
Da unser Qualitätsmaß jedoch aus einem Zufallsverfahren stammt, ist es mit einer Variabilität verbunden. Es sei der Standardfehler der Qualität von über die Randomisierungsläufe, z. B. die Standardabweichung des Out-of-Bag-Vorhersagefehlers von über Kreuzvalidierungsläufe.M M
Dann wählen wir das Modell , wobei das kleinste so dass τ τ
Dabei indiziert das (durchschnittlich) beste Modell, .
Das heißt, wir wählen das einfachste Modell (das kleinste ), das nicht mehr als einen Standardfehler aufweist, der schlechter ist als das beste Modell in der Randomisierungsprozedur.
Ich habe diese "eine Standardfehlerregel" gefunden, auf die an folgenden Stellen verwiesen wird, aber niemals mit einer ausdrücklichen Begründung:
- Seite 80 in Klassifikations- und Regressionsbäume von Breiman, Friedman, Stone & Olshen (1984)
- Seite 415 bei der Schätzung der Anzahl von Clustern in einem Datensatz über die Gap-Statistik von Tibshirani, Walther & Hastie ( JRSS B , 2001) (unter Bezugnahme auf Breiman et al.)
- Seiten 61 und 244 in Elemente des statistischen Lernens von Hastie, Tibshirani & Friedman (2009)
- Seite 13 in Statistisches Lernen mit Sparsamkeit von Hastie, Tibshirani & Wainwright (2015)
quelle
Antworten:
Das Folgende ist keine empirische Studie, weshalb ich es ursprünglich als Kommentar veröffentlichen wollte, nicht als Antwort - aber es stellt sich heraus, dass es für einen Kommentar zu lang ist.
Cawley & Talbot ( J. of Machine Learning Research , 2010) machen auf den Unterschied zwischen Überanpassung während der Modellauswahlphase und Überanpassung während der Modellanpassungsphase aufmerksam.
Die zweite Art der Überanpassung ist die, mit der die meisten Menschen vertraut sind: Bei einem bestimmten Modell möchten wir es nicht überanpassen, dh es soll zu genau an die besonderen Eigenheiten des einzelnen Datensatzes angepasst werden, den wir normalerweise haben. ( Hier kann Schrumpfung / Regularisierung helfen, indem ein kleiner Anstieg der Verzerrung gegen einen großen Rückgang der Varianz getauscht wird. )
Cawley & Talbot argumentieren jedoch, dass wir bei der Modellauswahl genauso gut überanpassen können. Schließlich haben wir in der Regel immer noch nur einen einzigen Datensatz und entscheiden uns zwischen verschiedenen Modellen unterschiedlicher Komplexität. Das Bewerten jedes Kandidatenmodells, um eines auszuwählen, beinhaltet normalerweise das Anpassen dieses Modells, was durch Regularisierung erfolgen kann oder nicht. Aber diese Auswertung an sich ist wieder eine Zufallsvariable, da sie von dem spezifischen Datensatz abhängt, den wir haben. Unsere Wahl eines "optimalen" Modells kann an sich eine Verzerrung aufweisen und wird eine Varianz aufweisen, da dies von dem spezifischen Datensatz aus allen Datensätzen abhängt, die wir aus der Grundgesamtheit hätten ziehen können.
Cawley & Talbot argumentieren daher, dass die Auswahl des Modells, das bei dieser Bewertung am besten abschneidet, durchaus eine Auswahlregel mit geringer Verzerrung sein kann - sie kann jedoch große Varianz aufweisen. Das heißt, bei unterschiedlichen Trainingsdatensätzen aus demselben Datenerzeugungsprozess (DGP) kann diese Regel sehr unterschiedliche Modelle auswählen, die dann angepasst und zur Vorhersage in neuen Datensätzen verwendet werden, die wiederum demselben DGP folgen. Unter diesen Umständen kann die Einschränkung der Varianz des Modellauswahlverfahrens, jedoch eine geringe Neigung zu einfacheren Modellen, zu kleineren Fehlern außerhalb der Stichprobe führen.
Cawley & Talbot verbinden dies nicht explizit mit der Standardfehlerregel, und ihr Abschnitt über das Regularisieren der Modellauswahl ist sehr kurz. Die Ein-Standard-Fehlerregel würde jedoch genau diese Regularisierung durchführen und die Beziehung zwischen der Varianz bei der Modellauswahl und der Varianz des Out-of-Bag-Kreuzvalidierungsfehlers berücksichtigen.
Im Folgenden sehen Sie beispielsweise Abbildung 2.3 aus Statistical Learning with Sparsity von Hastie, Tibshirani & Wainwright (2015) . Die Modellauswahlvarianz ist durch die Konvexität der schwarzen Linie am Minimum gegeben. Hier ist das Minimum nicht sehr ausgeprägt, und die Linie ist eher schwach konvex, so dass die Modellauswahl bei hoher Varianz wahrscheinlich eher ungewiss ist. Und die Varianz der OOB CV-Fehlerschätzung wird natürlich durch die mehreren hellblauen Linien angegeben, die Standardfehler anzeigen.
quelle
Eine empirische Begründung finden Sie auf Seite 12 dieser Tibshirani Data Mining-Kursnotizen , in denen der CV-Fehler als Funktion von Lambda für ein bestimmtes Modellierungsproblem dargestellt ist. Der Vorschlag scheint zu sein, dass alle Lambdas unterhalb eines bestimmten Wertes ungefähr den gleichen CV-Fehler liefern. Dies ist sinnvoll, da LASSO im Gegensatz zur Kammregression normalerweise nicht nur oder sogar in erster Linie zur Verbesserung der Vorhersagegenauigkeit verwendet wird. Das Hauptverkaufsargument besteht darin, dass Modelle einfacher und interpretierbarer werden, indem die am wenigsten relevanten / wertvollen Prädiktoren eliminiert werden.
Um nun die eine Standardfehlerregel zu verstehen, wollen wir uns die wir durch Variieren von . Tibshiranis Zahl sagt uns, dass wir eine Reihe von Modellen mittlerer bis hoher Komplexität haben, deren Vorhersagegenauigkeit in etwa gleich ist, und eine Reihe von Modellen geringer Komplexität, die sich nicht gut vorhersagen lassen. Was sollen wir wählen? Nun, wenn wir , sind wir wahrscheinlich an einem sparsamen Modell interessiert, daher bevorzugen wir wahrscheinlich das einfachste Modell, das unsere Daten ziemlich gut erklärt, als Einstein zu paraphrasieren. Wie wäre es also mit dem Modell mit der niedrigsten Komplexität, das "ungefähr so gut" ist wie all diese Modelle mit hoher Komplexität? Und was ist ein guter Weg, um "ungefähr so gut" zu messen? Ein Standardfehler.λ L1
quelle
Die Anzahl der vom Lasso-Schätzer ausgewählten Variablen wird durch einen Strafwert . Je größer , kleiner ist die Menge der ausgewählten Variablen. Sei die Menge ausgewählter Variablen, die als Strafe .λ λ S^(λ) λ
Lassen ist die Strafe des Minimums der Kreuzvalidierungsfunktion ausgewählt werden. Es kann bewiesen werden, dass . Wobei die Menge der Variablen ist, die wirklich nicht 0 sind. (Die Menge der wahren Variablen ist ausschließlich in der Menge enthalten, die unter Verwendung des Minimums der Kreuzvalidierung als Strafe geschätzt wird.)λ⋆ P(S0⊂S^(λ⋆))→1 S0
Dies sollte in der Statistik für hochdimensionale Daten von Bühlmann und van de Geer angegeben werden.
Der Strafwert wird häufig durch Kreuzvalidierung gewählt; Dies bedeutet, dass mit hoher Wahrscheinlichkeit zu viele Variablen ausgewählt werden. Um die Anzahl der ausgewählten Variablen zu verringern, wird die Strafe unter Verwendung der Standardfehlerregel ein wenig erhöht.λ
quelle