Ich lese über die Auswahl der besten Teilmengen im Buch Elemente des statistischen Lernens. Wenn ich 3 Prädiktoren , erstelle ich 2 3 = 8 Teilmengen:
- Teilmenge ohne Prädiktoren
- Teilmenge mit Prädiktor
- Teilmenge mit Prädiktor
- Teilmenge mit Prädiktor
- Teilmenge mit Prädiktoren
- Teilmenge mit Prädiktoren
- Teilmenge mit Prädiktoren
- Teilmenge mit Prädiktoren
Dann teste ich alle diese Modelle anhand der Testdaten, um das beste auszuwählen.
Meine Frage ist nun, warum die Auswahl der besten Teilmenge im Vergleich zu zB Lasso nicht bevorzugt wird.
Wenn ich die Schwellenwertfunktionen von bester Teilmenge und Lasso vergleiche, sehe ich, dass die beste Teilmenge einige der Koeffizienten auf Null setzt, wie Lasso. Der andere Koeffizient (ungleich Null) hat jedoch immer noch die ols-Werte, sie sind unbiasd. Während im Lasso einige der Koeffizienten Null sind und die anderen (nicht Nullen) eine gewisse Verzerrung haben. Die folgende Abbildung zeigt es besser:
Auf dem Bild liegt der Teil der roten Linie in der besten Teilmenge auf der grauen. Der andere Teil liegt auf der x-Achse, wo einige der Koeffizienten Null sind. Die graue Linie definiert die unvoreingenommenen Lösungen. Im Lasso wird eine gewisse Vorspannung durch . Aus dieser Figur sehe ich, dass die beste Teilmenge besser ist als Lasso! Was sind die Nachteile der Verwendung der besten Teilmenge?
Antworten:
Bei der Auswahl von Teilmengen sind die Nicht-Null-Parameter nur dann unverzerrt, wenn Sie eine Obermenge des richtigen Modells ausgewählt haben, dh wenn Sie nur Prädiktoren entfernt haben, deren wahre Koeffizientenwerte Null sind. Wenn Sie nach Ihrem Auswahlverfahren einen Prädiktor mit einem echten Koeffizienten ungleich Null ausschließen, werden alle Koeffizientenschätzungen verzerrt. Dies ist ein Widerspruch zu Ihrem Argument, wenn Sie der Ansicht sind, dass die Auswahl in der Regel nicht perfekt ist.
Um sich also einer unvoreingenommenen Modellschätzung "sicher" zu sein, sollten Sie sich auf die Seite von mehr oder sogar allen potenziell relevanten Prädiktoren begeben. Das heißt, Sie sollten überhaupt nicht auswählen.
Warum ist das eine schlechte Idee? Wegen des Bias-Varianz-Kompromisses. Ja, Ihr großes Modell wird unvoreingenommen sein, aber es wird eine große Varianz aufweisen, und die Varianz wird den Vorhersage- (oder anderen) Fehler dominieren.
Daher ist es besser , dass Parameterschätzungen zu akzeptieren , werden vorgespannt werden , aber geringere Varianz (Regularisierung), anstatt Hoffnung , dass unsere Subgruppenauswahl nur echte Null Parameter entfernt , so dass wir eine unvoreingenommene Modell mit größerer Varianz haben.
Dies kann hilfreich sein: Warum funktioniert das Schrumpfen?
quelle
Wenn die beste Teilmenge gefunden werden kann, ist es in der Tat besser als die LASSO, wenn (1) die Variablen ausgewählt werden, die tatsächlich zur Anpassung beitragen, (2) die Variablen nicht ausgewählt werden, die nicht zur Anpassung beitragen, (3) Vorhersagegenauigkeit und (4) Erzeugen von im wesentlichen unverzerrten Schätzungen für die ausgewählten Variablen. Ein kürzlich veröffentlichtes Papier, das für die überlegene Qualität der besten Teilmenge gegenüber LASSO sprach, ist das von Bertsimas et al. (2016) "Beste Teilmengenauswahl über ein modernes Optimierungsobjektiv" . Ein anderes älteres Beispiel (zur Entfaltung von Spitzenzügen), bei dem die beste Untergruppe besser war als LASSO oder Ridge, ist das von de Rooi & Eilers (2011).
Um die Verzerrung des LASSO zu verringern, kann man abgeleitete mehrstufige Ansätze verwenden, z. B. das adaptive LASSO (bei dem die Koeffizienten auf der Grundlage einer vorherigen Schätzung aus einer Anpassung der kleinsten Quadrate oder der Kammregression differenziell benachteiligt werden) oder das entspannte LASSO (eine einfache Lösung besteht darin, a Anpassung der kleinsten Quadrate der vom LASSO ausgewählten Variablen). Im Vergleich zur besten Teilmenge wählt LASSO jedoch tendenziell etwas zu viele Variablen aus. Die beste Teilmengenauswahl ist besser, aber schwerer zu treffen.
Für ein sehr kleines Problem mit 3 Variablen, wie Sie es beschreiben, ist es klar, dass die Auswahl der besten Teilmenge die bevorzugte Option ist.
quelle
lasso
ist es notorisch instabil. Mit anderen Worten, wenn Sie den gesamten Prozess booten, wird die Liste der ausgewählten Funktionen zu beliebig.