Ich habe diesen Artikel über elastisches Netz gelesen. Sie sagen, dass sie ein elastisches Netz verwenden, denn wenn wir nur Lasso verwenden, wird tendenziell nur ein Prädiktor unter den Prädiktoren ausgewählt, die stark korreliert sind. Aber wollen wir das nicht? Ich meine, es erspart uns die Mühe der Multikollinearität, nicht wahr?
Angenommen, zwei Prädiktoren haben einen starken Einfluss auf die Reaktion, sind jedoch in der Stichprobe, aus der Sie Ihr Modell erstellen, stark korreliert. Wenn Sie eine aus dem Modell entfernen, wird sie für Stichproben aus ähnlichen Populationen, in denen die Prädiktoren nicht stark korreliert sind, nicht gut vorhergesagt.
Wenn Sie die Genauigkeit Ihrer Koeffizientenschätzungen bei Vorhandensein von Multikollinearität verbessern möchten, müssen Sie eine kleine Verzerrung einführen, die durch eine größere Verringerung der Varianz ausgeglichen wird. Eine Möglichkeit besteht darin, Prädiktoren vollständig zu entfernen - mit LASSO oder früher mit schrittweisen Methoden -, wodurch ihre Koeffizientenschätzungen auf Null gesetzt werden. Eine andere Möglichkeit besteht darin, alle Schätzungen ein wenig zu verzerren - mit einer Gratregression oder früher mit einer Regression der ersten Hauptkomponenten. Ein Nachteil des ersteren ist, dass es sehr unsicher ist, ob das Modell verwendet wird, um Antworten für Prädiktormuster vorherzusagen, die von denen in der ursprünglichen Stichprobe abweichen, da Prädiktoren dazu neigen, ausgeschlossen zu werden, nur weil sie zusammen mit anderen nicht viel genutzt werden. fast kollinear, Prädiktoren. (Nicht, dass eine Extrapolation jemals völlig sicher ist.) Das elastische Netz ist eine Mischung aus beiden, wie @ user12436 erklärt, und neigt dazu, Gruppen korrelierter Prädiktoren im Modell zu behalten.
Warum wird es in dieser neuen Stichprobe nicht gut vorhergesagt?
user31820
1
Weil dem Modell ein wichtiger Prädiktor fehlt.
Scortchi - Monica wieder einsetzen
2
Wenn zwei Prädiktoren in einer repräsentativen Stichprobe aus einer Population korreliert sind, sollten sie nicht in einer anderen Stichprobe korreliert werden? Wenn Sie ein Modell für Daten verwenden, die "von denen im ursprünglichen Beispiel entfernt sind", ist dies nicht eine ungültige Grenznutzung eines Modells?
Matthew Drury
@MatthewDrury: Nun, wenn das Modell "richtig" ist - wenn es keine unbeobachteten Störfaktoren gibt, über die man sich Gedanken machen sollte, und wenn die funktionale Form extrapolierbar ist - dann spielt die Verteilung der Prädiktoren in der Stichprobe keine Rolle (obwohl sie natürlich die Genauigkeit von bestimmt Schätzungen & Vorhersagen). In einem Extremfall könnten Sie also ein mechanistisches Modell haben, das auf Daten einer gut kontrollierten experimentellen Studie über kausale Faktoren basiert. Zum anderen ein empirisches Modell, das auf Daten basiert, die aus einer Beobachtungsstudie zu einer Reihe von Variablen stammen, die lediglich leicht zu messen waren.
Scortchi - Monica wieder einsetzen
Der Satz: "
Früher haben
4
Aber wollen wir das nicht? Ich meine, es erspart uns die Mühe der Multikollinearität, nicht wahr?
Ja! und nein. Das elastische Netz ist eine Kombination aus zwei Regularisierungstechniken, der L2-Regularisierung (bei der Ridge-Regression verwendet) und der L1-Regularisierung (bei LASSO verwendet).
Lasso erzeugt natürlich spärliche Modelle, dh die meisten variablen Koeffizienten werden auf 0 verkleinert und effektiv aus dem Modell ausgeschlossen. Daher werden die niedrigstwertigen Variablen weggeschrumpft, bevor die anderen verkleinert werden, im Gegensatz zu Ridge, wo alle Variablen verkleinert werden, während keine von ihnen wirklich auf 0 verkleinert wird.
Das elastische Netz verwendet eine lineare Kombination dieser beiden Ansätze. Der spezielle Fall, den Hastie bei der Erörterung der Methode erwähnte, war der Fall von großem p, kleinem n. Das heißt: hochdimensionale Daten mit relativ wenigen Beobachtungen. In diesem Fall würde LASSO (angeblich) immer höchstens n Variablen auswählen und dabei den Rest eliminieren, siehe Artikel von Hastie .
Es hängt immer vom tatsächlichen Datensatz ab, aber Sie können sich gut vorstellen, dass Sie nicht immer die Obergrenze für die Anzahl der Variablen in Ihren Modellen haben möchten, die gleich oder niedriger als die Anzahl Ihrer Beobachtungen ist.
Aber was ist mit Multikollinearität? Mit dem elastischen Netz können multikollineare Merkmale ausgewählt werden, was nicht gut ist, nicht wahr?
user31820
Ich denke nicht, dass viele reale Datensätze perfekt multikollineare Variablen haben. Stark korrelierte Variablen können nahezu kollinear sein, was immer noch ein Problem darstellt, das Sie jedoch möglicherweise akzeptieren möchten, falls beide für Ihr Modell wichtig sind.
Sowohl Lasso als auch Elastic Net sind effiziente Methoden zur Durchführung der Variablen- oder Merkmalsauswahl in hochdimensionalen Dateneinstellungen (viel mehr Variablen als Patienten oder Proben; z. B. 20.000 Gene und 500 Tumorproben).
Es wurde (von Hastie und anderen) gezeigt, dass Elastic Net Lasso übertreffen kann, wenn die Daten stark korrelieren. Lasso kann nur eine der korrelierten Variablen auswählen und es ist ihm egal, welche ausgewählt wird. Dies kann ein Problem sein, wenn die ausgewählten Variablen in einem unabhängigen Datensatz validiert werden sollen. Die von Lasso ausgewählte Variable ist möglicherweise nicht der beste Prädiktor unter allen korrelierten Variablen. Elastic Net löst dieses Problem durch Mittelung stark korrelierter Variablen.
Ja! und nein. Das elastische Netz ist eine Kombination aus zwei Regularisierungstechniken, der L2-Regularisierung (bei der Ridge-Regression verwendet) und der L1-Regularisierung (bei LASSO verwendet).
Lasso erzeugt natürlich spärliche Modelle, dh die meisten variablen Koeffizienten werden auf 0 verkleinert und effektiv aus dem Modell ausgeschlossen. Daher werden die niedrigstwertigen Variablen weggeschrumpft, bevor die anderen verkleinert werden, im Gegensatz zu Ridge, wo alle Variablen verkleinert werden, während keine von ihnen wirklich auf 0 verkleinert wird.
Das elastische Netz verwendet eine lineare Kombination dieser beiden Ansätze. Der spezielle Fall, den Hastie bei der Erörterung der Methode erwähnte, war der Fall von großem p, kleinem n. Das heißt: hochdimensionale Daten mit relativ wenigen Beobachtungen. In diesem Fall würde LASSO (angeblich) immer höchstens n Variablen auswählen und dabei den Rest eliminieren, siehe Artikel von Hastie .
Es hängt immer vom tatsächlichen Datensatz ab, aber Sie können sich gut vorstellen, dass Sie nicht immer die Obergrenze für die Anzahl der Variablen in Ihren Modellen haben möchten, die gleich oder niedriger als die Anzahl Ihrer Beobachtungen ist.
quelle
Sowohl Lasso als auch Elastic Net sind effiziente Methoden zur Durchführung der Variablen- oder Merkmalsauswahl in hochdimensionalen Dateneinstellungen (viel mehr Variablen als Patienten oder Proben; z. B. 20.000 Gene und 500 Tumorproben).
Es wurde (von Hastie und anderen) gezeigt, dass Elastic Net Lasso übertreffen kann, wenn die Daten stark korrelieren. Lasso kann nur eine der korrelierten Variablen auswählen und es ist ihm egal, welche ausgewählt wird. Dies kann ein Problem sein, wenn die ausgewählten Variablen in einem unabhängigen Datensatz validiert werden sollen. Die von Lasso ausgewählte Variable ist möglicherweise nicht der beste Prädiktor unter allen korrelierten Variablen. Elastic Net löst dieses Problem durch Mittelung stark korrelierter Variablen.
quelle