Ich interessiere mich sehr für das elastische Netzverfahren für das Schrumpfen / Selektieren des Prädiktors. Es scheint sehr mächtig zu sein.
Aber aus wissenschaftlicher Sicht weiß ich nicht genau, was ich tun soll, wenn ich die Koeffizienten habe. Welche Frage beantworte ich? Dies sind die Variablen, die das Ergebnis am meisten beeinflussen, und dies sind die Koeffizienten, die während der Validierung das beste Varianz / Bias-Verhältnis ergeben.
Dies ist natürlich ein sehr deskriptiver / prädiktiver Ansatz im Vergleich zum klassischen p-Wert / Konfidenzintervall-Ansatz. Die Inferenzschätzung wird derzeit von Tibshirani & Co. untersucht, ist jedoch noch experimentell.
Einige Leute verwenden die vom elastischen Netz gewählten Variablen, um eine klassische Inferenzanalyse durchzuführen, aber dies würde die durch die Technik verursachte Einschränkung der Varianz beseitigen.
Ein weiteres Problem besteht darin, dass Lambda- und Alpha-Parameter für das elastische Netz durch Kreuzvalidierung ausgewählt werden und zufälligen Schwankungen unterliegen. Jedes Mal, wenn Sie (z. B.) cv.glmnet () ausführen, wählen Sie eine geringfügig andere Teilmenge von Prädiktoren mit immer unterschiedlichen Koeffizienten aus.
Ich denke darüber nach, dies zu lösen, indem ich das richtige Lambda und Alpha als Zufallsvariablen berücksichtige und den Kreuzvalidierungsschritt n-mal erneut durchführe, um eine Verteilung dieser Parameter zu erhalten. Auf diese Weise hätte ich für jeden Prädiktor die Anzahl der Vorkommen und für jeden Koeffizienten die Verteilung der Ergebnisse. Dies sollte zu verallgemeinerbaren Ergebnissen mit Bereichsstatistiken führen (wie z. B. sd der Koeffizienten). Es wäre auch interessant zu sehen, ob sich Lambda und Alpha auf diese Weise einer asymptotischen Verteilung annähern, da dies den Weg für einen Inferenztest ebnen würde (aber ich bin kein Statistiker, also sollte ich nicht über Dinge sprechen, die ich nicht tue verstehe nicht ganz).
Meine Frage zum Schluss lautet also: Wenn Sie die Prädiktoren und die Koeffizienten aus einem elastischen Netz mit auf Kreuzvalidierung basierenden Alpha und Lambda erhalten, welche und wie sollten Sie diese Ergebnisse präsentieren? Wie solltest du sie besprechen? was haben wir gelernt Welche Hypothese / Verallgemeinerung bestreiten wir?
Antworten:
Diese Methoden - das Lasso und das elastische Netz - sind aus den Problemen der Merkmalsauswahl und -vorhersage entstanden. Ich denke, durch diese beiden Linsen kann eine Erklärung gefunden werden.
Matthew Gunn erklärt in seiner Antwort freundlich, dass diese beiden Ziele unterschiedlich sind und oft von verschiedenen Personen aufgegriffen werden. Glücklicherweise können die Methoden, an denen wir interessiert sind, in beiden Bereichen gute Ergebnisse erzielen.
Merkmalsauswahl
Lassen Sie uns zunächst über die Funktionsauswahl sprechen. Wir sollten zuerst das elastische Netz aus der Perspektive des Lassos motivieren. Das heißt, um Hastie und Zou zu zitieren : "Wenn es eine Gruppe von Variablen gibt, unter denen die paarweisen Korrelationen sehr hoch sind, dann neigt das Lasso dazu, nur eine Variable aus der Gruppe auszuwählen, und es ist egal, welche ausgewählt wird." Dies ist zum Beispiel ein Problem, weil es bedeutet, dass wir mit dem Lasso wahrscheinlich kein Element der wahren Unterstützung finden - nur eines, das in hohem Maße damit korreliert. (Das Papier erwähnt, dass dies im LARS-Papier bewiesen ist, das ich noch nicht gelesen habe.) Auf die Schwierigkeit der Wiederherstellung der Unterstützung bei vorhandener Korrelation wird auch von Wainwright hingewiesen . wenn es eine hohe Korrelation zwischen der wahren Unterstützung und ihrer Ergänzung gibt.0,5
Nun ermutigt die l2-Strafe im elastischen Netz Merkmale, deren Koeffizienten nur durch den Verlust als nicht unterscheidbar behandelt werden, und die l1-Strafe, den gleichen geschätzten Koeffizienten zu haben. Wir können dies leicht erkennen, indem wir feststellen, dass erfüllt | a | = | b( a , b ) = argMindestein′, b′: c = | ein′| + | b′|( a′)2+ ( b′)2 . Aufgrund dessen bewirkt das elastische Netz, dass es weniger wahrscheinlich ist, dass wir "versehentlich" eine Koeffizientenschätzung verschwinden lassen, die in der wahren Unterstützung liegt. Das heißt, die tatsächliche Unterstützung ist eher in der geschätzten Unterstützung enthalten. Das ist gut! Es bedeutet zwar, dass es mehr falsche Entdeckungen gibt, aber das ist ein Preis, den die meisten Menschen zu zahlen bereit sind.| a | = | b |
Im Übrigen ist darauf hinzuweisen, dass stark korrelierte Merkmale dazu neigen, sehr ähnliche Koeffizientenschätzungen zu haben, sodass wir Gruppierungen von Merkmalen innerhalb der geschätzten Unterstützung erkennen können, die die Antwort in ähnlicher Weise beeinflussen.
Prognose
Lederer, Yu und Gaynanova zeigen unter keinen Umständen , dass sowohl für das Lasso als auch für das elastische Netz der Vorhersagefehler von l2 durch dieselbe Größe begrenzt sein kann. Es ist nicht unbedingt wahr, dass ihre Schranke eng ist, aber es könnte interessant sein, darauf hinzuweisen, dass Orakel-Ungleichungen in der statistischen Literatur ein Standardverfahren zur Quantifizierung der Vorhersageleistung von Schätzern zu sein scheinen - vielleicht, weil die Verteilungen so kompliziert sind! Es ist auch erwähnenswert, dass Lederer (1) (2) einige Artikel über Lasso-Vorhersagen in Gegenwart korrelierter Merkmale hat.
Zusammenfassung
Zusammenfassend sind die Probleme von Interesse, dass die tatsächliche Unterstützung innerhalb der geschätzten Unterstützung und Vorhersage liegt. Für die Wiederherstellung des Supports gibt es streng nachgewiesene Garantien (durch Wainwright), dass das Lasso die richtigen Merkmale für das Modell auswählt, unter der Annahme einer geringen Korrelation zwischen dem tatsächlichen Support und seiner Ergänzung. Bei Vorhandensein einer Korrelation können wir jedoch auf das elastische Netz zurückgreifen, um wahrscheinlicher zu sein, dass die Merkmale in der wahren Unterstützung zu den von ihm ausgewählten gehören. (Beachten Sie, dass wir hier die Abstimmungsparameter sorgfältig auswählen müssen.) Zur Vorhersage, wenn wir die Abstimmungsparameter durch Kreuzvalidierung auswählen, ist es intuitiv sinnvoll, dass das elastische Netz eine bessere Leistung als das Lasso aufweist - insbesondere bei vorhandener Korrelation .
Abgesehen von Vorhersagen und Formalitäten, was haben wir gelernt? Wir haben von der wahren Unterstützung erfahren.
Vertrauensintervalle
Es ist darauf hinzuweisen, dass sich in den letzten 2 Jahren eine Menge an gültigen Schlussfolgerungen für das Lasso geändert hat. Insbesondere liefert die Arbeit von Lee, Sun, Sun und Taylor einen genauen Rückschluss auf die Koeffizienten des Lassos, der von dem gewählten Modell abhängig ist. (Die Ergebnisse zur Inferenz in Lasso für die wahren Koeffizienten lagen zum Zeitpunkt der Veröffentlichung von OP vor, und sie sind in der verlinkten Veröffentlichung gut zusammengefasst.)
quelle
Was Sie mit Elastic, Ridge oder Lasso tun, indem Sie mithilfe der Kreuzvalidierung Regularisierungsparameter auswählen, ist die Anpassung einer linearen Form, um die Vorhersage zu optimieren . Warum diese bestimmten Regularisierungsparameter? Weil sie am besten für die Vorhersage neuer Daten geeignet sind. Wenn der geschätzte Schrumpfungskoeffizient gegen Null geht und eine Vorspannung eingeführt wird (wie dies bei Ridge oder Lasso der Fall ist), können Überanpassung und Schrumpfungsvarianz verringert werden . Die Idee ist, dass Ihre Strafparameter das richtige Gleichgewicht finden, um die Vorhersage für neue Daten zu optimieren.
Stellen Sie sich vor, der Datenerzeugungsprozess ist:
Wie sollen Sie Ihre Ergebnisse präsentieren? Es kommt darauf an, was Ihre Forschungsfrage ist! Vielleicht möchten Sie einen Schritt zurücktreten und sich gründlich überlegen, welche Frage Sie beantworten möchten . Was interessiert Ihr Publikum? Was versuchst du zu machen?
Es ist wichtig, zwischen zwei Arten von Forschungsfragen zu unterscheiden:
Und wie Sie erkennen, kann es Probleme bei der Interpretation geben, warum einige Parameter für maschinelles Lernen funktionieren. Ist Ihr Publikum mit einer Vorhersage-Blackbox zufrieden? Oder ist , wie Vorhersage auf Ihre Frage zentralen funktioniert?
Lasso und Ridge: klassische Gründe, sie zu benutzen
Sie können die Regularisierung verwenden, um eine Überanpassung zu verhindern. Z.B. Die Gratregression im Kontext der Polynomkurvenanpassung kann recht gut funktionieren.
Wie @Benjamin in seiner Antwort betont, kann Lasso auch zur Variablenauswahl verwendet werden. Unter bestimmten Regularitätsbedingungen wählt Lasso konsequent das entsprechende Modell aus: irrelevante Koeffizienten werden auf Null gesetzt.
Ich komme immer wieder darauf zurück, dass es ziemlich schwierig ist, die Ergebnisse der Ridge-Regression, des Lasso oder des elastischen Netzes zu interpretieren, ohne den Kontext zu kennen, den Sie herausfinden möchten!
Prof. Sendhil Mullainathan hielt auf der AFA-Sitzung im Januar 2017 einen Vortrag über maschinelles Lernen, der Teile dieses Beitrags motivierte.
quelle