Ich kenne die Vorteile der Regularisierung bei der Erstellung von Vorhersagemodellen (Bias vs. Varianz, Vermeidung von Überanpassung). Aber ich frage mich, ob es eine gute Idee ist, auch Regularisierungen durchzuführen (Lasso, Grat, elastisches Netz), wenn der Hauptzweck des Regressionsmodells darin besteht, auf die Koeffizienten zu schließen (zu sehen, welche Prädiktoren statistisch signifikant sind). Ich würde gerne die Gedanken der Leute hören sowie Links zu akademischen Zeitschriften oder nicht-akademischen Artikeln, die sich damit befassen.
17
Antworten:
Der Begriff "Regularisierung" umfasst eine Vielzahl von Methoden. Zum Zweck dieser Antwort werde ich "bestrafte Optimierung" meinen, dh Ihrem Optimierungsproblem eine Strafe von oder hinzufügen .L 2L1 L2
Wenn dies der Fall ist, lautet die Antwort definitiv "Ja! Nun, irgendwie".
Der Grund dafür ist , dass eine Zugabe oder zu Strafe an die Likelihood - Funktion führt genau wie das Hinzufügen entweder ein Laplace oder Gaußsche zu einer Wahrscheinlichkeit eines vor der gleichen mathematischen Funktion die hintere Verteilung (Elevator Pitch zu erhalten: vor Verteilung Unsicherheit von Parametern beschreibt Bevor Daten angezeigt werden, beschreibt die posteriore Verteilung die Unsicherheit von Parametern nach dem Anzeigen von Daten. Dies führt zu Bayes'schen Statistiken 101. Bayes'sche Statistiken sind sehr beliebt und werden ständig durchgeführt, um auf geschätzte Auswirkungen schließen zu können.L 2L1 L2
Das war das "Ja!" Teil. Das "Nun, irgendwie" ist, dass die Optimierung Ihrer posterioren Verteilung erfolgt und als "Maximum A Posterior" (MAP) -Schätzung bezeichnet wird. Die meisten Bayesianer verwenden jedoch keine MAP-Schätzung, sondern verwenden MCMC-Algorithmen aus der posterioren Verteilung! Dies hat mehrere Vorteile, von denen einer darin besteht, dass die Varianzkomponenten tendenziell weniger nach unten gerichtet sind.
Der Kürze halber habe ich versucht, nicht näher auf die Bayes'schen Statistiken einzugehen, aber wenn Sie dies interessiert, sollten Sie hier nachsehen.
quelle
Es gibt einen großen Unterschied zwischen der Durchführung einer Schätzung unter Verwendung von Strafen vom Typ Ridge und Strafen vom Typ Lasso. Ridge-Typ-Schätzer neigen dazu, alle Regressionskoeffizienten in Richtung Null zu verkleinern und sind voreingenommen, lassen sich jedoch leicht als asymptotische Verteilung ableiten, da sie keine Variable auf genau Null verkleinern. Die Verzerrung bei den Kammschätzungen kann bei der anschließenden Durchführung von Hypothesentests problematisch sein, aber ich bin kein Experte auf diesem Gebiet. Andererseits verringern Strafen vom Typ Lasso / elastisches Netz viele Regressionskoeffizienten auf Null und können daher als Modellauswahltechniken angesehen werden. Das Problem der Inferenz an Modellen, die auf der Grundlage von Daten ausgewählt wurden, wird üblicherweise als das Problem der selektiven Inferenz oder die Inferenz nach der Auswahl bezeichnet. Dieses Gebiet hat in den letzten Jahren viele Entwicklungen erfahren.
In ähnlicher Weise schränkt das Lasso (oder elastische Netz) den Probenraum so ein, dass sichergestellt ist, dass das ausgewählte Modell ausgewählt wurde. Diese Kürzung ist komplizierter, kann aber analytisch beschrieben werden.
Basierend auf dieser Erkenntnis kann eine Inferenz basierend auf der abgeschnittenen Verteilung der Daten durchgeführt werden, um gültige Teststatistiken zu erhalten. Zu Konfidenzintervallen und Teststatistiken siehe die Arbeit von Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Ihre Methoden sind im R-Paket selectiveInference implementiert .
Die optimale Schätzung (und Prüfung) nach der Modellauswahl wird in (für das Lasso): https://arxiv.org/abs/1705.09417 erörtert
und ihr (weitaus weniger umfassendes) Softwarepaket finden Sie unter: https://github.com/ammeir2/selectiveMLE
quelle
Ich würde LASSO besonders empfehlen, wenn Sie versuchen, eine Regression für Inferenzen zu verwenden, die darauf basieren, "welche Prädiktoren statistisch signifikant sind" - aber nicht aus dem erwarteten Grund.
In der Praxis besteht die Tendenz, dass Prädiktoren in einem Modell korreliert sind. Auch wenn es keine wesentliche Multikollinearität gibt, kann die Auswahl "signifikanter" Prädiktoren durch die Regression unter den korrelierten Prädiktoren von Stichprobe zu Stichprobe erheblich variieren.
Also ja, machen Sie LASSO für Ihre Regression. Wiederholen Sie dann den gesamten Modellbildungsprozess (einschließlich der Kreuzvalidierung, um die LASSO-Strafe zu ermitteln) an mehreren Bootstrap-Beispielen (etwa einige hundert) aus den Originaldaten. Sehen Sie, wie variabel die Menge der auf diese Weise ausgewählten "signifikanten" Prädiktoren sein kann.
Sofern Ihre Prädiktoren nicht stark orthogonal zueinander sind, sollten Sie sich bei diesem Vorgang zweimal überlegen, ob Sie p-Werte in einer Regression dahingehend interpretieren sollen, welche einzelnen Prädiktoren "signifikant" wichtig sind.
quelle