Ich betrachte ein Regressionsmodell, bei dem eine sehr große Anzahl möglicher erklärender Variablen bewertet wird und schließlich eine kleine Anzahl über die Lasso-Methode der Variablenauswahl ausgewählt wird. Das Der Abstimmungsparameter im Lasso wird anhand der Leistung der Kreuzvalidierungsprognose ausgewählt, die ziemlich normal ist.
Wenn ich jedoch die Liste der ausgewählten Variablen nehme und nur OLS darauf ausführe, erweisen sich viele als statistisch nicht signifikant. Das kann vollkommen in Ordnung sein, wenn sie gemeinsam von Bedeutung sind und die Prognoseleistung anderen Modellen überlegen ist (außerdem stellt sich die Frage, was der T-Test bedeutet, wenn Sie die Variablen bereits in einem separaten Schritt überprüft haben, aber ich ' Ich lasse das beiseite).
Ich bin jedoch gespannt, ob es sinnvoll ist , die statistische Signifikanz einzelner Variablen in einem von Lasso ausgewählten Modell anhand der CV-Prognoseleistung zur Auswahl des Abstimmungsparameters zu untersuchen . Das Problem ist, dass Lasso letztendlich verschiedene Dummy-Variablen auswählt, die nur für kleine Teile der Bevölkerung zutreffen und für OLS unbedeutend sind, und es stellt sich natürlich die Frage, ob das Modell wertend vereinfacht werden sollte.
Antworten:
Hier sind mindestens zwei Dinge zu beachten.
Zunächst ist es wichtig zu erkennen, dass die p-Werte in einer Regression einige Annahmen treffen, um gültig zu sein. Am wichtigsten für Ihren Fall ist, dass Sie wie folgt vorgehen:
Unter diesen Annahmen sind die p-Werte aussagekräftig. Wenn Sie Änderungen an Ihrem Modell basierend auf den von Ihnen gesammelten Daten vornehmen, ist die Variablenauswahl mit dem LASSO beispielsweise die aus einem linearen Modell geschätzten p-Werte nicht aussagekräftig. Dieser Teil der Frage kann durch die Antwort von user2530062 auf diese Frage beantwortet werden, da p-Werte für Sie tatsächlich von Interesse sind.
Zweitens stellt sich die Frage, welche Frage Sie zu beantworten versuchen. Die p-Werte befassen sich mit einer ganz bestimmten Frage:
Wenn dies die Frage ist, die Sie beantworten möchten, müssen Sie Ihr Modell sorgfältig so konstruieren, dass der p-Wert gültig ist. Ich vermute jedoch, dass dies nicht die Frage ist, die Sie tatsächlich beantworten möchten. Vielleicht ist Ihre Frage eher so:
Ein p-Wert gibt Ihnen keine wirklichen Informationen zu dieser Frage oder zur Unendlichkeit anderer Fragen, für die p-Werte nicht entwickelt wurden. Stattdessen sollten Sie eine Prozedur entwerfen, um genau das zu messen, woran Sie interessiert sind. Im obigen Beispiel eine strenge Prozedur, bei der mithilfe des Bootstraps die Wahrscheinlichkeit geschätzt wird, dass die Aufnahme des Parameters in das Modell die Vorhersagegenauigkeit verbessert, sowie eine Kreuzvalidierung, um die zu schätzen Regularisierungsparameter, würde Ihnen gut tun.
quelle
In diesem Artikel wird versucht, einen Ansatz zur Berechnung der p-Werte im Elasticnet bereitzustellen. Ich hatte Mühe, Zeit für die Implementierung zu finden, da es experimentell zu sein scheint und in keinem offiziellen R-Paket enthalten ist.
http://statweb.stanford.edu/~tibs/ftp/covtest.pdf
Es beantwortet nicht den theoretischen Teil Ihrer Frage, kann Sie jedoch einer Antwort näher bringen, wenn Sie p-Werte für elastisches Netz berechnen.
quelle