Ich führe eine Analyse durch, bei der das Hauptziel darin besteht, die Daten zu verstehen. Der Datensatz ist groß genug für eine Kreuzvalidierung (10 KB), und Prädiktoren enthalten sowohl kontinuierliche als auch Dummy-Variablen, und das Ergebnis ist kontinuierlich. Hauptziel war es zu sehen, ob es sinnvoll ist, einige Prädiktoren auszuschalten, um die Interpretation des Modells zu vereinfachen.
Fragen:
Meine Frage lautet: "Welche Vars erklären das Ergebnis und sind ein" stark genug "Teil dieser Erklärung?" Um jedoch den Lambda-Parameter für Lasso auszuwählen, verwenden Sie die Kreuzvalidierung, dh die prädiktive Validität als Kriterium. Ist die prädiktive Validität ein ausreichender Ersatz für die allgemeine Frage, die ich stelle?
Angenommen, LASSO hat nur 3 von 8 Prädiktoren behalten. Und jetzt frage ich mich: "Wie wirken sich diese auf das Ergebnis aus?" Zum Beispiel habe ich einen geschlechtsspezifischen Unterschied festgestellt. Nach der Lasso-Schrumpfung deutet der Koeffizient darauf hin, dass Frauen 1 Punkt höher als Männer sind. Ohne die Schrumpfung (dh auf dem tatsächlichen Datensatz) erzielen sie 2,5 Punkte mehr.
- Welchen würde ich als meinen "echten" Gender-Effekt betrachten? Wenn man nur die prädiktive Validität berücksichtigt, wäre dies der geschrumpfte Koeffizient.
- Oder sagen Sie in einem Zusammenhang, dass ich einen Bericht für Personen schreibe, die sich mit Statistiken nicht auskennen. Welchen Koeffizienten würde ich ihnen melden?
quelle
Antworten:
Wenn Sie die Parameter in Ihrem Modell genau schätzen möchten, sollten Sie Ihr Modell auswählen, wie nah Sie am tatsächlichen Modell sind. Vorhersagevalidität über Kreuzvalidierung ist ein Weg , dies zu tun und ist die bevorzugte Weg zum Auswählen in LASSO Regression. λ∗ λ
Um nun die Frage zu beantworten, welche Parameterschätzung die "reale Schätzung" ist, sollte man sich ansehen, welcher Parameter dem realen Parameterwert "am nächsten" liegt. Bedeutet "am nächsten" die Parameterschätzungen, die die Verzerrung minimieren? Wenn ja, dann ist der Schätzer der kleinsten Quadrate in der linearen Regression unvoreingenommen. Bedeutet am nächsten die Parameterschätzung, die den mittleren quadratischen Fehler (MSE) minimiert? Dann kann gezeigt werden, dass es eine Spezifikation der Gratregression gibt, die Ihnen Schätzungen liefert, die die MSE minimieren (ähnlich wie bei LASSO verkleinert die Gratregression die Parameterschätzungen gegen Null, aber im Gegensatz zu LASSO erreichen die Parameterschätzungen nicht Null). In ähnlicher Weise gibt es in LASSO mehrere Spezifikationen des Abstimmungsparameters , die zu einer kleineren MSE als der linearen Regression führen (siehe hier)λ ). Als Statistiker müssen Sie die "beste" Schätzung ermitteln und diese (vorzugsweise mit einem Hinweis auf das Vertrauen der Schätzung) an diejenigen melden, die sich mit Statistiken nicht auskennen. Was "am besten" ist, kann eine voreingenommene Schätzung sein oder auch nicht.
Dieλ λ
glmnet
Funktion in R macht einen ziemlich guten Job bei der Auswahl guter Werte von und zusammenfassend ist die Auswahl von durch Kreuzvalidierung und Berichterstattung der Parameterschätzungen eine durchaus vernünftige Methode, um den "realen" Wert der Parameter zu schätzen.λλ∗ Ein Bayesianisches LASSO-Modell, das nach Grenzwahrscheinlichkeit auswählt, wird von einigen bevorzugt, aber ich gehe möglicherweise fälschlicherweise davon aus, dass Sie ein häufig vorkommendes LASSO-Modell verwenden.λ
quelle