LASSO für erklärende Modelle: verkleinerte Parameter oder nicht?

9

Ich führe eine Analyse durch, bei der das Hauptziel darin besteht, die Daten zu verstehen. Der Datensatz ist groß genug für eine Kreuzvalidierung (10 KB), und Prädiktoren enthalten sowohl kontinuierliche als auch Dummy-Variablen, und das Ergebnis ist kontinuierlich. Hauptziel war es zu sehen, ob es sinnvoll ist, einige Prädiktoren auszuschalten, um die Interpretation des Modells zu vereinfachen.

Fragen:

  1. Meine Frage lautet: "Welche Vars erklären das Ergebnis und sind ein" stark genug "Teil dieser Erklärung?" Um jedoch den Lambda-Parameter für Lasso auszuwählen, verwenden Sie die Kreuzvalidierung, dh die prädiktive Validität als Kriterium. Ist die prädiktive Validität ein ausreichender Ersatz für die allgemeine Frage, die ich stelle?

  2. Angenommen, LASSO hat nur 3 von 8 Prädiktoren behalten. Und jetzt frage ich mich: "Wie wirken sich diese auf das Ergebnis aus?" Zum Beispiel habe ich einen geschlechtsspezifischen Unterschied festgestellt. Nach der Lasso-Schrumpfung deutet der Koeffizient darauf hin, dass Frauen 1 Punkt höher als Männer sind. Ohne die Schrumpfung (dh auf dem tatsächlichen Datensatz) erzielen sie 2,5 Punkte mehr.

    • Welchen würde ich als meinen "echten" Gender-Effekt betrachten? Wenn man nur die prädiktive Validität berücksichtigt, wäre dies der geschrumpfte Koeffizient.
    • Oder sagen Sie in einem Zusammenhang, dass ich einen Bericht für Personen schreibe, die sich mit Statistiken nicht auskennen. Welchen Koeffizienten würde ich ihnen melden?
mbokulic
quelle
1
Was für ein Modell schaust du dir an? Lineares, logistisches, Poisson usw. Modell?
TrynnaDoStat
1
Es ist ein lineares Modell, aber ich denke nicht, dass das einen Unterschied für die Frage macht
mbokulic

Antworten:

7

Wenn Sie die Parameter in Ihrem Modell genau schätzen möchten, sollten Sie Ihr Modell auswählen, wie nah Sie am tatsächlichen Modell sind. Vorhersagevalidität über Kreuzvalidierung ist ein Weg , dies zu tun und ist die bevorzugte Weg zum Auswählen in LASSO Regression. λλ

Um nun die Frage zu beantworten, welche Parameterschätzung die "reale Schätzung" ist, sollte man sich ansehen, welcher Parameter dem realen Parameterwert "am nächsten" liegt. Bedeutet "am nächsten" die Parameterschätzungen, die die Verzerrung minimieren? Wenn ja, dann ist der Schätzer der kleinsten Quadrate in der linearen Regression unvoreingenommen. Bedeutet am nächsten die Parameterschätzung, die den mittleren quadratischen Fehler (MSE) minimiert? Dann kann gezeigt werden, dass es eine Spezifikation der Gratregression gibt, die Ihnen Schätzungen liefert, die die MSE minimieren (ähnlich wie bei LASSO verkleinert die Gratregression die Parameterschätzungen gegen Null, aber im Gegensatz zu LASSO erreichen die Parameterschätzungen nicht Null). In ähnlicher Weise gibt es in LASSO mehrere Spezifikationen des Abstimmungsparameters , die zu einer kleineren MSE als der linearen Regression führen (siehe hier)λ). Als Statistiker müssen Sie die "beste" Schätzung ermitteln und diese (vorzugsweise mit einem Hinweis auf das Vertrauen der Schätzung) an diejenigen melden, die sich mit Statistiken nicht auskennen. Was "am besten" ist, kann eine voreingenommene Schätzung sein oder auch nicht.

Die glmnetFunktion in R macht einen ziemlich guten Job bei der Auswahl guter Werte von und zusammenfassend ist die Auswahl von durch Kreuzvalidierung und Berichterstattung der Parameterschätzungen eine durchaus vernünftige Methode, um den "realen" Wert der Parameter zu schätzen.λλλ

λ Ein Bayesianisches LASSO-Modell, das nach Grenzwahrscheinlichkeit auswählt, wird von einigen bevorzugt, aber ich gehe möglicherweise fälschlicherweise davon aus, dass Sie ein häufig vorkommendes LASSO-Modell verwenden.λ

TrynnaDoStat
quelle
Was meinten Sie mit "Verzerrung" in "den Parameterschätzungen, die die Verzerrung minimieren"? Und lese ich den Rest richtig, wenn ich ihn so lese: Ich sollte das Modell auswählen, das die niedrigste geschätzte MSE außerhalb der Stichprobe aufweist (dh bei der Kreuzvalidierung)? Da Ridge nicht in Frage kommt, da ich eine Matrix mit spärlichen Koeffizienten möchte, ist die Angabe der geschrumpften Lasso-Koeffizienten der richtige Weg
mbokulic
λ
Interessant, ich habe es nie so gesehen. Wieder muss ich fragen, ob ich dich richtig verstanden habe. Die lineare Regression liefert also die unvoreingenommenste Schätzung der Populationskoeffizienten (das Beispiel "2,5 Punkte höher" in meiner ursprünglichen Frage). Während Lasso oder Grat Regr. Minimieren Sie die MSE außerhalb der Stichprobe. Wenn ja, wenn Sie nur verstehen (nicht vorhersagen) möchten, scheint die lineare Regression besser zu sein, obwohl Sie das Modell dennoch mit z. B. schrittweisen Methoden vereinfachen möchten.
mbokulic
Die Antworten hier sind hilfreich. Sie legen nahe, dass OLS (lineare Regression) die Bast-In-Sample-Leistung aufweist, während Lasso für Out-of-Sample gilt. Sie schlagen auch vor, dass OLS für den eingeschränkten Satz von Prädiktoren verwendet werden kann, die vom Lasso ausgewählt wurden. Dies ist genau das, was für mein Interpretationsziel Sinn macht, auch wenn die OLS-Schätzungen leicht überpassen werden.
mbokulic