Vor ein paar Tagen erzählte mir ein Psychologe und Forscher von seiner Methode zur Auswahl von Variablen für ein lineares Regressionsmodell. Ich denke, es ist nicht gut, aber ich muss jemanden fragen, um sicherzugehen. Die Methode ist:
Betrachten Sie die Korrelationsmatrix zwischen allen Variablen (einschließlich der abhängigen Variablen Y) und wählen Sie die Prädiktoren Xs aus, die am meisten mit Y korrelieren.
Er erwähnte kein Kriterium. F: Hatte er recht?
[Ich denke, dass diese Auswahlmethode aus vielerlei Gründen falsch ist, so wie es die Theorie ist, die besagt, welche Prädiktoren ausgewählt werden sollten, oder sogar die Variable Bias (OVB) weggelassen hat.]
regression
correlation
model-selection
Lil'Lobster
quelle
quelle
Antworten:
Wenn Sie aus irgendeinem Grund nur eine Variable in Ihr Modell aufnehmen, hat die Auswahl des Prädiktors, der die höchste Korrelation mit mehrere Vorteile. Von den möglichen Regressionsmodellen mit nur einem Prädiktor ist dieses Modell das Modell mit dem höchsten standardisierten Regressionskoeffizienten und auch (da R 2 das Quadrat von r in einer einfachen linearen Regression ist ) dem höchsten Bestimmungskoeffizienten .y R2 r
Es ist jedoch nicht klar, warum Sie Ihr Regressionsmodell auf einen Prädiktor beschränken möchten, wenn Daten für mehrere verfügbar sind. Wie in den Kommentaren erwähnt, funktioniert es nicht, nur die Korrelationen zu betrachten, wenn Ihr Modell möglicherweise mehrere Variablen enthält. Anhand dieser Streumatrix könnten Sie beispielsweise annehmen , dass die Prädiktoren für Sie in Ihr Modell aufnehmen sollten, x 1 (Korrelation 0,824) und x 2 (Korrelation 0,782) sind, aber dass x 3 (Korrelation 0,134) kein nützlicher Prädiktor ist.y x1 x2 x3
Und hier ist ein Beispiel, das noch schlimmer ist:
quelle
Sie könnten eine schrittweise Regressionsanalyse durchführen und die Software die Variablen anhand der F-Werte auswählen lassen. Sie können sich auch den angepassten R ^ 2-Wert ansehen, wenn Sie die Regression jedes Mal ausführen, um festzustellen, ob neue Variablen hinzugefügt wurden, die zu Ihrem Modell beitragen. Ihr Modell hat möglicherweise das Problem der Multikollinearität, wenn Sie nur die Korrelationsmatrix verwenden und Variablen mit starker Korrelation auswählen. Hoffe das hilft!
quelle