Wird bei Verwendung des schrittweisen Vorwärtsansatzes zur Auswahl von Variablen garantiert, dass das Endmodell das höchstmögliche ? Anders gesagt, garantiert der schrittweise Ansatz ein globales Optimum oder nur ein lokales Optimum?
Wenn ich beispielsweise 10 Variablen zur Auswahl habe und ein 5-Variablen-Modell erstellen möchte, hat das nach dem schrittweisen Ansatz erstellte 5-Variablen-Endergebnis das höchste aller möglichen 5-Variablen-Modelle, die dies könnten wurde gebaut?
Beachten Sie, dass diese Frage rein theoretisch ist, dh wir diskutieren nicht, ob ein hoher -Wert optimal ist, ob er zu einer Überanpassung führt usw.
r-squared
stepwise-regression
zabidlo
quelle
quelle
Antworten:
Sie erhalten nicht unbedingt das höchste R da Sie nur eine Teilmenge möglicher Modelle vergleichen und möglicherweise das mit dem höchsten R übersehen, das alle Variablen enthält. Um dieses Modell zu erhalten, müssten Sie alle Teilmengen betrachten . Aber das beste Modell ist möglicherweise nicht das mit dem höchsten R weil Sie möglicherweise überanpassen, weil es alle Variablen enthält.2 22 2 2
quelle
Hier ist ein Zählerbeispiel mit zufällig generierten Daten und R:
Wer wollte den Denkprozess: Es ist meist ein Kontrast zwischen Neugier und Faulheit. Der ursprüngliche Beitrag sprach davon, 10 Prädiktorvariablen zu haben, also habe ich das verwendet. Die 0,9-Korrelation war eine schöne runde Zahl mit einer ziemlich hohen Korrelation, aber nicht zu hoch (wenn sie zu hoch ist, würden schrittweise nur 1 oder 2 Prädiktoren erfasst). Ich dachte, die beste Chance, ein Gegenbeispiel zu finden, wäre ein gutes Maß an Kollinearität. Ein realistischeres Beispiel hätte verschiedene Korrelationen (aber immer noch ein gutes Maß an Kollinearität) und eine definierte Beziehung zwischen den Prädiktoren (oder einer Teilmenge davon) und der Antwortvariablen gehabt. Die Stichprobengröße von 100 war auch die erste, die ich als schöne runde Zahl ausprobiert habe (und die Faustregel besagt, dass Sie mindestens 10 Beobachtungen pro Prädiktor haben sollten). Ich habe den obigen Code mit den Samen 1 und 2 ausprobiert, dann das Ganze in eine Schleife gewickelt und verschiedene Samen nacheinander ausprobieren lassen. Eigentlich hörte es bei Samen 3 auf, aber der Unterschied inR2
quelle
Dies führt jedoch zu sehr voreingenommenen Ergebnissen. p-Werte sind zu niedrig, Koeffizienten von 0 weg vorgespannt, Standardfehler zu klein; und alles nach Beträgen, die nicht richtig geschätzt werden können.
Die schrittweise Auswahl hat auch dieses Problem.
Ich empfehle dringend , gegen jede automatisierte variable Auswahlmethode, denn das Schlimmste , was über sie ist , dass sie Sie aufhören zu denken; oder anders ausgedrückt, ein Datenanalyst, der automatisierte Methoden verwendet, fordert seinen Chef auf, ihn weniger zu bezahlen.
Wenn Sie müssen eine automatisierte Methode verwenden, dann sollten Sie Ihre Daten in Trainings- und Testsätze trennen, oder möglicherweise die Ausbildung, Validierung und letzte Sätze.
quelle