Ich setze eine schrittweise logistische Regression auf einen Datensatz in SPSS. Während der Prozedur passe ich mein Modell an eine zufällige Teilmenge an, die ca. 60% der Gesamtstichprobe, das sind ca. 330 Fälle.
Was ich interessant finde, ist, dass bei jedem erneuten Abtasten meiner Daten verschiedene Variablen im endgültigen Modell ein- und ausgeblendet werden. Im endgültigen Modell sind immer einige Prädiktoren vorhanden, andere werden jedoch abhängig von der Stichprobe ein- und ausgeblendet.
Meine Frage ist das. Was ist der beste Weg, um damit umzugehen? Ich hatte gehofft, die Konvergenz der Prädiktorvariablen zu sehen, aber das ist nicht der Fall. Einige Modelle sind aus operativer Sicht viel intuitiver zu verstehen (und wären den Entscheidungsträgern leichter zu erklären), andere passen etwas besser zu den Daten.
Kurz gesagt, wie würden Sie mir empfehlen, mit meiner Situation umzugehen, da sich Variablen bewegen?
Vielen Dank im Voraus.
quelle
Eine wichtige Frage lautet: "Warum soll ein Modell mit möglichst wenigen Variablen erstellt werden?". Wenn Sie so wenige Variablen wie möglich haben möchten, um die Kosten für die Datenerfassung für die betriebliche Nutzung Ihres Modells zu minimieren, sind die Antworten von whuber und mbq ein hervorragender Anfang.
Wenn Vorhersageleistung wirklich wichtig ist, ist es wahrscheinlich besser, überhaupt keine Featureauswahl vorzunehmen und stattdessen die regulierte logistische Regression zu verwenden (siehe Kammregression). In der Tat, wenn die prädiktive Leistung das Wichtigste war, würde ich die standardisierte logistische Regression als eine Art "Belt-and-Braces" -Strategie verwenden, um eine Überanpassung eines kleinen Datensatzes zu vermeiden. Millar in seinem Buch über die Auswahl von Teilmengen in der Regression ziemlich genau diesen Ratschlag im Anhang, und ich habe herausgefunden, dass dies ein ausgezeichneter Ratschlag für Probleme mit vielen Merkmalen und nicht sehr vielen Beobachtungen ist.
Wenn das Verstehen der Daten wichtig ist, muss das zum Verstehen der Daten verwendete Modell nicht dasselbe sein, das zum Vorhersagen verwendet wird. In diesem Fall würde ich die Daten viele Male neu abtasten und die Muster ausgewählter Variablen über Stichproben hinweg untersuchen, um festzustellen, welche Variablen informativ waren (wie mbq andeutet, ergibt eine einzelne Stichprobe bei instabiler Featureauswahl kein vollständiges Bild). aber ich würde immer noch das eingesackte regularisierte logistische Regressionsmodell-Ensemble für Vorhersagen verwenden.
quelle
Im Allgemeinen gibt es zwei Probleme bei der Featureauswahl:
Die Konvergenz der Prädiktorauswahl liegt in einem Bereich aller relevanten Probleme, der höllisch schwer ist und daher viel leistungsfähigere Werkzeuge als logistische Regression, umfangreiche Berechnungen und eine sehr sorgfältige Behandlung erfordert.
Aber es sieht so aus, als würden Sie das erste Problem lösen, also sollten Sie sich darüber keine Sorgen machen. Ich kann die Antwort von Whubers im Allgemeinen unterstützen, aber ich stimme der Behauptung nicht zu, dass Sie das Resampling fallen lassen sollten - hier handelt es sich nicht um eine Methode zur Stabilisierung der Merkmalsauswahl, aber dennoch um eine Simulation zur Schätzung der Leistung einer gekoppelten Merkmalsauswahl + Training Dies gibt Ihnen einen Einblick in das Vertrauen in Ihre Genauigkeit.
quelle
Sie können einen Blick auf das Papier Stability Selection von Meinshausen und Buhlmann in JR Statist werfen. Soc B (2010) 72 Teil 4 und die Diskussion danach. Sie berücksichtigen, was passiert, wenn Sie Ihre Datenpunkte nach dem Zufallsprinzip wiederholt in zwei Hälften teilen und in jeder Hälfte nach Merkmalen suchen. Indem Sie davon ausgehen, dass das, was Sie in einer Hälfte sehen, unabhängig von dem ist, was Sie in der entsprechenden anderen Hälfte sehen, können Sie Grenzen für die erwartete Anzahl falsch ausgewählter Variablen nachweisen.
quelle
Nicht schrittweise anwenden! Siehe meine Zeitung
quelle