Schrittweise logistische Regression und Stichprobe

13

Ich setze eine schrittweise logistische Regression auf einen Datensatz in SPSS. Während der Prozedur passe ich mein Modell an eine zufällige Teilmenge an, die ca. 60% der Gesamtstichprobe, das sind ca. 330 Fälle.

Was ich interessant finde, ist, dass bei jedem erneuten Abtasten meiner Daten verschiedene Variablen im endgültigen Modell ein- und ausgeblendet werden. Im endgültigen Modell sind immer einige Prädiktoren vorhanden, andere werden jedoch abhängig von der Stichprobe ein- und ausgeblendet.

Meine Frage ist das. Was ist der beste Weg, um damit umzugehen? Ich hatte gehofft, die Konvergenz der Prädiktorvariablen zu sehen, aber das ist nicht der Fall. Einige Modelle sind aus operativer Sicht viel intuitiver zu verstehen (und wären den Entscheidungsträgern leichter zu erklären), andere passen etwas besser zu den Daten.

Kurz gesagt, wie würden Sie mir empfehlen, mit meiner Situation umzugehen, da sich Variablen bewegen?

Vielen Dank im Voraus.

Btibert3
quelle

Antworten:

16

Wenn Sie schrittweise vorgehen, nehmen Sie kein Resample vor. Erstellen Sie ein für alle Mal eine zufällige Unterprobe. Führen Sie Ihre Analyse darauf durch. Validieren Sie die Ergebnisse anhand der gehaltenen Daten. Es ist wahrscheinlich, dass die meisten "signifikanten" Variablen nicht signifikant sind.

( Edit 12/2015: Sie können in der Tat über einen so einfachen Ansatz hinausgehen, indem Sie das Resampling wiederholen, die schrittweise Prozedur wiederholen und erneut validieren: Dies führt Sie zu einer Form der Kreuzvalidierung. In einem solchen Fall werden jedoch komplexere Methoden für Variablen verwendet Selektion wie Gratregression, Lasso und elastisches Netz sind wahrscheinlich einer schrittweisen Regression vorzuziehen.)

CpFt

(Ich gehe davon aus, dass Sie bereits die Analyse und Untersuchung durchgeführt haben, um geeignete Wiederholungen der unabhängigen Variablen zu identifizieren, dass Sie wahrscheinliche Wechselwirkungen identifiziert haben und dass Sie festgestellt haben, dass es tatsächlich eine annähernd lineare Beziehung zwischen dem Logit der abhängigen Variablen gibt und die Regressoren. Wenn nicht, machen Sie diese wesentliche Vorarbeit und kehren Sie erst dann zur schrittweisen Regression zurück.)

Seien Sie vorsichtig, wenn Sie allgemeinen Ratschlägen folgen, die ich gerade gegeben habe :-). Ihr Ansatz sollte vom Zweck der Analyse (Vorhersage, Extrapolation, wissenschaftliches Verständnis, Entscheidungsfindung) sowie von der Art der Daten, der Anzahl der Variablen usw. abhängen.

whuber
quelle
2
+1 zur Hervorhebung der Bedeutung der Modellinterpretation. Ich werde nichts über den uninformierten ML-Ansatz (oder die Ensemble-Methoden) mit komplexeren Kreuzvalidierungsschemata hinzufügen, da ich glaube, dass Sie bereits gesagt haben, worauf es hier wirklich ankommt: durch Vergleichen eines Ergebnisses nach dem anderen) und (2) hängt alles davon ab, ob wir ein Vorhersagemodell oder ein Erklärungsmodell suchen.
chl
Vielen Dank für Ihren Einblick. Ich habe einige Voruntersuchungen durchgeführt, um meinen Suchraum einzuschränken, und möchte einfach das beste Modell für die Vorhersage mit den wenigsten Variablen finden. Ich werfe nur 7 Prädiktoren in das Modell, was, wie ich es verstehe, in Ordnung sein sollte. Ich verstehe die Idee, an einer Probe festzuhalten, aber auf der anderen Seite war mein Modell grundlegend anders und zeigt, dass die Ergebnisse vollständig von der Probe abhängig sind, was mich innehalten ließ.
Btibert3
@ Btibert3 Richtig: Wenn die Ergebnisse in zufälligen Teilmengen Ihrer Daten variieren, können Sie dies als Beweis dafür ansehen, dass die unabhängigen Variablen keine starken oder konsistenten Prädiktoren für die unabhängige Variable sind.
whuber
12

Eine wichtige Frage lautet: "Warum soll ein Modell mit möglichst wenigen Variablen erstellt werden?". Wenn Sie so wenige Variablen wie möglich haben möchten, um die Kosten für die Datenerfassung für die betriebliche Nutzung Ihres Modells zu minimieren, sind die Antworten von whuber und mbq ein hervorragender Anfang.

Wenn Vorhersageleistung wirklich wichtig ist, ist es wahrscheinlich besser, überhaupt keine Featureauswahl vorzunehmen und stattdessen die regulierte logistische Regression zu verwenden (siehe Kammregression). In der Tat, wenn die prädiktive Leistung das Wichtigste war, würde ich die standardisierte logistische Regression als eine Art "Belt-and-Braces" -Strategie verwenden, um eine Überanpassung eines kleinen Datensatzes zu vermeiden. Millar in seinem Buch über die Auswahl von Teilmengen in der Regression ziemlich genau diesen Ratschlag im Anhang, und ich habe herausgefunden, dass dies ein ausgezeichneter Ratschlag für Probleme mit vielen Merkmalen und nicht sehr vielen Beobachtungen ist.

Wenn das Verstehen der Daten wichtig ist, muss das zum Verstehen der Daten verwendete Modell nicht dasselbe sein, das zum Vorhersagen verwendet wird. In diesem Fall würde ich die Daten viele Male neu abtasten und die Muster ausgewählter Variablen über Stichproben hinweg untersuchen, um festzustellen, welche Variablen informativ waren (wie mbq andeutet, ergibt eine einzelne Stichprobe bei instabiler Featureauswahl kein vollständiges Bild). aber ich würde immer noch das eingesackte regularisierte logistische Regressionsmodell-Ensemble für Vorhersagen verwenden.

Dikran Beuteltier
quelle
1
+1 für den Zeiger auf die regulierte logistische Regression. Es ist jedoch unklar, wie man formal "Muster betrachten" könnte, wenn man die "Daten viele Male" neu abtastet. Das klingt sehr nach Datenschnüffeln und scheint daher zu Frustration und Fehlern zu führen.
whuber
5
Feature-Auswahl, wenn die Auswahl instabil ist, wird immer ein Rezept für Frustration und Fehler sein. Die Verwendung von nur einer Stichprobe verringert die Frustration, erhöht jedoch die Fehlerwahrscheinlichkeit, da Sie auf der Grundlage dessen, was für die jeweilige Stichprobe am besten funktioniert, Rückschlüsse auf die für das Problem relevanten Merkmale ziehen können. Dies ist eine Form der Überbewertung. passend zu. Durch das erneute Abtasten erhalten Sie eine Vorstellung von der Unsicherheit bei der Featureauswahl, die oft genauso wichtig ist. In diesem Fall sollten wir keine eindeutigen Schlussfolgerungen zu den relevanten Funktionen ziehen, da nicht genügend Daten vorliegen.
Dikran Marsupial
Guter Punkt; Ich hasse es, wenn die Leute vom Resampling nur meinen zählen, es ist so eine Verschwendung.
10

Im Allgemeinen gibt es zwei Probleme bei der Featureauswahl:

  • minimal optimal , wo Sie nach dem kleinsten Variablensatz suchen, der Ihnen den kleinsten Fehler liefert
  • all relevant , wo Sie nach allen Variablen suchen, die für ein Problem relevant sind

Die Konvergenz der Prädiktorauswahl liegt in einem Bereich aller relevanten Probleme, der höllisch schwer ist und daher viel leistungsfähigere Werkzeuge als logistische Regression, umfangreiche Berechnungen und eine sehr sorgfältige Behandlung erfordert.

Aber es sieht so aus, als würden Sie das erste Problem lösen, also sollten Sie sich darüber keine Sorgen machen. Ich kann die Antwort von Whubers im Allgemeinen unterstützen, aber ich stimme der Behauptung nicht zu, dass Sie das Resampling fallen lassen sollten - hier handelt es sich nicht um eine Methode zur Stabilisierung der Merkmalsauswahl, aber dennoch um eine Simulation zur Schätzung der Leistung einer gekoppelten Merkmalsauswahl + Training Dies gibt Ihnen einen Einblick in das Vertrauen in Ihre Genauigkeit.


quelle
+1 Ich mache mir Sorgen, dass viel Resampling nur verwirrend und irreführend sein wird. Ein kontrolliertes Resampling über eine Kreuzvalidierung oder ein Hold-out-Sample zur Verifizierung ist offensichtlich unproblematisch.
whuber
6

Sie können einen Blick auf das Papier Stability Selection von Meinshausen und Buhlmann in JR Statist werfen. Soc B (2010) 72 Teil 4 und die Diskussion danach. Sie berücksichtigen, was passiert, wenn Sie Ihre Datenpunkte nach dem Zufallsprinzip wiederholt in zwei Hälften teilen und in jeder Hälfte nach Merkmalen suchen. Indem Sie davon ausgehen, dass das, was Sie in einer Hälfte sehen, unabhängig von dem ist, was Sie in der entsprechenden anderen Hälfte sehen, können Sie Grenzen für die erwartete Anzahl falsch ausgewählter Variablen nachweisen.

mcdowella
quelle
2

Nicht schrittweise anwenden! Siehe meine Zeitung

Peter Flom - Wiedereinsetzung von Monica
quelle