Wie wählt man Variablen in einem Regressionsmodell aus?

12

Der traditionelle Ansatz zur Variablenauswahl besteht darin, Variablen zu finden, die am meisten zur Vorhersage einer neuen Reaktion beitragen. Kürzlich habe ich von einer Alternative dazu erfahren. Bei der Modellierung von Variablen, die die Wirkung einer Behandlung bestimmen - wie zum Beispiel in einer klinischen Studie mit einem Arzneimittel - soll die Variable qualitativ interagierenmit der Behandlung, wenn unter Beibehaltung anderer Dinge eine Änderung dieser Variablen eine Änderung hervorrufen kann, bei der die Behandlung am effektivsten ist. Diese Variablen sind nicht immer starke Prädiktoren für die Wirkung, können jedoch für einen Arzt wichtig sein, wenn er sich für die Behandlung einzelner Patienten entscheidet. In ihrer Doktorarbeit entwickelte Lacey Gunter eine Methode zur Auswahl dieser qualitativ interagierenden Variablen, die von Algorithmen, deren Auswahl auf Vorhersagen basiert, übersehen werden könnten. Kürzlich habe ich mit ihr zusammengearbeitet, um diese Methoden auf andere Modelle auszuweiten, einschließlich logistische Regression und Cox-Modelle zur proportionalen Regression von Gefahren.

Ich habe zwei Fragen:

  1. Was halten Sie von dem Wert dieser neuen Methoden?
  2. Welchen Ansatz bevorzugen Sie bei den traditionellen Methoden? Kriterien wie AIC, BIC, Mallows Cp, F-Tests für die schrittweise, vorwärts und rückwärts Eingabe oder das Löschen von Variablen ...

Die erste Veröffentlichung hierzu erschien in Gunter, L., Zhu, J. und Murphy, SA (2009). Variable Auswahl für qualitative Interaktionen . Statistical Methodology doi: 10, 1016 / j.stamet.2009.05.003.

Die nächste Veröffentlichung erschien in Gunter, L., Zhu, J. und Murphy, SA (2011). Variable Auswahl qualitativer Interaktionen in der personalisierten Medizin unter Kontrolle der familienbezogenen Fehlerrate . Journal of Biopharmaceutical Statistics 21, 1063 & ndash ; 1078.

Die nächste erschien in einer Sonderausgabe zur variablen Auswahl von Gunter, L., Chernick, MR und Sun, J. (2011). Eine einfache Methode zur Variablenauswahl bei der Regression in Bezug auf die Behandlungsauswahl . Pakistan Journal of Statistics and Operations Research 7: 363 & ndash; 380.

Sie finden die Artikel auf den Webseiten der Zeitschrift. Möglicherweise müssen Sie den Artikel kaufen. Ich habe möglicherweise die PDF-Dateien für diese Artikel. Lacey und ich haben gerade eine Monografie zu diesem Thema fertiggestellt, die später in diesem Jahr als SpringerBrief veröffentlicht wird.

Michael R. Chernick
quelle
11
Vielleicht folge ich nicht - wenn es a priori Grund gibt, eine Änderung des Effekts zu vermuten, wie unterscheiden sich diese neuen Methoden dann zum Beispiel von Interaktionsbegriffen in der Liste der "Kandidaten" -Variablen für die Modellauswahl?
Makro
6
(1) Eine oder mehrere Zeilen scheinen in dieser Frage verloren gegangen zu sein. Ich vermute, es könnte "schrittweise, vorwärts und rückwärts, ..." weitergehen. (2) Modellidentifikation und Variablenauswahl wurden hier ausführlich erörtert. Wenn Sie beispielsweise nach + Modell + Variable + Auswahl suchen, werden an dieser Stelle 145 Themen angezeigt . Wenn Sie diese Suche eingrenzen, wird wahrscheinlich die zweite Frage beantwortet. (3) Können Sie zur leichteren Beantwortung der ersten Frage einen Link oder explizite Verweise auf diese Forschung bereitstellen?
whuber
2
Hierbei handelt es sich um eine Variable, die mit der Behandlung interagiert. Aber es ist eine qualitative Interaktion, nicht nur eine einfache Interaktion. Zur Interaktion dürfen die beiden Linien nicht parallel sein. Um qualitativ zu interagieren, müssen sie das Intervall überschreiten, in dem die Variable definiert ist. Die Idee ist also, eine Variable zu finden, die qualitativ interagiert. Dies unterscheidet sich von der Auswahl von Variablen und Interaktionstermen, die die Anpassung oder Vorhersage verbessern.
Michael R. Chernick
3
Danke, dass du die Gelegenheit genutzt hast zu antworten, Michael. Ein wichtiger Punkt ist vielleicht, dass es sich bei dieser Site nicht um eine Diskussionsseite handelt, sondern um eine Frage- und Antwortseite. Damit einher gehen einige leicht unterschiedliche Kommunikationsmodalitäten. Die FAQ behandelt dies im Detail. Gelegentlich kann das Threading etwas verloren gehen, aber es ist tatsächlich überraschend selten, wenn man erst einmal ein wenig mehr Erfahrung mit dem allgemeinen Schema der Dinge hat. Prost.
Kardinal
6
Michael, ja, das SE-System ist gewöhnungsbedürftig und nicht perfekt. Aber es macht Sinn und ist konsequent. Eine Sache, die wir anstreben, ist die kontinuierliche Verbesserung : Im Gegensatz zu Listenservern und Bulletin Boards können Fragen (und Antworten) geändert werden. das wird erwartet. Letztendlich möchten wir, dass ein Thread mit einer einzelnen, gut formulierten, vollständigen Frage beginnt, die für sich steht, ohne auf den Kommentarthread Bezug zu nehmen. dann sollte es mit einer oder mehreren gut geschriebenen, gut zugeschriebenen kanonischen Antworten weitergehen. Vor diesem Hintergrund können die Vorschläge von @ cardinal für Sie sinnvoller sein.
whuber

Antworten:

2
  1. Siehe Gelman und Hill, Datenanalyse unter Verwendung von Regression und mehrstufigem / hierarchischem Modell, S. 69. Sie haben einen Abschnitt zur Modellauswahl. Sie verwendet einen auf Fragen basierenden Ansatz, der völlig in Ordnung ist, aber in ihrer Arbeit muss sie begründen, warum sie das, was sie getan hat, in das Modell aufgenommen hat. Wie Sie bereits sagten "Diese Variablen sind nicht immer ein starker Indikator für die Wirkung, können aber für einen Arzt wichtig sein, wenn er sich für eine Behandlung für einzelne Patienten entscheidet." Solange sie rechtfertigt, warum diese Prädiktoren einbezogen werden sollten, ist dies in Ordnung. Für mich persönlich bevorzuge ich diese Methoden. Also hier kommt meine Antwort auf 2.
  2. Ich denke, schrittweise, vorwärts und rückwärts sind Blackboxes. Wenn Sie ein Modell durch alle drei ausführen, gelangen Sie nicht zu denselben Prädiktoren. Daher hätte ich in Bezug auf die Verwendung keine klare Antwort. AIC oder BIC können zum Vergleichen von Modellen verwendet werden.
Lauren Goodwin
quelle