Ist es eine gute Idee, die p-Werte in einer multiplen Regression für multiple Vergleiche anzupassen?

54

Nehmen wir an, Sie sind ein sozialwissenschaftlicher Forscher / Ökonometriker, der versucht, relevante Prädiktoren für die Nachfrage nach einer Dienstleistung zu finden. Sie haben 2 ergebnis- / abhängige Variablen, die den Bedarf beschreiben (unter Verwendung des Dienstes yes / no und der Anzahl der Fälle). Sie haben 10 Prädiktor- / unabhängige Variablen, die theoretisch die Nachfrage erklären könnten (z. B. Alter, Geschlecht, Einkommen, Preis, Rasse usw.). Durch Ausführen von zwei getrennten Mehrfachregressionen werden 20 Koeffizientenschätzungen und ihre p-Werte erhalten. Mit genügend unabhängigen Variablen in Ihren Regressionen würden Sie früher oder später mindestens eine Variable mit einer statistisch signifikanten Korrelation zwischen den abhängigen und unabhängigen Variablen finden.

Meine Frage: Ist es eine gute Idee, die p-Werte für mehrere Tests zu korrigieren, wenn ich alle unabhängigen Variablen in die Regression einbeziehen möchte? Verweise auf frühere Arbeiten werden sehr geschätzt.

Mikael M
quelle
hmmm ... interessantes Problem - bivariate Regression mit einer variablen [Art] stetigen und einer dichotomen. Die übliche MVN-Regressionstheorie besagt, dass es die richtige Analyse ist, für jede der beiden bivariaten Normalantworten separate Regressionen durchzuführen und dann die Ergebnisse zusammenzusetzen - im Sinne von Gauß-Markov, um die vc-Matrix der Regressionsschätzer unter allen unverzerrten linearen Schätzern zu minimieren im MVN-Fall unter allen unvoreingenommenen Schätzern]. Ist „separate Regressionen“ immer noch das Beste, was man tun kann, wenn eine Regression logistisch ist? [unbiasedness scheint ein bisschen weit hergeholt in diesem Fall excep
ronaf

Antworten:

48

Ihre Frage befasst sich offenbar allgemeiner mit dem Problem der Identifizierung guter Prädiktoren. In diesem Fall sollten Sie eine Art bestraft Regression in Betracht ziehen (Umgang Methoden mit variablen oder Merkmalsauswahl relevant sind auch), mit zB L1, L2 (oder einer Kombination davon, das sogenannte elasticnet ) Strafen (suchen Sie nach ähnlichen Fragen auf diese Seite, oder die R bestraft und elasticnet Paket, ua).

Wenn Sie nun p-Werte für Ihre Regressionskoeffizienten (oder äquivalent Ihre partiellen Korrelationskoeffizienten) korrigieren, um sich vor Überoptimismus zu schützen (z. B. mit Bonferroni oder besser Step-Down-Methoden), scheint dies nur relevant zu sein, wenn Sie überlegen ein Modell und suchen Sie die Prädiktoren, die einen wesentlichen Teil der erklärten Varianz ausmachen, dh, wenn Sie keine Modellauswahl durchführen (mit schrittweiser Auswahl oder hierarchischem Testen). Dieser Artikel könnte ein guter Anfang sein: Bonferroni-Anpassungen in Tests für Regressionskoeffizienten . Beachten Sie, dass eine solche Korrektur Sie nicht vor Multikollinearitätsproblemen schützt, die sich auf die angegebenen p-Werte auswirken.

In Anbetracht Ihrer Daten würde ich die Verwendung einer Art iterativer Modellauswahlverfahren empfehlen. In R stepAICermöglicht die Funktion beispielsweise die schrittweise Modellauswahl nach genauem AIC. Sie können die relative Bedeutung Ihrer Prädiktoren auch anhand ihres Beitrags zu Hilfe von Boostrap abschätzen (siehe das Relaimpo- Paket). Ich denke, dass das Maß für die Größe des Berichtseffekts oder der Prozentsatz der erklärten Varianz informativer ist als der p-Wert, insbesondere in einem Bestätigungsmodell.R2

Es sollte beachtet werden, dass schrittweise Ansätze auch ihre Nachteile haben (z. B. Wald-Tests sind nicht an bedingte Hypothesen angepasst, wie sie durch das schrittweise Verfahren induziert werden), oder wie von Frank Harrell beim R-Mailing angegeben , "die schrittweise variable Auswahl basierend auf AIC hat all das Probleme der schrittweisen Variablenauswahl basierend auf P-Werten. AIC ist nur eine Wiederholung des P-Werts "(AIC bleibt jedoch nützlich, wenn die Menge der Prädiktoren bereits definiert ist); eine verwandte Frage - Ist eine Variable in einem linearen Regressionsmodell signifikant? - Interessante Kommentare ( unter anderem @Rob ) zur Verwendung von AIC für die Variablenauswahl. Ich füge am Ende einige Referenzen hinzu (einschließlich der von @Stephan freundlicherweise zur Verfügung gestellten Artikel)); Es gibt auch viele andere Referenzen auf P.Mean .

Frank Harrell hat ein Buch über Regressionsmodellierungsstrategien verfasst, das viele Diskussionen und Ratschläge zu diesem Problem enthält (§4.3, S. 56-60). Er entwickelte auch effiziente R-Routinen für den Umgang mit verallgemeinerten linearen Modellen (siehe das Design- oder Effektivwert- Paket). Also, ich denke, Sie müssen sich das auf jeden Fall ansehen (seine Handouts finden Sie auf seiner Homepage).

Verweise

  1. Whittingham, MJ, Stephens, P, Bradbury, RB und Freckleton, RP (2006). Warum setzen wir die schrittweise Modellierung in Ökologie und Verhalten immer noch ein? Journal of Animal Ecology , 75 , 1182 & ndash; 1189.
  2. Austin, PC (2008). Die Bootstrap-Modellauswahl zeigte eine ähnliche Leistung bei der Auswahl von authentischen Variablen und Rauschvariablen wie die Eliminierung von Rückwärtsvariablen: eine Simulationsstudie . Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  3. Austin, PC und Tu, JV (2004). Automatische Variablenauswahlmethoden für die logistische Regression ergaben instabile Modelle für die Vorhersage der Mortalität bei akutem Myokardinfarkt . Journal of Clinical Epidemiology , 57 , 1138–1146.
  4. Greenland, S. (1994). Hierarchische Regression für epidemiologische Analysen von Mehrfachexpositionen . Environmental Health Perspectives , 102 (Suppl 8) , 33–39.
  5. Greenland, S. (2008). Mehrfachvergleiche und Assoziationsauswahl in der allgemeinen Epidemiologie . International Journal of Epidemiology , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T und Sung L (2009). Ermittlung der relativen Bedeutung von Variablen bei der Entwicklung und Validierung von Vorhersagemodellen . BMC Medical Research Methodology , 9 , 64.
  7. Bursac, Z., Gauss, CH, Williams, DK und Hosmer, DW (2008). Zielgerichtete Auswahl von Variablen in der logistischen Regression . Quellcode für Biologie und Medizin , 3 , 17.
  8. Brombin, C, Finos, L und Salmaso, L (2007). Anpassung schrittweise p-Werte in verallgemeinerten linearen Modellen . Internationale Konferenz zu multiplen Vergleichsverfahren . - siehe step.adj()im R someMTP- Paket.
  9. Wiegand, RE (2010). Leistung bei der Verwendung mehrerer schrittweiser Algorithmen für die Variablenauswahl . Statistics in Medicine , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW und Harrell FE (2004). Bestrafte Maximum-Likelihood-Schätzung zur Vorhersage binärer Ergebnisse. Journal of Clinical Epidemiology , 57 (12) , 1262–1270.
  11. Tibshirani, R. (1996). Regressionsschrumpfung und Selektion über das Lasso . Journal of The Royal Statistical Society B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T, Johnstone, I und Tibshirani, R (2004). Regression des kleinsten Winkels . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL und Cassell, DL (2007). Schrittweise anhalten: Warum schrittweise und ähnliche Auswahlmethoden schlecht sind und was Sie verwenden sollten . NESUG 2007 Proceedings .
  14. Shtatland, ES, Cain, E. und Barton, MB (2001). Die Gefahren einer schrittweisen logistischen Regression und wie sie mithilfe von Informationskriterien und dem Output Delivery System vermieden werden können . SUGI 26-Verfahren (S. 222–226).
chl
quelle
10
Die Ablehnung macht mir nichts aus, aber ich würde mich über einen Kommentar freuen (damit ich selbst lernen, verstehen kann, was falsch war, und meine zukünftigen Antworten verbessern kann).
CHL
3
+1, eine gute Antwort und auch die Bemerkung von chl über das Hinterlassen einer Erklärung für Abwertungen, um sowohl dem Autor als auch den Lesern zu helfen, zu verstehen, was möglicherweise fehlt. Vielen Dank.
ars
Ich empfehle chl, eine Art bestrafte Regression anzuwenden (z. B. das Lasso).
S. Kolassa - Setzen Sie Monica
10
@chl: Ich bin unzufrieden mit der Empfehlung einer schrittweisen Prädiktorauswahl. Normalerweise basiert dies auf p-Werten ("schließen Sie einen Prädiktor mit p> .15 aus, schließen Sie ihn ein, wenn p <.05") und führt zu verzerrten Schätzungen und schlechter prädiktiver Leistung (Whittingham et al., 2006, Why do we still Verwenden Sie schrittweise Modellierung in Ökologie und Verhalten? J Anim Ecol, 75, 1182-1189). AIC-basierte schrittweise Ansätze haben jedoch die gleiche Schwäche - Frank Harrell hat dies in einem Beitrag zu R-help am 9. August 2010 um 16:34:19 Uhr (CDT) im Thread "Logistic Regression in R (SAS - wie Ausgabe) ".
S. Kolassa - Setzen Sie Monica
Gibt es eine Möglichkeit, Links in Kommentare aufzunehmen?
S. Kolassa - Setzen Sie Monica
25

Zu einem großen Teil können Sie tun, was Sie wollen, vorausgesetzt, Sie halten genügend Daten nach dem Zufallsprinzip bereit, um zu testen, welches Modell Sie basierend auf den beibehaltenen Daten entwickeln. Eine 50% ige Aufteilung kann eine gute Idee sein. Ja, Sie verlieren die Fähigkeit, Beziehungen zu erkennen, aber was Sie gewinnen, ist enorm. nämlich die Fähigkeit, Ihre Arbeit zu replizieren, bevor sie veröffentlicht wird. Unabhängig davon, wie hoch die statistischen Techniken sind, die Sie anwenden, werden Sie schockiert sein, wie viele "signifikante" Prädiktoren bei der Anwendung auf die Bestätigungsdaten völlig unbrauchbar werden.

Bedenken Sie auch, dass "prädiktionsrelevant" mehr bedeutet als ein niedriger p-Wert. Das bedeutet schließlich nur, dass es wahrscheinlich ist, dass eine in diesem bestimmten Datensatz gefundene Beziehung nicht zufällig ist. Für die Vorhersage ist es eigentlich wichtiger, die Variablen zu finden, die einen wesentlichen Einfluss auf den Vorhersagenden ausüben (ohne das Modell zu überpassen). das heißt, um die Variablen zu finden , die wahrscheinlich zu sein „real“ ist und, wenn über einen vernünftigen Bereich von Werten ( und nicht nur die Werte , die in der Probe auftreten können!) variiert, bewirken , dass der predictand merklich verändern. Wenn Sie zum Bestätigen eines Modells über Hold-out-Daten verfügen, können Sie es sich bequemer machen, geringfügig "signifikante" Variablen beizubehalten, die möglicherweise keine niedrigen p-Werte aufweisen.

Aus diesen Gründen (und basierend auf der guten Antwort von chl) sollten diese nicht die einzigen Determinanten für welche Variablen sein, obwohl ich schrittweise Modelle, AIC-Vergleiche und Bonferroni-Korrekturen als sehr nützlich empfunden habe (insbesondere mit Hunderten oder Tausenden von möglichen Prädiktoren im Spiel) Geben Sie Ihr Modell ein. Vergessen Sie auch nicht die theoretischen Anhaltspunkte: Variablen mit starker theoretischer Berechtigung für ein Modell sollten in der Regel beibehalten werden, auch wenn sie nicht signifikant sind, vorausgesetzt, sie erstellen keine schlecht konditionierten Gleichungen ( z. B. Kollinearität). .

Hinweis : Nachdem Sie sich für ein Modell entschieden und dessen Nützlichkeit mit den Hold-Out-Daten bestätigt haben, können Sie die beibehaltenen Daten mit den Hold-Out-Daten für die endgültige Schätzung neu kombinieren. Somit geht nichts an der Genauigkeit verloren, mit der Sie Modellkoeffizienten schätzen können.

whuber
quelle
Vielen Dank! Wenn Sie keinen Zugriff auf die Originaldaten, sondern nur eine Tabelle mit Regressionskoeffizienten haben, ist die Bonferroni-Anpassung Ihre einzige Wahl?
Mikael M
4
Vermutlich hast du auch die p-Werte :-). Aber nur mit diesen und den Koeffizienten ist es schwer vorstellbar, was Sie außer einer Bonferroni-Anpassung noch tun könnten. (Ich nehme eine solche Anpassung immer vor, wenn ich eine Zeitung mit mehreren Tests lese: Auf diese Weise lassen sich schnell die Ergebnisse herausfiltern, die wahrscheinlich minderwertig sind.) Die meisten Leute stellen auch zusammenfassende Statistiken für die Variablen bereit: Sie können Bereiche oder SDs zusammen mit verwenden die Koeffizienten, um abzuschätzen, wie viel Einfluss jede erklärende Variable auf den Vorhersagenden haben könnte.
whuber
Vielen Dank für Ihre Erklärung, esp. auf Kreuzvalidierung. Ich schätze Ihr letztes Argument, dass wir auch nach theoretischer Relevanz suchen müssen (jenseits von p-Werten).
Chl
19

Ich denke, das ist eine sehr gute Frage. es bringt das umstrittene "Problem" der Mehrfachtests auf den Punkt, das von der Epidemiologie bis zur Ökonometrie reicht. Wie können wir denn wissen, ob die Bedeutung, die wir finden, falsch ist oder nicht? Wie wahr ist unser multivariables Modell?

In Bezug auf technische Ansätze zum Ausgleich der Wahrscheinlichkeit, Geräuschvariablen zu veröffentlichen, stimme ich „whuber“ zutiefst zu, dass es eine gute Idee ist, einen Teil Ihrer Stichprobe als Trainingsdaten und den Rest als Testdaten zu verwenden. Dies ist ein Ansatz, der in der Fachliteratur diskutiert wird. Wenn Sie sich also die Zeit nehmen, können Sie wahrscheinlich einige gute Richtlinien für die Verwendung herausfinden.

Um jedoch die Philosophie des Mehrfachtests direkter zu verstehen, empfehlen wir Ihnen, die Artikel zu lesen, auf die ich im Folgenden verweise. Einige unterstützen die Position, dass die Anpassung für Mehrfachtests häufig schädlich ist (Strom kostet), unnötig ist und sogar ein logischer Irrtum sein kann . Ich akzeptiere nicht automatisch die Behauptung, dass unsere Fähigkeit, einen potenziellen Prädiktor zu untersuchen, durch die Untersuchung eines anderen unaufhaltsam beeinträchtigt wird. Die familienbezogene Typ-1-Fehlerrate kann sich erhöhen, wenn wir mehr Prädiktoren in ein bestimmtes Modell einbeziehen. Solange wir jedoch die Grenzen unserer Stichprobengröße nicht überschreiten, ist die Wahrscheinlichkeit eines Typ-1-Fehlers für jede Person höherPrädiktor ist konstant; und das Steuern auf familienbezogene Fehler beleuchtet nicht, welche spezifische Variable Rauschen ist und welche nicht. Natürlich gibt es auch stichhaltige Gegenargumente.

Solange Sie also Ihre Liste möglicher Variablen auf diejenigen beschränken, die plausibel sind (dh bekannte Wege zum Ergebnis gehabt hätten), ist das Risiko einer Fälschung bereits ziemlich gut gehandhabt.

Ich möchte jedoch hinzufügen, dass sich ein Vorhersagemodell nicht so sehr mit dem "Wahrheitswert" seiner Prädiktoren befasst wie ein Kausalmodell ; Das Modell mag sehr verwirrend sein, aber solange wir einen großen Teil der Varianz erklären, sind wir nicht allzu besorgt. Dies erleichtert die Arbeit, zumindest in gewissem Sinne.

Prost,

Brenden, Biostatistischer Berater

PS: Möglicherweise möchten Sie für die von Ihnen beschriebenen Daten eine Poisson-Regression ohne Aufpumpen durchführen, anstatt zwei separate Regressionen.

  1. Perneger, TV Was mit Bonferroni Anpassungen falsch ist . BMJ 1998; 316: 1236
  2. Cook, RJ & Farewell, VT Überlegungen zur Vielfalt bei der Konzeption und Analyse klinischer Studien . Zeitschrift der Royal Statistical Society , Reihe A 1996; Vol. 159, No. 1: 93 & ndash; 110
  3. Rothman, KJ Für mehrere Vergleiche sind keine Anpassungen erforderlich . Epidemiology 1990; Vol. 1, No. 1: 43 & ndash; 46
  4. Marshall, JR Datenbaggerung und Bemerkenswertes . Epidemiology 1990; Vol. 1, Nr. 1: 5-7
  5. Manchmal sind Anpassungen von Greenland, S. & Robins, JM Empirical-Bayes für mehrere Vergleiche hilfreich . Epidemiology 1991; Vol. 2, No. 4: 244 & ndash; 251
Brenden
quelle
Fortsetzung: 2. Überlegungen zu Cook RJ und Farewell VT Multiplicity bei der Konzeption und Analyse klinischer Studien. Zeitschrift der Royal Statistical Society, Reihe A 1996; Vol. 159, No. 1: 93-110
Brenden
Vielen Dank für Ihre Kommentare, Brenden, insbesondere die letzte zum Thema Vorhersage vs. kausale Erklärung. Und willkommen auf der Seite! Ich hoffe, in Zukunft noch viele weitere Beiträge von Ihnen zu sehen.
whuber
Fortsetzung: 3. Rothman KJ Für mehrere Vergleiche sind keine Anpassungen erforderlich. Epidemiology 1990; Vol. 1, No. 1: 43-46 4. Marshall JR Datenbaggerung und Bemerkenswertes. Epidemiology 1990; Vol. 1, No. 1: 5-7 5. Grönland S. und Robins JM Empirical-Bayes Anpassungen für mehrere Vergleiche sind manchmal nützlich. Epidemiology 1991; Vol. 2, No. 4: 244-251
Brenden
(+1) Sie könnten an folgendem Thread interessiert sein: stats.stackexchange.com/questions/3252/… . Es scheint, dass wir viele gemeinsame Links haben :-)
chl
6

Hier gibt es gute Antworten. Lassen Sie mich ein paar kleine Punkte hinzufügen, die ich anderswo nicht behandelt sehe.

Was sind Ihre Antwortvariablen? Werden sie als miteinander verwandt verstanden? Sie sollten nur zwei separate multiple Regressionen durchführen, wenn sie als unabhängig (theoretisch) verstanden werden / wenn die Residuen der beiden Modelle unabhängig (empirisch) sind. Andernfalls sollten Sie eine multivariate Regression in Betracht ziehen. ("Multivariate" bedeutet> 1 Antwortvariable; "multiple" bedeutet> 1 Prädiktorvariable.)

F

gung - Wiedereinsetzung von Monica
quelle
0

Sie können eine scheinbar unabhängige Regression durchführen und einen F-Test verwenden. Geben Sie Ihre Daten in eine Form wie folgt ein:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

Damit die Prädiktoren für Ihr erstes Ergebnis ihre Werte haben, wenn dieses Ergebnis die Variable y ist, und andernfalls 0 und umgekehrt. Ihr y ist also eine Liste beider Ergebnisse. P11 und P12 sind die beiden Prädiktoren für das erste Ergebnis und P21 und P22 sind die beiden Prädiktoren für das zweite Ergebnis. Wenn beispielsweise das Geschlecht ein Prädiktor für beide Ergebnisse ist, sollte es zur Vorhersage von Ergebnis 1 in einer separaten Variablen / Spalte verwendet werden, wenn Ergebnis 2 prognostiziert wird. Auf diese Weise kann Ihre Regression für jedes Ergebnis unterschiedliche Steigungen / Auswirkungen auf das Geschlecht haben.

In diesem Framework können Sie Standard-F-Testverfahren verwenden.

Charlie
quelle