Nehmen wir an, Sie sind ein sozialwissenschaftlicher Forscher / Ökonometriker, der versucht, relevante Prädiktoren für die Nachfrage nach einer Dienstleistung zu finden. Sie haben 2 ergebnis- / abhängige Variablen, die den Bedarf beschreiben (unter Verwendung des Dienstes yes / no und der Anzahl der Fälle). Sie haben 10 Prädiktor- / unabhängige Variablen, die theoretisch die Nachfrage erklären könnten (z. B. Alter, Geschlecht, Einkommen, Preis, Rasse usw.). Durch Ausführen von zwei getrennten Mehrfachregressionen werden 20 Koeffizientenschätzungen und ihre p-Werte erhalten. Mit genügend unabhängigen Variablen in Ihren Regressionen würden Sie früher oder später mindestens eine Variable mit einer statistisch signifikanten Korrelation zwischen den abhängigen und unabhängigen Variablen finden.
Meine Frage: Ist es eine gute Idee, die p-Werte für mehrere Tests zu korrigieren, wenn ich alle unabhängigen Variablen in die Regression einbeziehen möchte? Verweise auf frühere Arbeiten werden sehr geschätzt.
quelle
Antworten:
Ihre Frage befasst sich offenbar allgemeiner mit dem Problem der Identifizierung guter Prädiktoren. In diesem Fall sollten Sie eine Art bestraft Regression in Betracht ziehen (Umgang Methoden mit variablen oder Merkmalsauswahl relevant sind auch), mit zB L1, L2 (oder einer Kombination davon, das sogenannte elasticnet ) Strafen (suchen Sie nach ähnlichen Fragen auf diese Seite, oder die R bestraft und elasticnet Paket, ua).
Wenn Sie nun p-Werte für Ihre Regressionskoeffizienten (oder äquivalent Ihre partiellen Korrelationskoeffizienten) korrigieren, um sich vor Überoptimismus zu schützen (z. B. mit Bonferroni oder besser Step-Down-Methoden), scheint dies nur relevant zu sein, wenn Sie überlegen ein Modell und suchen Sie die Prädiktoren, die einen wesentlichen Teil der erklärten Varianz ausmachen, dh, wenn Sie keine Modellauswahl durchführen (mit schrittweiser Auswahl oder hierarchischem Testen). Dieser Artikel könnte ein guter Anfang sein: Bonferroni-Anpassungen in Tests für Regressionskoeffizienten . Beachten Sie, dass eine solche Korrektur Sie nicht vor Multikollinearitätsproblemen schützt, die sich auf die angegebenen p-Werte auswirken.
In Anbetracht Ihrer Daten würde ich die Verwendung einer Art iterativer Modellauswahlverfahren empfehlen. In RR2
stepAIC
ermöglicht die Funktion beispielsweise die schrittweise Modellauswahl nach genauem AIC. Sie können die relative Bedeutung Ihrer Prädiktoren auch anhand ihres Beitrags zu Hilfe von Boostrap abschätzen (siehe das Relaimpo- Paket). Ich denke, dass das Maß für die Größe des Berichtseffekts oder der Prozentsatz der erklärten Varianz informativer ist als der p-Wert, insbesondere in einem Bestätigungsmodell.Es sollte beachtet werden, dass schrittweise Ansätze auch ihre Nachteile haben (z. B. Wald-Tests sind nicht an bedingte Hypothesen angepasst, wie sie durch das schrittweise Verfahren induziert werden), oder wie von Frank Harrell beim R-Mailing angegeben , "die schrittweise variable Auswahl basierend auf AIC hat all das Probleme der schrittweisen Variablenauswahl basierend auf P-Werten. AIC ist nur eine Wiederholung des P-Werts "(AIC bleibt jedoch nützlich, wenn die Menge der Prädiktoren bereits definiert ist); eine verwandte Frage - Ist eine Variable in einem linearen Regressionsmodell signifikant? - Interessante Kommentare ( unter anderem @Rob ) zur Verwendung von AIC für die Variablenauswahl. Ich füge am Ende einige Referenzen hinzu (einschließlich der von @Stephan freundlicherweise zur Verfügung gestellten Artikel)); Es gibt auch viele andere Referenzen auf P.Mean .
Frank Harrell hat ein Buch über Regressionsmodellierungsstrategien verfasst, das viele Diskussionen und Ratschläge zu diesem Problem enthält (§4.3, S. 56-60). Er entwickelte auch effiziente R-Routinen für den Umgang mit verallgemeinerten linearen Modellen (siehe das Design- oder Effektivwert- Paket). Also, ich denke, Sie müssen sich das auf jeden Fall ansehen (seine Handouts finden Sie auf seiner Homepage).
Verweise
step.adj()
im R someMTP- Paket.quelle
Zu einem großen Teil können Sie tun, was Sie wollen, vorausgesetzt, Sie halten genügend Daten nach dem Zufallsprinzip bereit, um zu testen, welches Modell Sie basierend auf den beibehaltenen Daten entwickeln. Eine 50% ige Aufteilung kann eine gute Idee sein. Ja, Sie verlieren die Fähigkeit, Beziehungen zu erkennen, aber was Sie gewinnen, ist enorm. nämlich die Fähigkeit, Ihre Arbeit zu replizieren, bevor sie veröffentlicht wird. Unabhängig davon, wie hoch die statistischen Techniken sind, die Sie anwenden, werden Sie schockiert sein, wie viele "signifikante" Prädiktoren bei der Anwendung auf die Bestätigungsdaten völlig unbrauchbar werden.
Bedenken Sie auch, dass "prädiktionsrelevant" mehr bedeutet als ein niedriger p-Wert. Das bedeutet schließlich nur, dass es wahrscheinlich ist, dass eine in diesem bestimmten Datensatz gefundene Beziehung nicht zufällig ist. Für die Vorhersage ist es eigentlich wichtiger, die Variablen zu finden, die einen wesentlichen Einfluss auf den Vorhersagenden ausüben (ohne das Modell zu überpassen). das heißt, um die Variablen zu finden , die wahrscheinlich zu sein „real“ ist und, wenn über einen vernünftigen Bereich von Werten ( und nicht nur die Werte , die in der Probe auftreten können!) variiert, bewirken , dass der predictand merklich verändern. Wenn Sie zum Bestätigen eines Modells über Hold-out-Daten verfügen, können Sie es sich bequemer machen, geringfügig "signifikante" Variablen beizubehalten, die möglicherweise keine niedrigen p-Werte aufweisen.
Aus diesen Gründen (und basierend auf der guten Antwort von chl) sollten diese nicht die einzigen Determinanten für welche Variablen sein, obwohl ich schrittweise Modelle, AIC-Vergleiche und Bonferroni-Korrekturen als sehr nützlich empfunden habe (insbesondere mit Hunderten oder Tausenden von möglichen Prädiktoren im Spiel) Geben Sie Ihr Modell ein. Vergessen Sie auch nicht die theoretischen Anhaltspunkte: Variablen mit starker theoretischer Berechtigung für ein Modell sollten in der Regel beibehalten werden, auch wenn sie nicht signifikant sind, vorausgesetzt, sie erstellen keine schlecht konditionierten Gleichungen ( z. B. Kollinearität). .
Hinweis : Nachdem Sie sich für ein Modell entschieden und dessen Nützlichkeit mit den Hold-Out-Daten bestätigt haben, können Sie die beibehaltenen Daten mit den Hold-Out-Daten für die endgültige Schätzung neu kombinieren. Somit geht nichts an der Genauigkeit verloren, mit der Sie Modellkoeffizienten schätzen können.
quelle
Ich denke, das ist eine sehr gute Frage. es bringt das umstrittene "Problem" der Mehrfachtests auf den Punkt, das von der Epidemiologie bis zur Ökonometrie reicht. Wie können wir denn wissen, ob die Bedeutung, die wir finden, falsch ist oder nicht? Wie wahr ist unser multivariables Modell?
In Bezug auf technische Ansätze zum Ausgleich der Wahrscheinlichkeit, Geräuschvariablen zu veröffentlichen, stimme ich „whuber“ zutiefst zu, dass es eine gute Idee ist, einen Teil Ihrer Stichprobe als Trainingsdaten und den Rest als Testdaten zu verwenden. Dies ist ein Ansatz, der in der Fachliteratur diskutiert wird. Wenn Sie sich also die Zeit nehmen, können Sie wahrscheinlich einige gute Richtlinien für die Verwendung herausfinden.
Um jedoch die Philosophie des Mehrfachtests direkter zu verstehen, empfehlen wir Ihnen, die Artikel zu lesen, auf die ich im Folgenden verweise. Einige unterstützen die Position, dass die Anpassung für Mehrfachtests häufig schädlich ist (Strom kostet), unnötig ist und sogar ein logischer Irrtum sein kann . Ich akzeptiere nicht automatisch die Behauptung, dass unsere Fähigkeit, einen potenziellen Prädiktor zu untersuchen, durch die Untersuchung eines anderen unaufhaltsam beeinträchtigt wird. Die familienbezogene Typ-1-Fehlerrate kann sich erhöhen, wenn wir mehr Prädiktoren in ein bestimmtes Modell einbeziehen. Solange wir jedoch die Grenzen unserer Stichprobengröße nicht überschreiten, ist die Wahrscheinlichkeit eines Typ-1-Fehlers für jede Person höherPrädiktor ist konstant; und das Steuern auf familienbezogene Fehler beleuchtet nicht, welche spezifische Variable Rauschen ist und welche nicht. Natürlich gibt es auch stichhaltige Gegenargumente.
Solange Sie also Ihre Liste möglicher Variablen auf diejenigen beschränken, die plausibel sind (dh bekannte Wege zum Ergebnis gehabt hätten), ist das Risiko einer Fälschung bereits ziemlich gut gehandhabt.
Ich möchte jedoch hinzufügen, dass sich ein Vorhersagemodell nicht so sehr mit dem "Wahrheitswert" seiner Prädiktoren befasst wie ein Kausalmodell ; Das Modell mag sehr verwirrend sein, aber solange wir einen großen Teil der Varianz erklären, sind wir nicht allzu besorgt. Dies erleichtert die Arbeit, zumindest in gewissem Sinne.
Prost,
Brenden, Biostatistischer Berater
PS: Möglicherweise möchten Sie für die von Ihnen beschriebenen Daten eine Poisson-Regression ohne Aufpumpen durchführen, anstatt zwei separate Regressionen.
quelle
Hier gibt es gute Antworten. Lassen Sie mich ein paar kleine Punkte hinzufügen, die ich anderswo nicht behandelt sehe.
Was sind Ihre Antwortvariablen? Werden sie als miteinander verwandt verstanden? Sie sollten nur zwei separate multiple Regressionen durchführen, wenn sie als unabhängig (theoretisch) verstanden werden / wenn die Residuen der beiden Modelle unabhängig (empirisch) sind. Andernfalls sollten Sie eine multivariate Regression in Betracht ziehen. ("Multivariate" bedeutet> 1 Antwortvariable; "multiple" bedeutet> 1 Prädiktorvariable.)
quelle
Sie können eine scheinbar unabhängige Regression durchführen und einen F-Test verwenden. Geben Sie Ihre Daten in eine Form wie folgt ein:
Damit die Prädiktoren für Ihr erstes Ergebnis ihre Werte haben, wenn dieses Ergebnis die Variable y ist, und andernfalls 0 und umgekehrt. Ihr y ist also eine Liste beider Ergebnisse. P11 und P12 sind die beiden Prädiktoren für das erste Ergebnis und P21 und P22 sind die beiden Prädiktoren für das zweite Ergebnis. Wenn beispielsweise das Geschlecht ein Prädiktor für beide Ergebnisse ist, sollte es zur Vorhersage von Ergebnis 1 in einer separaten Variablen / Spalte verwendet werden, wenn Ergebnis 2 prognostiziert wird. Auf diese Weise kann Ihre Regression für jedes Ergebnis unterschiedliche Steigungen / Auswirkungen auf das Geschlecht haben.
In diesem Framework können Sie Standard-F-Testverfahren verwenden.
quelle