Wann können Sie datenbasierte Kriterien verwenden, um ein Regressionsmodell anzugeben?

20

Ich habe gehört, dass, wenn viele Regressionsmodellspezifikationen (z. B. in OLS) als Möglichkeiten für einen Datensatz betrachtet werden, dies zu mehreren Vergleichsproblemen führt und die p-Werte und Konfidenzintervalle nicht mehr zuverlässig sind. Ein extremes Beispiel hierfür ist die schrittweise Regression.

Wann kann ich die Daten selbst verwenden, um das Modell zu spezifizieren, und wann ist dies kein gültiger Ansatz? Müssen Sie immer eine themenbasierte Theorie haben, um das Modell zu bilden?

Statisfactions
quelle

Antworten:

9

Variable Auswahlverfahren im Allgemeinen (ob schrittweise, rückwärts, vorwärts, alle Teilmengen, AIC usw.) nutzen zufällige oder zufällige Muster in den Stichprobendaten, die in der Grundgesamtheit nicht vorhanden sind. Der Fachbegriff dafür ist zu passend und insbesondere bei kleinen Datensätzen problematisch, wenngleich nicht ausschließlich. Durch die Verwendung einer Prozedur, mit der Variablen basierend auf der besten Anpassung ausgewählt werden, tragen alle zufälligen Variationen, die in diesem Beispiel der Anpassung entsprechen, zu Schätzungen und Standardfehlern bei. Dies ist sowohl für die Vorhersage als auch für die Interpretation des Modells ein Problem .

Insbesondere ist r-squared zu hoch und Parameterschätzungen sind verzerrt (sie sind zu weit von 0 entfernt), Standardfehler für Parameter sind zu klein (und daher sind p-Werte und Intervalle um Parameter zu klein / eng).

Die beste Verteidigung gegen diese Probleme besteht darin, Modelle nachdenklich aufzubauen und die Prädiktoren einzubeziehen, die auf der Grundlage von Theorie, Logik und Vorkenntnissen sinnvoll sind. Wenn ein Variablenauswahlverfahren erforderlich ist, sollten Sie eine Methode auswählen, die die Parameterschätzungen (Schrumpfungsmethoden) strafbar macht, indem Sie die Parameter und Standardfehler anpassen, um eine Überanpassung zu berücksichtigen. Einige gebräuchliche Schrumpfungsmethoden sind die Ridge Regression, die Least Angle Regression oder das Lasso. Darüber hinaus kann eine Kreuzvalidierung mit einem Trainingsdatensatz und einem Testdatensatz oder eine Modellmittelung hilfreich sein, um die Auswirkungen einer Überanpassung zu testen oder zu reduzieren.

Harrell ist eine großartige Quelle für eine detaillierte Diskussion dieser Probleme. Harrell (2001). "Regressionsmodellierungsstrategien."

Brett
quelle
Akzeptieren, lange später! Vielen Dank für diesen detaillierten Überblick über die technischen Probleme, und ich werde einen Blick auf Harrells Buch werfen.
Statisfactions
7

Im sozialwissenschaftlichen Kontext, aus dem ich komme, geht es darum, ob Sie an (a) Vorhersage oder (b) Prüfung einer gezielten Forschungsfrage interessiert sind. Wenn der Zweck die Vorhersage ist, sind datengetriebene Ansätze angemessen. Wenn der Zweck darin besteht, eine gezielte Forschungsfrage zu untersuchen, ist es wichtig zu prüfen, welches Regressionsmodell Ihre Frage speziell testet.

Wenn Ihre Aufgabe beispielsweise darin bestand, eine Reihe von Auswahltests auszuwählen, um die Arbeitsleistung vorherzusagen, kann das Ziel in gewisser Weise darin gesehen werden, die Vorhersage der Arbeitsleistung zu maximieren. Daher wären datengetriebene Ansätze nützlich.

Wenn Sie dagegen die relative Rolle von Persönlichkeitsvariablen und Fähigkeitsvariablen bei der Beeinflussung der Leistung verstehen möchten, ist ein spezifischer Modellvergleich möglicherweise besser geeignet.

Bei der Erforschung fokussierter Forschungsfragen geht es in der Regel darum, etwas über die zugrunde liegenden kausalen Prozesse herauszufinden, die ablaufen, anstatt ein Modell mit optimaler Vorhersage zu entwickeln.

Wenn ich dabei bin, Modelle für Prozesse zu entwickeln, die auf Querschnittsdaten basieren, muss ich Folgendes beachten: (a) Einbeziehen von Prädiktoren, die theoretisch als Konsequenzen der Ergebnisvariablen angesehen werden könnten. Zum Beispiel ist die Überzeugung einer Person, dass sie eine gute Leistung erbringt, ein guter Indikator für die Arbeitsleistung, aber es ist wahrscheinlich, dass dies zumindest teilweise auf die Tatsache zurückzuführen ist, dass sie ihre eigene Leistung beobachtet hat. (b) Einbeziehung einer großen Anzahl von Prädiktoren, die alle dieselben zugrunde liegenden Phänomene widerspiegeln. ZB einschließlich 20 Einzelteilen, die alle Zufriedenheit mit dem Leben auf verschiedene Arten messen.

Daher hängen fokussierte Forschungsfragen viel mehr von domänenspezifischem Wissen ab. Dies erklärt wahrscheinlich, warum datengetriebene Ansätze in den Sozialwissenschaften weniger häufig verwendet werden.

Jeromy Anglim
quelle
4

Ich glaube nicht, dass es möglich ist, Bonferoni oder ähnliche Korrekturen vorzunehmen, um die Variablenauswahl in der Regression anzupassen, da alle Tests und Schritte bei der Modellauswahl nicht unabhängig voneinander sind.

Ein Ansatz besteht darin, das Modell unter Verwendung eines Datensatzes zu formulieren und auf einen anderen Datensatz zu schließen. Dies geschieht in der Prognose, wenn wir immer einen Trainingssatz und einen Testsatz haben. In anderen Bereichen ist dies nicht sehr verbreitet, wahrscheinlich, weil die Daten so wertvoll sind, dass wir jede einzelne Beobachtung für die Modellauswahl und den Rückschluss verwenden möchten. Wie Sie jedoch in Ihrer Frage bemerken, ist der Nachteil, dass die Schlussfolgerung tatsächlich irreführend ist.

Es gibt viele Situationen, in denen ein theoretischer Ansatz unmöglich ist, da es keine gut entwickelte Theorie gibt. Tatsächlich denke ich, dass dies viel häufiger ist als die Fälle, in denen die Theorie ein Modell vorschlägt.

Rob Hyndman
quelle
4

Richard Berk hat kürzlich einen Artikel veröffentlicht, in dem er anhand von Simulationen die Probleme des Snooping und der statistischen Inferenz von Daten demonstriert. Rob meinte, es sei problematischer, als einfach mehrere Hypothesentests zu korrigieren.

Statistische Inferenz nach Modellauswahl von: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology. 26, No. 2. (1. Juni 2010), S. 217-236.

PDF-Version hier

Andy W
quelle
(+1) Danke für den Link! Diese verwandte Frage könnte Sie interessieren: stats.stackexchange.com/questions/3200/… . Fühlen Sie sich frei, einen Beitrag zu leisten.
chl
@chl, ich glaube nicht, dass ich zu den bereits hervorragenden Antworten auf diese Frage etwas hinzufügen kann. Ich denke tatsächlich, Brendans Antwort ist sehr ergreifend, da ich vermute, dass das Originalplakat wirklich an kausalen Schlussfolgerungen interessiert ist, die nicht nur auf dem Kontext der Frage beruhen.
Andy W
Ja, ich habe an seine Antwort gedacht. Ich habe eine Reflexion zum Thema Datenbaggerung eingeleitet (nicht genau zu Fragen der Modell- / Variablenauswahl oder der kausalen Folgerung), erhalte aber bislang nur wenige Antworten. Wenn Sie Ihre eigenen Ideen hinzufügen möchten, wäre es interessant: stats.stackexchange.com/questions/3252/…
chl
2

Wenn ich Ihre Frage richtig verstehe, besteht die Antwort auf Ihr Problem darin, die p-Werte entsprechend der Anzahl der Hypothesen zu korrigieren.

Zum Beispiel Holm-Bonferoni-Korrekturen, bei denen Sie die Hypothese (= Ihre verschiedenen Modelle) nach ihrem p-Wert sortieren und diejenigen mit einem p-Wert von (gewünschter p-Wert / Index) ablehnen.

Mehr zum Thema finden Sie auf Wikipedia

Peter Smit
quelle
1
Vielleicht möchten Sie diese Antwort auf eine separate Frage lesen und verstehen , warum Einstellung p-Werte in einer solchen Art und Weise nicht die beste Lösung sein kann, stats.stackexchange.com/questions/3200/...
Andy W