Wann sollte eine Variable in eine Regression einbezogen werden, obwohl sie statistisch nicht signifikant ist?

37

Ich bin ein Wirtschaftsstudent mit etwas Erfahrung in Ökonometrie und R. Ich würde gerne wissen, ob es jemals eine Situation gibt, in der wir eine Variable in eine Regression einbeziehen sollten, obwohl sie statistisch nicht signifikant ist.

EconJohn
quelle
1
In die medizinische Forschung würden Sie es einbeziehen, wenn es sich um qualitative Interaktionen handelt. Sehen Sie sich die Arbeit von Lacey Gunter an, auf die ich hier zuvor verwiesen habe. Auch das 2013 von Springer herausgegebene Buch von Chakraborty und Moodie. Der Titel lautet Statistical Methods for Dynamic Treatment Regimes: Reinforcement Learning, Causal Inference und Personalized Medicine.
Michael Chernick
11
Bedenken Sie auch, dass die statistische Signifikanz völlig willkürlich ist. Was ist wichtig? 0,05 & le; 0,1 & le; 0,001? Wenn die theoretische Grundlage für die Einbeziehung eines Prädiktors besteht, ist dies Grund genug, ihn beizubehalten.
Ashe
2
Wenn Sie "nicht statistisch signifikant" sagen, stellen Sie fest, dass das Konfidenzniveau bei 5% liegt, was eine willkürliche Wahl ist? (Und je mehr Variablen es gibt, desto mehr Probleme treten beim Testen auf.)
SMCI
1
@smci 0,05 = 5% Signifikanzniveau entspricht 95% Konfidenzniveau, Grund genug, die Begriffe nicht im selben Satz zu mischen. Da Signifikanzverfahren ohne Konfidenzintervall in Sicht sind, ist es normalerweise am einfachsten, den jeweils zutreffenderen Begriff zu verwenden. Ausnahmen sind, wenn Sie den Link auf einleitender Ebene erklären.
Nick Cox

Antworten:

30

Ja!

Dass ein Koeffizient statistisch nicht von Null zu unterscheiden ist, bedeutet nicht , dass der Koeffizient tatsächlich Null ist, dass der Koeffizient irrelevant ist. Dass ein Effekt keinen willkürlichen Grenzwert für die statistische Signifikanz überschreitet, bedeutet nicht, dass man nicht versuchen sollte, ihn zu kontrollieren.

Im Allgemeinen sollte das vorliegende Problem und Ihr Forschungsdesign als Leitfaden für die Aufnahme von Regressoren dienen.

Einige kurze Beispiele:

Und nicht nehmen dies als eine erschöpfende Liste. Es ist nicht schwer, Tonnen mehr zu finden ...

1. Behobene Effekte

Eine Situation, in der dies häufig auftritt, ist eine Regression mit festen Effekten .

b

yit=bxit+ui+ϵit

uii

uiui

(Beachten Sie außerdem, dass die meisten Statistikpakete nicht einmal die Standardfehler für einzelne Fixeffekte anzeigen, wenn Sie die integrierten Methoden verwenden. Die Bedeutung einzelner Fixeffekte ist Ihnen eigentlich egal. Sie kümmern sich wahrscheinlich auch um ihre kollektive Bedeutung .)

2. Funktionen, die zusammenpassen ...

(a) Polynomkurvenanpassung (Hutspitze @NickCox in den Kommentaren)

k

Wenn Sie z. B. ein Polynom 2. Ordnung anpassen würden, würden Sie Folgendes ausführen:

yi=b0+b1xi+b2xi2+ϵi

b1=0

yi=b0+b2xi2+ϵi

Studierende der Newtonschen Mechanik können sich jedoch Ausnahmen vorstellen.

b) AR (p) -Modelle:

Angenommen, Sie haben ein AR (p) -Modell geschätzt, bei dem Sie auch Terme niedrigerer Ordnung einbeziehen würden. Für ein AR (2) würden Sie beispielsweise Folgendes ausführen:

yt=b0+b1yt1+b2yt2+ϵt

yt=b0+b2yt2+ϵt

(c) Trigonometrische Funktionen

cossin

Im weiteren Sinne ...

Sie möchten Variablen auf der rechten Seite einbeziehen, wenn es gute theoretische Gründe dafür gibt.

Wie in anderen Antworten hier und in StackExchange erläutert, kann die schrittweise Auswahl von Variablen zahlreiche statistische Probleme verursachen.

Es ist auch wichtig zu unterscheiden zwischen:

  • ein statistisch nicht von Null zu unterscheidender Koeffizient mit einem kleinen Standardfehler.
  • ein statistisch nicht von Null unterscheidbarer Koeffizient mit einem großen Standardfehler.

Im letzteren Fall ist es problematisch zu argumentieren, dass der Koeffizient keine Rolle spielt. Es kann einfach schlecht gemessen werden.

Matthew Gunn
quelle
uibuiuiui
5
Einige sehr gute Antworten, die sich trotzdem schon ein bisschen zu sehr überschneiden, deshalb beschränke ich mich hier auf einen Kommentar. Polynomanpassung : Am häufigsten sollte ein Quadrat fast immer durch einen Doppelakt aus linearen und quadratischen Termen angepasst werden. Auch wenn auf herkömmlicher Ebene nur ein Begriff von Bedeutung ist, ist ihre gemeinsame Wirkung von entscheidender Bedeutung. Trigonometrische Prädiktoren In ähnlicher Weise gehören Sinus und Cosinus normalerweise zusammen, auch wenn man sich auf herkömmlichen Ebenen nicht qualifizieren kann. Doppelakte sollten als solche angebracht werden.
Nick Cox
2
@NickCox Da es sich um ein Community-Wiki handelt und Ihr Punkt in direktem Zusammenhang mit dem hier angesprochenen steht, sollte Ihr Kommentar an geeigneter Stelle in die Antwort eingefügt werden. Es ist zu wichtig, meiner Meinung nach nur eine Bemerkung zu bleiben, obwohl ich glaube, dass Sie Recht haben, dass es nicht die beste Antwort wäre
Silverfish
@ Silverfish Matthew ist herzlich eingeladen, es zu kopieren. Es erscheint mir jedoch etwas anmaßend, es zu bearbeiten.
Nick Cox
1
@ NickCox Haha, es ist mir egal. :) Ich habe deine Vorschläge hinzugefügt und kann sie gerne bearbeiten !.
Matthew Gunn
14

Ja, das gibt es. Jede Variable, die auf aussagekräftige Weise mit Ihrer Antwortvariablen korreliert, selbst auf einer statistisch nicht signifikanten Ebene, kann Ihre Regression durcheinander bringen, wenn sie nicht enthalten ist. Dies wird als Unterspezifikation bezeichnet und führt zu Parameterschätzungen, die nicht so genau sind, wie sie sonst sein könnten.

https://onlinecourses.science.psu.edu/stat501/node/328

Von Oben:

Ein Regressionsmodell ist unterbestimmt (Ergebnis 2), wenn in der Regressionsgleichung eine oder mehrere wichtige Prädiktorvariablen fehlen. Diese Situation ist möglicherweise das Worst-Case-Szenario, da ein unterbestimmtes Modell verzerrte Regressionskoeffizienten und verzerrte Vorhersagen der Reaktion liefert. Das heißt, wenn wir das Modell verwenden, würden wir die Bevölkerungssteigungen und die Bevölkerungsmittel durchweg unterschätzen oder überschätzen. Um ohnehin schlechte Dinge noch schlimmer zu machen, neigt der mittlere Quadratfehler MSE dazu, σ² zu überschätzen, wodurch sich breitere Konfidenzintervalle ergeben, als es sollte.

doppelter Ärger
quelle
4
Das ist nicht ganz richtig. Um eine verwirrende Variable zu sein, muss sie die erklärte Variable und die interessierende (n) erklärende (n) Variable (n) verursachen. Wenn die interessierenden erklärenden Variablen die Variable verursachen und das Ergebnis beeinflussen, handelt es sich um eine intervenierende Variable, die Sie nicht kontrollieren sollten (es sei denn, Sie möchten den Gesamteffekt zerlegen).
Maarten Buis
1
Dies ist eine sehr unzureichende Diskussion zum Thema Kontrolle von Verwechslungen. Die Korrelation mit dem Ergebnis ist keine ausreichende Bedingung für eine Verwechslung und kann zu einer Fehlspezifikation von Kausalmodellen durch Kontrolle von Mediatoren führen: Dies führt zu Irrtümern wie "Raucherentwöhnung verringert das Risiko für Herz-Kreislauf-Erkrankungen nach Kontrolle von koronarem arteriellem Kalzium (CAC) nicht". CAC ist der primäre Weg, wie Rauchen Herzkrankheiten hervorruft. Siehe Causality by Pearl, 2. Aufl., Kapitel 3, Abschnitt 3.
AdamO,
Fühlen Sie sich frei zu bearbeiten. Ich glaubte nicht, dass er nach einer solchen Tiefe in der Antwort suchte, entschuldigt, wenn meine Kürze zu groben Ungenauigkeiten führte.
Double
11

Normalerweise schließen Sie Variablen für die lineare Regression aufgrund ihrer Bedeutung nicht ein oder aus. Sie schließen sie ein, weil Sie davon ausgehen, dass die ausgewählten Variablen (gute) Prädiktoren für die Regressionskriterien sind. Mit anderen Worten basiert die Prädiktorauswahl auf der Theorie.

Statistische Bedeutungslosigkeit bei der linearen Regression kann zwei Dinge bedeuten (von denen ich weiß):

  1. Die unbedeutenden Prädiktoren sind nicht mit den Kriterien verknüpft. Schließen Sie sie aus, aber denken Sie daran, dass die Bedeutungslosigkeit nicht beweist, dass sie nicht zusammenhängen. Überprüfen Sie Ihre Theorie.
  2. Die Prädiktoren sind unbedeutend, da sie als Funktion anderer Prädiktoren ausgedrückt werden können. Die Menge der Prädiktoren heißt dann multikollinear. Dies macht die Prädiktoren in keiner Weise "schlecht", sondern überflüssig.

Ein gültiger Grund zum Ausschließen unbedeutender Prädiktoren besteht darin, dass Sie nach der kleinsten Teilmenge von Prädiktoren suchen, die die Kriterienvarianz oder den größten Teil davon erklären. Wenn Sie es gefunden haben, überprüfen Sie Ihre Theorie.

Wolfgang
quelle
[P] Rediktoren der Regressionskriterien ? Vielleicht möchten Sie dies umformulieren.
Richard Hardy
8

In der Ökonometrie geschieht dies links und rechts. Wenn Sie beispielsweise die vierteljährlichen Saisonalitäts-Dummys Q2, Q3 und Q4 verwenden, kommt es häufig vor, dass sie als Gruppe von Bedeutung sind, aber einige von ihnen sind für sich genommen nicht von Bedeutung. In diesem Fall behalten Sie normalerweise alle.

yxzzxz

UPDATE: Ein weiteres häufiges Beispiel ist die Prognose. Ökonometrie wird in der Regel aus der Inferenzperspektive in den Wirtschaftsabteilungen gelehrt. In der Inferenzperspektive wird viel Wert auf p-Werte und Signifikanz gelegt, weil Sie versuchen zu verstehen, was was verursacht und so weiter. Bei der Prognose wird nicht viel Wert darauf gelegt, da es Ihnen nur darum geht, wie gut das Modell die interessierende Variable prognostizieren kann.

Dies ist vergleichbar mit Anwendungen für maschinelles Lernen, die in letzter Zeit den Weg in die Wirtschaft gefunden haben. Sie können ein Modell mit allen signifikanten Variablen haben, die nicht gut prognostiziert werden. In der ML wird es oft mit der sogenannten "Überanpassung" in Verbindung gebracht. Offensichtlich wird ein solches Modell für Prognosen nur sehr wenig verwendet.

Aksakal
quelle
1
Dies scheint an einigen Stellen etwas übertrieben zu sein. Zum Beispiel ist selbst für mich als Nicht-Ökonom aus Lehrbüchern ersichtlich, dass Prognosen den Ökonomen seit mindestens einigen Jahrzehnten weitgehend beigebracht werden. Ob es eine "kürzliche" (was genau bedeutet?) Zunahme gegeben hat, ist ein subtilerer Punkt, den ich Insidern überlasse.
Nick Cox
@ NickCox, stimmte zu, es klang, als ob es überhaupt keine Prognosen in den Lehrplänen gäbe, was nicht wahr ist.
Aksakal
7

Sie stellen zwei verschiedene Fragen:

  1. Wann spielt statistische Signifikanz keine Rolle?
  2. Wann sollten wir eine Variable in eine Regression einbeziehen, obwohl sie statistisch nicht signifikant ist?

Bearbeiten: Dies galt für den ursprünglichen Beitrag, ist jedoch nach den Änderungen möglicherweise nicht mehr gültig.


In Bezug auf Q1 denke ich, dass es an der Grenze zu weit ist. Es gibt viele mögliche Antworten, von denen einige bereits bereitgestellt wurden. Ein weiteres Beispiel ist die Erstellung von Vorhersagemodellen (eine Erklärung finden Sie in der unten angegebenen Quelle).


In Bezug auf Q2 ist die statistische Signifikanz kein solides Kriterium für die Modellbildung. Rob J. Hyndman schreibt in seinem Blog-Beitrag "Statistische Tests zur Variablenauswahl" Folgendes :

Die statistische Signifikanz ist normalerweise keine gute Grundlage für die Bestimmung, ob eine Variable in ein Modell aufgenommen werden soll, obwohl viele Personen, die es besser wissen sollten, sie genau zu diesem Zweck verwenden. <...> Mit statistischen Tests sollten Hypothesen überprüft und keine Variablen ausgewählt werden.

Beachten Sie auch, dass Sie häufig einige Variablen finden, die rein zufällig statistisch signifikant sind (die Wahrscheinlichkeit wird durch Ihre Wahl des Signifikanzniveaus gesteuert). Die Beobachtung, dass eine Variable statistisch signifikant ist, reicht nicht aus, um zu schließen, dass die Variable in das Modell gehört.

Richard Hardy
quelle
4

Ich werde ein weiteres "Ja" hinzufügen. Mir wurde immer beigebracht - und ich habe versucht, es weiterzugeben -, dass die wichtigste Überlegung bei der Wahl der Kovariate das Domänenwissen und nicht die Statistik ist. Wenn ich zum Beispiel in der Biostatistik ein gesundheitliches Ergebnis an Einzelpersonen modelliere, dann brauche ich , egal was die Regression sagt, einige verdammt gute Argumente, um Alter, Rasse und Geschlecht nicht in das Modell aufzunehmen.

Dies hängt auch vom Verwendungszweck Ihres Modells ab. Wenn der Zweck darin besteht, ein besseres Verständnis für die Faktoren zu erlangen, die mit Ihrem Ergebnis am meisten zusammenhängen, hat das Erstellen eines sparsamen Modells einige Vorteile. Wenn Sie sich für Vorhersage und weniger für Verständnis interessieren, kann die Beseitigung von Kovariaten ein geringeres Problem darstellen.

(Wenn Sie Statistiken für die Variablenauswahl verwenden möchten, lesen Sie abschließend, was Frank Harrell zu diesem Thema zu sagen hat. Http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ und sein Buch Regression Modellierung Strategien . kurz gesagt, durch die Zeit , die Sie verwenden schrittweise haben oder ähnliche statistisch fundierte Strategien für die besten Prädiktoren auswählen und dann auf allen Tests „? sind diese guten Prädiktoren“ sind schrecklich voreingenommen - der natürlich sie‘ Da Sie gute Prädiktoren ausgewählt haben, sind die p-Werte für diese Prädiktoren fälschlicherweise niedrig.)

eac2222
quelle
1
R2
4

Das einzige, was das Ergebnis der "statistischen Bedeutungslosigkeit" wirklich besagt, ist, dass wir auf der ausgewählten Stufe des Fehlers vom Typ I nicht einmal sagen können, ob die Auswirkung des Regressors auf die abhängige Variable positiv oder negativ ist (siehe diesen Beitrag).

Wenn wir diesen Regressor beibehalten, verfügt jede Diskussion über seine eigene Auswirkung auf die abhängige Variable nicht über statistische Beweise, um sie zu sichern.

Dieser Schätzfehler besagt jedoch nicht, dass der Regressor nicht zur strukturellen Beziehung gehört, sondern nur, dass wir mit dem spezifischen Datensatz das Vorzeichen seines Koeffizienten nicht mit einiger Sicherheit bestimmen konnten.

Wenn es also theoretische Argumente gibt, die seine Anwesenheit stützen, sollte der Regressor im Prinzip beibehalten werden.

Andere Antworten hier lieferten spezifische Modelle / Situationen, für die solche Regressoren in der Spezifikation enthalten sind, beispielsweise die Antwort, in der das Datenmodell des Festeffekt-Panels erwähnt wird.

Alecos Papadopoulos
quelle
Warum "Konfidenzniveau" in eine Diskussion von Bedeutung ziehen? Ich lese häufig Monstrositäten in schlechten Texten und Papieren wie "signifikant bei einem Konfidenzniveau von 99%". Es gibt sicherlich eine Beziehung zwischen den Ideen, aber Sie brauchen diese Formulierung nicht (was auf elementarer Ebene so verwirrend ist, wie es erklärt).
Nick Cox
@ Nick Cox Du hast einen Punkt. Ich habe es in "Typ I Fehler" geändert.
Alecos Papadopoulos
1

Sie können eine Variable von besonderem Interesse einbeziehen, wenn sie im Mittelpunkt der Forschung steht, auch wenn sie statistisch nicht signifikant ist. In der Biostatistik unterscheidet sich die klinische Signifikanz häufig von der statistischen Signifikanz.

Scott Jackson
quelle