Angenommen, ich führe eine Regression durch, bei der meine abhängige Variable Mord ist und meine interessierende Variable der Zugang zu gewalttätigen Videospielen ist. Nehmen wir an, ich werfe auch das Spülbecken in Bezug auf meine Kontrollvariablen ein - ich habe 38 demografische Kontrollen, 30 kriminologische Kontrollen, die relevant sein können oder nicht, und so weiter. Einige dieser Steuerelemente können sogar unscharfe oder fehlerhafte Daten enthalten (Tippfehler, leere Zellen usw.). Was sind einige der negativen Folgen dieser schlampigen Regressionen?
Ein Student der Statistik sagte mir, dass diese Kontrollen keinen Einfluss auf den p-Wert zwischen der abhängigen Variablen und der interessierenden Variablen haben, selbst wenn die Koeffizienten auf den Kontrollen sinnlos sind. Aber wenn dies wahr wäre, warum werfen nicht alle Akademiker in ihrer Regression einfach das Spülbecken hinein? Ist es möglich, dass die p-Werte durch Hinzufügen von Junk-Steuerelementen kleiner werden?
quelle
Antworten:
Wir können die Formel für den Standardfehler eines Regressionskoeffizienten schreibenβ^j wie
wou^2 sind die Regressionsreste, n ist die Anzahl der Beobachtungen, k ist die Anzahl der Regressoren und R.2j ist der R2 aus einer Regression von xj auf alle anderen unabhängigen Variablen.
Wenn die zusätzlichen Variablen keine Auswirkung auf die abhängige Variable haben, ändern sich nur die Teile der Formelk und R2j Beides erhöht den Standardfehler und führt zu größeren p-Werten.
quelle