Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests?

70

Warum ist es bei einer multiplen linearen Regression möglich, eine hochsignifikante F-Statistik (p <0,001) zu erhalten, die jedoch bei allen t-Tests des Regressors sehr hohe p-Werte aufweist?

In meinem Modell gibt es 10 Regressoren. Einer hat einen p-Wert von 0,1 und der Rest liegt über 0,9

Informationen zur Behebung dieses Problems finden Sie in der Folgefrage .

hypothesis-testing regression t-test multicollinearity Ηλίας
quelle

2

Ist die Konstante auch unbedeutend? Wie viele Fälle sind betroffen? Wie viele Variablen?

Whuber

Wie wurde Multikollinearität diagnostiziert? Es gibt viele Methoden, einige sind informativer als andere. Je mehr Sie uns mitteilen, desto besser kann die Community antworten.

StasK

3

Diese Frage wurde zu einer FAQ. Einige der Antworten hier wurden aus im Wesentlichen ähnlichen Threads zusammengeführt.

Whuber

3

Siehe auch hier: Wie kann eine Regression signifikant sein, obwohl alle Prädiktoren nicht signifikant sind? Für eine Diskussion des umgekehrten Falls siehe hier: signifikanter t-Test vs. nicht signifikante F-Statistik .

gung - Wiedereinsetzung von Monica

Ich hatte das gleiche Problem und keine der obigen Antworten könnte mir helfen. Jetzt kenne ich die Antwort (zumindest auf mein Problem): Der F-Wert von Modell 2 kann signifikant sein, da Sie dieselbe 'Konstante' (Variable) wie in Modell 1 haben (welcher F-Wert ebenfalls signifikant ist). Sie müssen sich die Tabelle mit der Bezeichnung "Modellzusammenfassung" in der Spalte "Sig." Ansehen. F Ändern ', um festzustellen, ob die Änderung im Quadrat R signifikant ist (für Modell 2). Wenn dieser signifikant ist, sollten auch die b-Werte signifikant sein. Sie können den F-Wert völlig ignorieren.

53

Wie Rob erwähnt, tritt dies auf, wenn Sie stark korrelierte Variablen haben. Das Standardbeispiel, das ich verwende, ist das Vorhersagen des Gewichts anhand der Schuhgröße. Sie können das Gewicht mit der rechten oder linken Schuhgröße gleich gut vorhersagen. Aber zusammen klappt es nicht.

Kurzes Simulationsbeispiel

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

csgillespie
quelle

9

Es ist interessant und wichtig zu wissen, dass beide Modelle in diesem Fall gleich gut prognostizieren. Hohe Korrelationen zwischen Prädiktoren sind nicht unbedingt ein Problem für die Vorhersage. Multicolinearität ist nur dann ein Problem, wenn 1) Analysten versuchen, mehrere Regressionskoeffizienten falsch zu interpretieren; 2) das Modell ist nicht abschätzbar; und 3) SEs sind aufgeblasen und Koeffizienten sind instabil.

Brett

Ich verstehe, dass die beiden Variablen in hohem Maße miteinander korrelieren, sodass das Ergebnis des t-Tests nicht signifikant ist, während das Ergebnis des F-Tests signifikant ist. Aber wie kommt es dazu? Ich meine, was ist der Grund für diese Tatsache?

yue86231

105

Es ist nur eine sehr geringe Korrelation zwischen den unabhängigen Variablen erforderlich, um dies zu bewirken.

Versuchen Sie Folgendes, um zu sehen, warum:

Zeichnen Sie 50 Sätze von zehn Vektoren mit Koeffizienten iid normaler Norm. $(x_1, x_2, \ldots, x_{10})$
Berechnen Sie für . Dies macht das individuell normal, aber mit einigen Korrelationen zwischen ihnen. $y_i = (x_i + x_{i+1})/\sqrt{2}$ $i = 1, 2, \ldots, 9$ $y_i$
Berechne . Beachten Sie, dass . $w = x_1 + x_2 + \cdots + x_{10}$ $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$
Fügen Sie einen unabhängigen normalverteilten Fehler hinzu . Mit ein wenig Experiment fand ich, dass mit ziemlich gut funktioniert. Somit ist die Summe aus und einem gewissen Fehler. Es ist auch die Summe von einigen der plus dem gleichen Fehler. $w$ $z = w + \varepsilon$ $\varepsilon \sim N(0, 6)$ $z$ $x_i$ $y_i$

Wir betrachten das als die unabhängigen Variablen und die abhängige Variable. $y_i$ $z$

Hier ist eine Streudiagramm-Matrix eines solchen Datensatzes, wobei oben und links und das in der angegebenen Reihenfolge . $z$ $y_i$

Streudiagramm-Matrix

Die erwarteten Korrelationen zwischen und sind wenn andernfalls und . Die realisierten Korrelationen reichen bis zu 62%. Sie erscheinen als engere Streudiagramme neben der Diagonale. $y_i$ $y_j$ $1/2$ $|i-j|=1$ $0$

Schauen Sie sich die Regression von gegen das : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

Die F-Statistik ist hochsignifikant, aber keine der unabhängigen Variablen ist selbst ohne Anpassung für alle 9 von ihnen signifikant .

Um zu sehen, was los ist, betrachten Sie die Regression von gegen nur das ungeradzahlige : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Einige dieser Variablen sind selbst bei einer Bonferroni-Anpassung von großer Bedeutung. (Wenn man sich diese Ergebnisse ansieht, kann man noch viel mehr sagen, aber das würde uns vom Hauptpunkt abbringen.)

Die Intuition dahinter ist, dass erster Linie von einer Teilmenge der Variablen abhängt (aber nicht unbedingt von einer eindeutigen Teilmenge). Das Komplement dieser Untergruppe ( ) fügt im Wesentlichen keine Informationen über da Korrelationen - wie gering sie auch sein - mit der Untergruppe selbst bestehen. $z$ $y_2, y_4, y_6, y_8$ $z$

Diese Art von Situation wird in der Zeitreihenanalyse auftreten . Wir können die Indizes als Zeiten betrachten. Die Konstruktion des hat, ähnlich wie bei vielen Zeitreihen, eine Korrelation über kurze Entfernungen zwischen ihnen hervorgerufen. Aus diesem Grund verlieren wir wenig Informationen, wenn wir die Serien in regelmäßigen Abständen unterabtasten. $y_i$

Eine Schlussfolgerung, die wir daraus ziehen können, ist, dass zu viele Variablen in einem Modell die wirklich signifikanten maskieren können. Das erste Anzeichen dafür ist die hochsignifikante Gesamt-F-Statistik, begleitet von nicht so signifikanten t-Tests für die einzelnen Koeffizienten. (Auch wenn einige der Variablen individuell signifikant sind, bedeutet dies nicht automatisch, dass andere nicht signifikant sind. Dies ist einer der Hauptfehler der schrittweisen Regressionsstrategien: Sie fallen diesem Maskierungsproblem zum Opfer.) Übrigens, die Varianzinflationsfaktorenim ersten Regressionsbereich von 2,55 bis 6,09 mit einem Mittelwert von 4,79: kurz vor der Diagnose einer Multikollinearität nach den konservativsten Faustregeln; deutlich unter der Schwelle nach anderen Regeln (wobei 10 eine obere Grenze ist).

whuber
quelle

5

Gute Antwort. Ein Plus von 1 von mir. Ich hätte es gerne mehr gegeben.

Michael Chernick

41

Multikollinearität

Wie Sie bemerken, und wie in dieser vorherigen Frage erörtert wurde , ist ein hohes Maß an Multikollinearität eine Hauptursache für einen statistisch signifikanten Wert, jedoch für statisch nicht signifikante Prädiktoren. $R^2$
Natürlich ist Multikollinearität nicht nur eine absolute Schwelle. Standardfehler bei Regressionskoeffizienten nehmen zu, wenn die Interkorrelationen mit dem fokalen Prädiktor zunehmen.

Mehrere fast signifikante Prädiktoren

Selbst wenn Sie keine Multikollinearität hatten, können Sie immer noch nicht signifikante Prädiktoren und ein übergeordnetes signifikantes Modell erhalten, wenn zwei oder mehr einzelne Prädiktoren nahe beieinander liegen und somit zusammen die Schwelle der statistischen Signifikanz überschreiten. Wenn Sie zum Beispiel ein Alpha von .05 verwenden und zwei Prädiktoren mit p-Werten von .06 und .07 hätten, wäre ich nicht überrascht, wenn das Gesamtmodell ein p <.05 hätte.

Jeromy Anglim
quelle

Schöne prägnante Antwort. Um dies hinzuzufügen, würde ich vorschlagen, die Daten zu stören (oder einen Prädiktor zu entfernen) und zu prüfen, ob sich die Koeffizienten der Regression merklich ändern. Achten Sie beispielsweise auf Vorzeichenänderungen.

Mustafa S. Eisa

38

Dies geschieht, wenn die Prädiktoren stark korreliert sind. Stellen Sie sich eine Situation vor, in der es nur zwei Prädiktoren mit sehr hoher Korrelation gibt. Individuell korrelieren beide auch eng mit der Antwortvariablen. Folglich hat der F-Test einen niedrigen p-Wert (es heißt, dass die Prädiktoren zusammen für die Erklärung der Variation der Antwortvariablen von großer Bedeutung sind). Der t-Test für jeden Prädiktor hat jedoch einen hohen p-Wert, da nach Berücksichtigung des Effekts des anderen Prädiktors nicht mehr viel zu erklären ist.

Rob Hyndman
quelle

Hallo Rob, tut mir leid, dass ich dich gestört habe. Ich habe Ihre Antwort durchgelesen (weil ich gerade mit der Fragensituation konfrontiert bin), kann aber nicht verstehen, was Sie damit meinen, dass "nach Berücksichtigung der Wirkung des anderen Prädiktors nicht mehr viel zu erklären ist". Darf ich Sie bitten, mir das zu erklären? Danke vielmals.

yue86231

1

@ yue86231 Das bedeutet, dass wir zwar einen p-Wert für jeden Prädiktor haben, aber nicht jeden p-Wert einzeln interpretieren können. Jeder Prädiktor-t-Test kann die Signifikanz einer Variablen nur nach Berücksichtigung der durch alle anderen Variablen erklärten Varianz anzeigen. Die linearen Regressionskoeffizienten und der Standardfehler werden sozusagen zur gleichen Zeit erzeugt, und die beiden Prädiktoren verringern gegenseitig ihre Signifikanz.

Robert Kubrick

11

Betrachten Sie das folgende Modell: , , , , und sind alle voneinander unabhängige . $X_1 \sim N(0,1)$ $X_2 = a X_1 + \delta$ $Y = bX_1 + cX_2 + \epsilon$ $\delta$ $\epsilon$ $X_1$ $N(0,1)$

Dann ist

C o v (X_{2}, Y) = E [(a X_{1} + δ) (b X_{1} + c X_{2} + ϵ)] = E [(a X_{1} + δ) ({b + a c} X_{1} + c δ + ϵ)] = a (b + a c) + c

${\rm Cov}(X_2,Y) = {\rm E}[(aX_1+\delta)(bX_1+cX_2+\epsilon)]={\rm E}[(aX_1+\delta)(\{b+ac\}X_1+c\delta+\epsilon)]=a(b+ac)+c$

Wir können dies mit , und auf Null setzen . Alle Beziehungen werden jedoch offensichtlich vorhanden sein und mit der Regressionsanalyse leicht erkennbar sein. $a=1$ $b=2$ $c=-1$

Sie sagten, dass Sie das Problem der Korrelation von Variablen und der unbedeutenden Regression besser verstehen. Dies bedeutet wahrscheinlich, dass Sie durch häufiges Erwähnen von Multikollinearität konditioniert wurden, aber Sie müssten Ihr Verständnis der Geometrie der kleinsten Quadrate verbessern.

StasK
quelle

10

Ein zu suchendes Schlüsselwort wäre "Kollinearität" oder "Multikollinearität". Dies kann mit Hilfe Diagnostik wie nachgewiesen wird Variance Inflation Faktoren (VIFs) oder Verfahren , wie sie inder Lehrbuch „Regression Diagnostics: Identifizierung einflussreiche Daten und Quellen von Kollinearität“ von Belsley, Kuh und Welsch. VIFs sind viel einfacher zu verstehen, können jedoch nicht mit Kollinearität in Verbindung mit dem Achsenabschnitt (dh Prädiktoren, die für sich oder in linearer Kombination nahezu konstant sind) umgehen der abschnitt.

S. Kolassa - Setzen Sie Monica wieder ein
quelle

9

Die Antwort, die Sie erhalten, hängt von der Frage ab, die Sie stellen. Zusätzlich zu den bereits gemachten Punkten beantworten die einzelnen Parameter-F-Werte und die Gesamtmodell-F-Werte unterschiedliche Fragen, sodass sie unterschiedliche Antworten erhalten. Ich habe gesehen, dass dies auch dann passiert, wenn die einzelnen F-Werte nicht annähernd signifikant sind, insbesondere wenn das Modell mehr als 2 oder 3 IVs aufweist. Ich kenne keine Möglichkeit, die einzelnen p-Werte zu kombinieren und etwas Sinnvolles zu erreichen, auch wenn es einen Weg geben könnte.

Peter Flom
quelle

2

(-1) Ja - das Originalplakat weist darauf hin, dass er / sie es ebenfalls gesehen hat. Die Frage war, was genau sind einige Dinge, die dies anders als Kollinearität verursachen können, und ich verstehe nicht, wie dies eine Antwort ist.

Makro

4

@Macro Die Ablehnung scheint etwas hart zu sein, da diese Antwort eine nützliche und gültige Beobachtung enthält: Die Tests für die Gesamtsignifikanz und für die individuelle variable Signifikanz "beantworten unterschiedliche Fragen". Zugegeben, das ist qualitativ, aber nicht mehr als die erste Antwort mit vielen positiven Stimmen. und zu dieser Antwort fügt es eine gültige Intuition hinzu, die es wohl zu einer Verbesserung gegenüber dieser Antwort macht.

Whuber

1

Ich habe nie gesagt, dass diese Antwort keine gültigen Informationen oder Anschauungen enthält. Wenn ich eine gute Antwort auf diese Frage hätte, hätte ich sie bereits beantwortet - es ist eine schwierige Frage - ich habe nur gesagt, dass diese Antwort die Frage nicht im wahrsten Sinne des Wortes zu beantworten scheint.

Makro

9

Eine andere zu beachtende Sache ist, dass die Tests der einzelnen Koeffizienten jeweils davon ausgehen, dass sich alle anderen Prädiktoren im Modell befinden. Mit anderen Worten, jeder Prädiktor ist nicht signifikant, solange sich alle anderen Prädiktoren im Modell befinden. Zwischen zwei oder mehr Ihrer Prädiktoren muss eine gewisse Interaktion oder Interdependenz bestehen.

Wie haben Sie, wie jemand anderes oben gefragt hat, einen Mangel an Multikollinearität diagnostiziert?

Dave Kincaid
quelle

4

Ein Weg, dies zu verstehen, ist die Geometrie der kleinsten Quadrate, wie @StasK vorschlägt.

Eine andere Möglichkeit ist, zu erkennen, dass X mit Y in Beziehung steht, wenn die anderen Variablen gesteuert werden, jedoch nicht allein. Sie sagen, X bezieht sich auf die eindeutige Varianz in Y. Das ist richtig. Die eindeutige Varianz in Y unterscheidet sich jedoch von der Gesamtvarianz. Welche Varianz entfernen die anderen Variablen?

Es wäre hilfreich, wenn Sie uns Ihre Variablen mitteilen könnten.

Peter Flom
quelle

Warum ist es möglich, signifikante F-Statistiken (p <0,001) zu erhalten, aber nicht signifikante Regressor-t-Tests?

Antworten:

Multikollinearität

Mehrere fast signifikante Prädiktoren