Warum ist es bei einer multiplen linearen Regression möglich, eine hochsignifikante F-Statistik (p <0,001) zu erhalten, die jedoch bei allen t-Tests des Regressors sehr hohe p-Werte aufweist?
In meinem Modell gibt es 10 Regressoren. Einer hat einen p-Wert von 0,1 und der Rest liegt über 0,9
Informationen zur Behebung dieses Problems finden Sie in der Folgefrage .
Antworten:
Wie Rob erwähnt, tritt dies auf, wenn Sie stark korrelierte Variablen haben. Das Standardbeispiel, das ich verwende, ist das Vorhersagen des Gewichts anhand der Schuhgröße. Sie können das Gewicht mit der rechten oder linken Schuhgröße gleich gut vorhersagen. Aber zusammen klappt es nicht.
Kurzes Simulationsbeispiel
quelle
Es ist nur eine sehr geringe Korrelation zwischen den unabhängigen Variablen erforderlich, um dies zu bewirken.
Versuchen Sie Folgendes, um zu sehen, warum:
Zeichnen Sie 50 Sätze von zehn Vektoren mit Koeffizienten iid normaler Norm.(x1,x2,…,x10)
Berechnen Sie für . Dies macht das individuell normal, aber mit einigen Korrelationen zwischen ihnen.yi=(xi+xi+1)/2–√ i=1,2,…,9 yi
Berechne . Beachten Sie, dass .w=x1+x2+⋯+x10 w=2–√(y1+y3+y5+y7+y9)
Fügen Sie einen unabhängigen normalverteilten Fehler hinzu . Mit ein wenig Experiment fand ich, dass mit ziemlich gut funktioniert. Somit ist die Summe aus und einem gewissen Fehler. Es ist auch die Summe von einigen der plus dem gleichen Fehler.w z=w+ε ε∼N(0,6) z xi yi
Wir betrachten das als die unabhängigen Variablen und die abhängige Variable.yi z
Hier ist eine Streudiagramm-Matrix eines solchen Datensatzes, wobei oben und links und das in der angegebenen Reihenfolge .z yi
Die erwarteten Korrelationen zwischen und sind wenn andernfalls und . Die realisierten Korrelationen reichen bis zu 62%. Sie erscheinen als engere Streudiagramme neben der Diagonale.yi yj 1/2 |i−j|=1 0
Schauen Sie sich die Regression von gegen das :z yi
Die F-Statistik ist hochsignifikant, aber keine der unabhängigen Variablen ist selbst ohne Anpassung für alle 9 von ihnen signifikant .
Um zu sehen, was los ist, betrachten Sie die Regression von gegen nur das ungeradzahlige :z yi
Einige dieser Variablen sind selbst bei einer Bonferroni-Anpassung von großer Bedeutung. (Wenn man sich diese Ergebnisse ansieht, kann man noch viel mehr sagen, aber das würde uns vom Hauptpunkt abbringen.)
Die Intuition dahinter ist, dass erster Linie von einer Teilmenge der Variablen abhängt (aber nicht unbedingt von einer eindeutigen Teilmenge). Das Komplement dieser Untergruppe ( ) fügt im Wesentlichen keine Informationen über da Korrelationen - wie gering sie auch sein - mit der Untergruppe selbst bestehen.z y2,y4,y6,y8 z
Diese Art von Situation wird in der Zeitreihenanalyse auftreten . Wir können die Indizes als Zeiten betrachten. Die Konstruktion des hat, ähnlich wie bei vielen Zeitreihen, eine Korrelation über kurze Entfernungen zwischen ihnen hervorgerufen. Aus diesem Grund verlieren wir wenig Informationen, wenn wir die Serien in regelmäßigen Abständen unterabtasten.yi
Eine Schlussfolgerung, die wir daraus ziehen können, ist, dass zu viele Variablen in einem Modell die wirklich signifikanten maskieren können. Das erste Anzeichen dafür ist die hochsignifikante Gesamt-F-Statistik, begleitet von nicht so signifikanten t-Tests für die einzelnen Koeffizienten. (Auch wenn einige der Variablen individuell signifikant sind, bedeutet dies nicht automatisch, dass andere nicht signifikant sind. Dies ist einer der Hauptfehler der schrittweisen Regressionsstrategien: Sie fallen diesem Maskierungsproblem zum Opfer.) Übrigens, die Varianzinflationsfaktorenim ersten Regressionsbereich von 2,55 bis 6,09 mit einem Mittelwert von 4,79: kurz vor der Diagnose einer Multikollinearität nach den konservativsten Faustregeln; deutlich unter der Schwelle nach anderen Regeln (wobei 10 eine obere Grenze ist).
quelle
Multikollinearität
Mehrere fast signifikante Prädiktoren
quelle
Dies geschieht, wenn die Prädiktoren stark korreliert sind. Stellen Sie sich eine Situation vor, in der es nur zwei Prädiktoren mit sehr hoher Korrelation gibt. Individuell korrelieren beide auch eng mit der Antwortvariablen. Folglich hat der F-Test einen niedrigen p-Wert (es heißt, dass die Prädiktoren zusammen für die Erklärung der Variation der Antwortvariablen von großer Bedeutung sind). Der t-Test für jeden Prädiktor hat jedoch einen hohen p-Wert, da nach Berücksichtigung des Effekts des anderen Prädiktors nicht mehr viel zu erklären ist.
quelle
Betrachten Sie das folgende Modell: , , , , und sind alle voneinander unabhängige .X1∼N(0,1) X2=aX1+δ Y=bX1+cX2+ϵ δ ϵ X1 N(0,1)
Dann ist
Wir können dies mit , und auf Null setzen . Alle Beziehungen werden jedoch offensichtlich vorhanden sein und mit der Regressionsanalyse leicht erkennbar sein.a=1 b=2 c=−1
Sie sagten, dass Sie das Problem der Korrelation von Variablen und der unbedeutenden Regression besser verstehen. Dies bedeutet wahrscheinlich, dass Sie durch häufiges Erwähnen von Multikollinearität konditioniert wurden, aber Sie müssten Ihr Verständnis der Geometrie der kleinsten Quadrate verbessern.
quelle
Ein zu suchendes Schlüsselwort wäre "Kollinearität" oder "Multikollinearität". Dies kann mit Hilfe Diagnostik wie nachgewiesen wird Variance Inflation Faktoren (VIFs) oder Verfahren , wie sie inder Lehrbuch „Regression Diagnostics: Identifizierung einflussreiche Daten und Quellen von Kollinearität“ von Belsley, Kuh und Welsch. VIFs sind viel einfacher zu verstehen, können jedoch nicht mit Kollinearität in Verbindung mit dem Achsenabschnitt (dh Prädiktoren, die für sich oder in linearer Kombination nahezu konstant sind) umgehen der abschnitt.
quelle
Die Antwort, die Sie erhalten, hängt von der Frage ab, die Sie stellen. Zusätzlich zu den bereits gemachten Punkten beantworten die einzelnen Parameter-F-Werte und die Gesamtmodell-F-Werte unterschiedliche Fragen, sodass sie unterschiedliche Antworten erhalten. Ich habe gesehen, dass dies auch dann passiert, wenn die einzelnen F-Werte nicht annähernd signifikant sind, insbesondere wenn das Modell mehr als 2 oder 3 IVs aufweist. Ich kenne keine Möglichkeit, die einzelnen p-Werte zu kombinieren und etwas Sinnvolles zu erreichen, auch wenn es einen Weg geben könnte.
quelle
Eine andere zu beachtende Sache ist, dass die Tests der einzelnen Koeffizienten jeweils davon ausgehen, dass sich alle anderen Prädiktoren im Modell befinden. Mit anderen Worten, jeder Prädiktor ist nicht signifikant, solange sich alle anderen Prädiktoren im Modell befinden. Zwischen zwei oder mehr Ihrer Prädiktoren muss eine gewisse Interaktion oder Interdependenz bestehen.
Wie haben Sie, wie jemand anderes oben gefragt hat, einen Mangel an Multikollinearität diagnostiziert?
quelle
Ein Weg, dies zu verstehen, ist die Geometrie der kleinsten Quadrate, wie @StasK vorschlägt.
Eine andere Möglichkeit ist, zu erkennen, dass X mit Y in Beziehung steht, wenn die anderen Variablen gesteuert werden, jedoch nicht allein. Sie sagen, X bezieht sich auf die eindeutige Varianz in Y. Das ist richtig. Die eindeutige Varianz in Y unterscheidet sich jedoch von der Gesamtvarianz. Welche Varianz entfernen die anderen Variablen?
Es wäre hilfreich, wenn Sie uns Ihre Variablen mitteilen könnten.
quelle