In meiner Klasse für lineare Modelle habe ich gelernt, dass wenn zwei Prädiktoren korreliert sind und beide in einem Modell enthalten sind, einer unbedeutend ist. Nehmen Sie zum Beispiel an, dass die Größe eines Hauses und die Anzahl der Schlafzimmer miteinander korreliert sind. Wenn Sie die Kosten eines Hauses mit diesen beiden Prädiktoren vorhersagen, kann einer von ihnen fallengelassen werden, da beide die gleichen Informationen liefern. Das ist intuitiv sinnvoll, aber ich habe noch einige technische Fragen:
- Wie äußert sich dieser Effekt in p-Werten der Regressionskoeffizienten, wenn nur einer oder beide Prädiktoren in das Modell einbezogen werden?
- Wie wird die Varianz der Regressionskoeffizienten beeinflusst, wenn beide Prädiktoren in das Modell einbezogen werden oder nur einer vorhanden ist?
- Woher weiß ich, welchen Prädiktor das Modell als weniger signifikant auswählt?
- Wie ändert die Einbeziehung nur eines oder beider Prädiktoren den Wert / die Varianz meiner prognostizierten Kosten?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
quelle
quelle
Antworten:
Das Thema, nach dem Sie fragen, ist Multikollinearität . Möglicherweise möchten Sie einige der Themen im Lebenslauf lesen, die unter dem Tag multicollinearity kategorisiert sind . @whubers Antwort im Besonderen ist auch Ihre Zeit wert.
Die Behauptung, dass "wenn zwei Prädiktoren korrelieren und beide in einem Modell enthalten sind, wird einer unwichtig sein", ist nicht korrekt. Wenn es einen realen Effekt einer Variablen gibt, ist die Wahrscheinlichkeit, dass die Variable signifikant ist, eine Funktion verschiedener Dinge, wie beispielsweise der Stärke des Effekts, der Stärke der Fehlervarianz, der Varianz der Variablen selbst und der Datenmenge Sie haben und die Anzahl der anderen Variablen im Modell. Ob die Variablen korreliert sind, ist ebenfalls relevant, setzt diese Fakten jedoch nicht außer Kraft. Betrachten Sie die folgende einfache Demonstration in
R
:Zu überlegen, was passieren würde, wenn Sie beide korrelierten Variablen und nur eine einbeziehen, ist ähnlich, aber etwas komplizierter als der oben beschriebene Ansatz. Dies liegt daran, dass das Modell ohne Variable weniger Freiheitsgrade verwendet, wodurch die Restvarianz und alles, was daraus berechnet wird (einschließlich der Varianz der Regressionskoeffizienten), geändert wird. Wenn die nicht eingeschlossene Variable tatsächlich mit der Antwort verknüpft ist, wird die Varianz in der Antwort aufgrund dieser Variablen in die Restvarianz einbezogen, wodurch sie größer wird, als dies sonst der Fall wäre. Somit ändern sich mehrere Dinge gleichzeitig (die Variable ist mit einer anderen Variablen korreliert oder nicht, und die Restvarianz), und die genaue Auswirkung des Ablegens / Einschließens der anderen Variablen hängt davon ab, wie diese abgewickelt werden.
Hier finden Sie Antworten auf Ihre Fragen, die mit dem Verständnis des VIF ausgestattet sind:
quelle
Dies ist eher ein Kommentar, aber ich wollte ein Diagramm und etwas Code einfügen.
Ich denke, die Aussage "wenn zwei Prädiktoren korrelieren und beide in einem Modell enthalten sind, wird einer unwichtig sein" ist falsch, wenn Sie "nur einen" meinen. Die binäre statistische Signifikanz kann nicht für die Variablenauswahl verwendet werden.
Hier ist mein Gegenbeispiel mit einer Regression des Körperfettanteils am Oberschenkelumfang, der Hautfalzendicke * und des Mittelarmumfangs:
Wie Sie der Regressionstabelle entnehmen können, ist alles unbedeutend, obwohl die p-Werte ein wenig variieren.
Woher wissen wir also, welche Prädiktoren weniger wichtig sind? Die Variation in einem Regressor kann in zwei Typen eingeteilt werden:
* Die Hautfalte ist die Breite einer Hautfalte, die über dem Trizepsmuskel abgenommen und mit einem Messschieber gemessen wird.
quelle
Wie @whuber bemerkte, ist dies eine komplexe Frage. Der erste Satz Ihres Beitrags ist jedoch eine enorme Vereinfachung. Es ist häufig der Fall, dass zwei (oder mehr) Variablen korreliert werden und beide mit der abhängigen Variablen zusammenhängen. Ob sie signifikant sind oder nicht, hängt sowohl von der Effektgröße als auch von der Zellgröße ab.
Nehmen Sie in Ihrem Beispiel an, dass für eine bestimmte Hausgröße weniger Räume bevorzugt werden (zumindest in NYC ist dies nicht unangemessen - es würde auf ältere Gebäude, festere Mauern usw. hinweisen und könnte ein Marker für die Nachbarschaft sein). Dann könnten beide in entgegengesetzte Richtungen von Bedeutung sein!
Angenommen, die beiden Variablen waren Hausgröße und Wohngegend - dies wären sicherlich größere Häuser in besseren Wohngegenden -, aber sie könnten dennoch beide signifikant sein und würden sicherlich beide mit dem Immobilienpreis in Beziehung stehen.
Außerdem werden nur "korrelierte" Maskenkomplexitäten verwendet. Variablen können stark miteinander verknüpft werden, ohne dass sie miteinander korrelieren.
quelle