Ich habe wahrscheinlich eine einfache Frage, aber sie verblüfft mich gerade. Ich hoffe, dass Sie mir helfen können.
Ich habe ein Regressionsmodell der kleinsten Quadrate mit einer unabhängigen und einer abhängigen Variablen. Die Beziehung ist nicht signifikant. Jetzt füge ich eine zweite unabhängige Variable hinzu. Nun wird die Beziehung zwischen der ersten unabhängigen Variablen und der abhängigen Variablen signifikant.
Wie funktioniert das? Dies zeigt wahrscheinlich ein Problem mit meinem Verständnis, aber für mich, aber ich sehe nicht, wie das Hinzufügen dieser zweiten unabhängigen Variablen die erste signifikant machen kann.
Antworten:
Obwohl die Kollinearität (von Prädiktorvariablen) eine mögliche Erklärung ist, möchte ich vorschlagen, dass sie keine aufschlussreiche Erklärung ist, da wir wissen, dass die Kollinearität mit "allgemeinen Informationen" unter den Prädiktoren zusammenhängt, sodass an der Seite nichts Geheimnisvolles oder Gegenteiliges vorliegt Effekt der Einführung eines zweiten korrelierten Prädiktors in das Modell.
Betrachten wir dann den Fall zweier Prädiktoren, die wirklich orthogonal sind : Es gibt absolut keine Kollinearität zwischen ihnen. Eine bemerkenswerte Veränderung der Bedeutung kann immer noch passieren.
Bestimmen Sie die Prädiktorvariablen und X 2 und lassen Sie Y den Prädiktanden benennen. Die Regression von Y gegen X 1 wird nicht signifikant sein, wenn die Variation von Y um seinen Mittelwert nicht merklich verringert wird, wenn X 1 als unabhängige Variable verwendet wird. Wenn die Variation stark mit einer zweiten Variablen zugeordnet ist , X 2 , jedoch ändert sich die Situation. Denken Sie daran, dass die multiple Regression von Y gegen X 1 und X 2 äquivalent ist zuX1 X2 Y. Y. X1 Y. X1 X2 Y. X1 X2
Regressiere und X 1 getrennt gegen X 2 .Y. X1 X2
Regressiere die Residuen gegen die X 1- Residuen.Y. X1
Die Rückstände aus dem ersten Schritt haben den Effekt von beseitigt . Wenn X 2 eng mit Y korreliert ist , kann dies eine relativ geringe Variation aufdecken, die zuvor maskiert worden war. Wenn diese Variation mit X 1 assoziiert ist , erhalten wir ein signifikantes Ergebnis.X2 X2 Y. X1
All dies könnte vielleicht mit einem konkreten Beispiel verdeutlicht werden. Lassen Sie unsε
R
zunächst zwei orthogonale unabhängige Variablen zusammen mit einem unabhängigen Zufallsfehler generieren :(DerX1 X2
svd
Schritt stellt sicher, dass die beiden Spalten der Matrixx
(die und X 2 darstellen ) orthogonal sind, wodurch Kollinearität als mögliche Erklärung für nachfolgende Ergebnisse ausgeschlossen wird.)Als nächstes erstellen Sie als lineare Kombination aus X und Fehler. Ich habe die Koeffizienten angepasst, um das kontraintuitive Verhalten zu erzeugen:Y. X
Dies ist eine Realisierung des Modells mit n = 32 Fällen.Y.∼ich ich dN( 0,05 x1+ 1,00 X2, 0,012) n = 32
Schauen Sie sich die beiden fraglichen Regressionen an. Erste , zurückbilden gegen X 1 nur:Y. X1
Der hohe p-Wert von 0,710 zeigt, dass völlig nicht signifikant ist.X1
Als nächstes regressiere gegen X 1 und X 2 :Y. X1 X2
Plötzlich, in Gegenwart von , X 1 ist stark signifikant, wie durch die in der Nähe von Null verschiedenen p-Werten für beiden Variablen angegeben.X2 X1
Wir können dieses Verhalten anhand einer Streudiagramm-Matrix der Variablen , X 2 und Y zusammen mit den Residuen veranschaulichen, die bei der zweistufigen Charakterisierung der multiplen Regression oben verwendet wurden. Da X 1 und X 2 orthogonal sind, die X 1 wird Residuen gleich wie X 1 und braucht daher nicht neu gezeichnet werden. Wir werden die Residuen von Y gegen X 2 in die Streudiagramm-Matrix aufnehmen und die folgende Zahl erhalten:X1 X2 Y. X1 X2 X1 X1 Y. X2
Hier ist ein Rendering davon (mit einer kleinen Verschönerung):
Diese Grafikmatrix besteht aus vier Zeilen und vier Spalten, die ich von oben und von links nach rechts herunterzählen werde.
Beachten:
Das Streudiagramm in der zweiten Zeile und der ersten Spalte bestätigt die Orthogonalität dieser Prädiktoren: Die Linie der kleinsten Quadrate ist horizontal und die Korrelation ist null.( X1, X2)
Das Streudiagramm in der dritten Reihe und ersten Spalte zeigt die leichte, aber völlig unbedeutende Beziehung, die durch die erste Regression von Y gegen X 1 berichtet wird . (Der Korrelationskoeffizient ρ beträgt nur 0,07 ).( X1, Y) Y. X1 ρ 0,07
Das Streudiagramm in der dritten Zeile und zweiten Spalte zeigt die starke Beziehung zwischen Y und der zweiten unabhängigen Variablen. (Der Korrelationskoeffizient beträgt 0,996 ).( X2, Y) Y. 0,996
In der vierten Zeile werden die Beziehungen zwischen den Residuen von (gegen X 2 zurückgegangen ) und anderen Variablen untersucht:Y. X2
Die vertikale Skala zeigt, dass die Residuen (relativ) klein sind: Wir konnten sie im Streudiagramm von gegen X 2 nicht leicht sehen .Y. X2
Die Residuen sind stark korreliert mit ( ρ = 0,80 ). Die Regression gegen X 2 hat dieses zuvor verborgene Verhalten entlarvt.X1 ρ = 0,80 X2
Konstruktionsbedingt besteht keine verbleibende Korrelation zwischen den Residuen und .X2
Es besteht eine geringe Korrelation zwischen und diesen Residuen ( ρ = 0,09 ). Dies zeigt, wie sich die Residuen ganz anders verhalten können als Y selbst. Auf diese Weise kann X 1 plötzlich als wesentlicher Beitrag zur Regression entlarvt werden.Y. ρ = 0,09 Y. X1
Schließlich ist anzumerken, dass die beiden Schätzungen des -Koeffizienten (beide gleich 0,06895 , nicht weit vom beabsichtigten Wert von 0,05 entfernt ) nur deshalb übereinstimmen , weil X 1 und X 2 orthogonal sind. Außer in geplanten Experimenten ist es selten, dass die Orthogonalität genau gilt. Eine Abweichung von der Orthogonalität führt normalerweise zu einer Änderung der Koeffizientenschätzungen.X1 0,06895 0,05 X1 X2
quelle
Ich denke, dass dieses Problem auf dieser Website schon ziemlich gründlich diskutiert wurde, wenn Sie nur wussten, wo Sie suchen müssen. Daher werde ich wahrscheinlich später einen Kommentar mit einigen Links zu anderen Fragen hinzufügen oder diesen bearbeiten, um eine umfassendere Erklärung zu liefern, wenn ich keine finde.
Es gibt zwei grundlegende Möglichkeiten: Erstens kann die andere IV einen Teil der Restvariabilität absorbieren und so die Aussagekraft des statistischen Tests der anfänglichen IV erhöhen. Die zweite Möglichkeit ist, dass Sie eine Suppressor-Variable haben. Dies ist ein sehr kontraintuitives Thema, aber Sie finden einige Informationen hier *, hier oder in diesem ausgezeichneten CV-Thread .
* Beachten Sie, dass Sie den gesamten Abschnitt bis zum Ende durchlesen müssen, um zu dem Teil zu gelangen, in dem die Unterdrückungsvariablen erläutert werden. Sie können jedoch auch direkt dorthin springen. Am besten ist es, wenn Sie das Ganze lesen.
Bearbeiten: Wie versprochen, füge ich eine ausführlichere Erläuterung meiner Argumentation dazu hinzu, wie die andere IV einen Teil der verbleibenden Variabilität aufnehmen und damit die Leistung des statistischen Tests der anfänglichen IV erhöhen kann. @whuber fügte ein beeindruckendes Beispiel hinzu, aber ich dachte, ich könnte ein komplementäres Beispiel hinzufügen, das dieses Phänomen auf eine andere Art und Weise erklärt, was einigen Leuten helfen könnte, das Phänomen besser zu verstehen. Außerdem zeige ich, dass die zweite IV nicht stärker assoziiert werden muss (obwohl dieses Phänomen in der Praxis fast immer auftreten wird).
Covariaten in einem Regressionsmodell können mit Tests getestet werden, indem die Parameterschätzung durch ihren Standardfehler dividiert wird, oder sie können mit F- Tests getestet werden, indem die Quadratsummen partitioniert werden. Wenn SS vom Typ III verwendet werden, sind diese beiden Testmethoden gleichwertig (für weitere Informationen zu SS-Typen und zugehörigen Tests kann es hilfreich sein, meine Antwort hier zu lesen: So interpretieren Sie SS vom Typ I ). Für diejenigen, die gerade erst anfangen, sich mit Regressionsmethoden vertraut zu machen, stehen die t- Tests häufig im Mittelpunkt, da sie für die Menschen verständlicher erscheinen. Dies ist jedoch ein Fall, in dem ein Blick auf die ANOVA-Tabelle meiner Meinung nach hilfreicher ist. Erinnern wir uns an die grundlegende ANOVA-Tabelle für ein einfaches Regressionsmodell:t F t
Hier ist der Mittelwert von y , y i der beobachtete Wert ist y für Einheit (zB Patient) i , y i Modells vorhergesagten Wert für Einheit i , und N ist die Gesamtzahl der Einheiten in der Studie. Wenn Sie ein multiples Regressionsmodell mit zwei orthogonalen Kovariaten haben, könnte die ANOVA-Tabelle folgendermaßen aufgebaut sein:y¯ y yich y ich y^ich ich N
Hier y x 1 i, zum Beispiel, ist der vorausgesagte Wert für Einheitiwenn sein beobachtete Wert fürx1den tatsächlichen beobachteten Wert war, aber die beobachtete Wert fürx2war der Mittelwert vonx2. Natürlich ist es möglichdassˉx2istder beobachtete Wert vonx2y^X1 iX¯2 ich X1 X2 X2 X¯2 X2 Für einige Beobachtungen sind in diesem Fall keine Anpassungen erforderlich, dies ist jedoch normalerweise nicht der Fall. Beachten Sie, dass diese Methode zum Erstellen der ANOVA-Tabelle nur gültig ist, wenn alle Variablen orthogonal sind. Dies ist ein stark vereinfachter Fall, der für Expository-Zwecke erstellt wurde.
Wenn wir die Situation betrachten, in der die gleichen Daten verwendet werden, um ein Modell mit und ohne anzupassen , dann wird das beobachtetX2 anzupassen y- Werte und ˉ y dieselben. Somit muss die Gesamt-SS in beiden ANOVA-Tabellen gleich sein. Wenn x 1 und x 2 orthogonal zueinander sind, ist S S x 1 außerdem auch in beiden ANOVA-Tabellen identisch. Wie kommt es also, dass es mit x 2 verknüpfte Quadratsummenin der Tabelle geben kann? Woher kommen sie, wenn die gesamte SS und S S x 1y y¯ X1 X2 SSX1 X2 SSX1 sind gleich? Die Antwort ist , dass sie herkam . Die df x 2 werden ebenfalls aus df res entnommen . SSres dfX2 dfres
Nun ist der Test von x 1 der MF X1 geteilt durch M S res in beiden Fällen. Da M S x 1 gleich ist, ergibt sich der Unterschied in der Signifikanz dieses Tests aus der Änderung von M S res , die sich auf zwei Arten geändert hat: Es begann mit weniger SS, weil einige auf x 2 aufgeteilt waren , aber dies sind geteilt durch weniger df, da auch x 2 Freiheitsgrade zugewiesen wurden. Die Änderung der Signifikanz / Potenz des F - Tests (und entsprechend derMSX1 MSres MSX1 MSres X2 X2 F test ist in diesem Fall darauf zurückzuführen, wie sich diese beiden Änderungen auswirken. Wenn mehr SS gegeben x 2 , bezogen auf die df, die gegeben sind , x 2 , danndie M S res verringert, wodurch die F mit zugehörigem x 1 zu erhöhen und p mehrBedeutung zu gewinnen. t X2 X2 MSres F X1 p
Der Effekt von muss nicht größer als x 1 sein, damit dies auftritt. Ist dies jedoch nicht der Fall , sind die Verschiebungen der p- Werte recht gering. Die einzige Möglichkeit, zwischen Nicht-Signifikanz und Signifikanz zu wechseln, besteht darin, dass die p- Werte auf beiden Seiten des Alphas nur geringfügig sind. Hier ist ein Beispiel, codiert in :X2 X1 p p
R
Tatsächlich muss überhaupt nicht signifikant sein. Erwägen:X2
Dies ist zugegebenermaßen nichts anderes als das dramatische Beispiel in @ whubers Beitrag, aber es kann den Leuten helfen, zu verstehen, was hier vor sich geht.
quelle
Es scheint, dass die Frage des OP auf zwei verschiedene Arten interpretiert werden kann:
Wie funktioniert OLS mathematisch, sodass sich das Hinzufügen einer unabhängigen Variablen auf unerwartete Weise ändern kann?
Wie kann das Ändern meines Modells durch Hinzufügen einer Variablen den Effekt einer anderen unabhängigen Variablen im Modell ändern?
Zu Frage 1 gibt es bereits mehrere gute Antworten. Und Frage Nr. 2 ist für die Experten möglicherweise so offensichtlich, dass sie davon ausgehen, dass das OP stattdessen Frage Nr. 1 stellen muss. Aber ich denke, Frage 2 verdient eine Antwort, die ungefähr so aussieht:
Beginnen wir mit einem Beispiel. Angenommen, Sie hatten die Größe, das Alter, das Geschlecht usw. mehrerer Kinder und wollten eine Regression durchführen, um deren Größe vorherzusagen.
Sie beginnen mit einem naiven Modell, das Geschlecht als unabhängige Variable verwendet. Und es ist statistisch nicht signifikant. (Wie könnte es sein, Sie mischen 3-Jährige und Teenager.)
Dann fügt man das Alter hinzu und plötzlich ist nicht nur das Alter signifikant, sondern auch das Geschlecht. Wie kann das sein?
Natürlich können Sie in meinem Beispiel deutlich sehen, dass das Alter ein wichtiger Faktor für die Größe eines Kindes / Teenagers ist. Wahrscheinlich der wichtigste Faktor, über den Sie Daten haben. Auch das Geschlecht kann von Bedeutung sein, insbesondere für ältere Kinder und Erwachsene, aber das Geschlecht allein ist ein schlechtes Modell dafür, wie groß ein Kind ist.
Alter plus Geschlecht ist ein angemessenes (natürlich vereinfachtes) Modell, das für die Aufgabe angemessen ist. Wenn Sie andere Daten hinzufügen - Interaktion von Alter und Geschlecht, Ernährung, Größe der Eltern usw. -, könnten Sie ein noch besseres Modell erstellen, das natürlich im Vergleich zu der Vielzahl von Faktoren, die die Größe eines Kindes tatsächlich bestimmen, noch vereinfacht wird. Andererseits sind alle Modelle vereinfachte Versionen der Realität. (Eine Weltkarte im Maßstab 1: 1 ist für einen Reisenden nicht allzu nützlich.)
Ihr ursprüngliches Modell (nur Geschlecht) ist zu vereinfacht - so vereinfacht, dass es im Wesentlichen kaputt ist. Das heißt aber nicht, dass das Geschlecht für ein besseres Modell nicht nützlich ist.
BEARBEITEN: gungs Vorschlag bezüglich des Interaktionsbegriffs von Alter und Geschlecht hinzugefügt.
quelle
Dieser Thread hat bereits drei ausgezeichnete Antworten (jeweils +1). Meine Antwort ist ein ausführlicher Kommentar und eine Illustration zu dem von @gung gemachten Punkt (der einige Zeit in Anspruch nahm, um zu verstehen):
"Erweiterung"
Die folgende Abbildung zeigt beide nach @gung aufgelisteten Möglichkeiten. Betrachten Sie zunächst nur den blauen Teil (dh ignorieren Sie alle roten Linien):
Mit anderen Worten, der Test vergleicht jetzt die Länge von OF mit OG und nicht wie zuvor mit OC. OF ist klein und "unbedeutend" im Vergleich zu OC, aber groß genug, um im Vergleich zu OG "signifikant" zu sein.
Dies ist genau die Situation, die @whuber, @gung und @Wayne in ihren Antworten dargestellt haben. Ich weiß nicht, ob dieser Effekt einen Standardnamen in der Regressionsliteratur hat, daher werde ich ihn "Verbesserung" nennen.
Unterdrückung
Beachten Sie, dass oben, wennα = 90∘ β= 90∘ X1 alleine genau Null war, wird er genau Null bleiben.
Nicht so bei der Unterdrückung.
Beachten Sie, dass OF 'viel länger ist als früher. Ein statistischer Test würde die Länge von OF 'mit E'C vergleichen und daraus schließen, dass der Beitrag vonX1 X1 y
quelle