Was bedeutet „konstante Varianz“ in einem linearen Regressionsmodell?

53

Was bedeutet "konstante Varianz" im Fehlerbegriff? Aus meiner Sicht haben wir Daten mit einer abhängigen Variablen und einer unabhängigen Variablen. Konstante Varianz ist eine der Annahmen der linearen Regression. Ich frage mich, was Homoskedastizität bedeutet. Denn selbst wenn ich 500 Zeilen hätte, hätte ich einen einzigen Varianzwert, der offensichtlich konstant ist. Mit welcher Variablen soll ich die Varianz vergleichen?

Mukul
quelle

Antworten:

34

Das heißt, wenn Sie den einzelnen Fehler gegen den vorhergesagten Wert zeichnen, sollte die Varianz des vorhergesagten Fehlerwerts konstant sein. Siehe die roten Pfeile im Bild unten, die Länge der roten Linien (ein Stellvertreter seiner Varianz) ist gleich.

Bildbeschreibung hier eingeben

Penguin_Knight
quelle
1
OK, verstanden.!! Da es sich jedoch um eine Annahme handelt, müssen wir die Annahme nicht validieren, bevor Sie das Modell ausführen. Und warum brauchen wir diese Annahme
Mukul
2
Einige Annahmen können erst getestet werden, nachdem das Modell ausgeführt wurde. Das Berechnen eines Modells ist nur mathematisch und nicht das Gleiche wie das Interpretieren eines Modells.
John
6
Die Reichweite entspricht nicht der Varianz von Penguin Knight, daher möchten Sie möglicherweise Ihre Formulierung hier aktualisieren.
John
4
Wenn Ihre Varianzannahme falsch ist, bedeutet dies in der Regel, dass die Standardfehler falsch sind und alle Hypothesentests die falschen Schlussfolgerungen ziehen könnten. (Ein anderer John)
John
4
Ich unterscheide mich geringfügig. Ich würde nicht sagen, dass Heteroskedastizität notwendigerweise bedeutet, dass die Standardfehler Ihrer Betas falsch sind, sondern dass der OLS-Schätzer nicht länger der effizienteste unverzerrte Schätzer ist. Das heißt, Sie könnten mehr Leistung / Präzision erhalten, wenn Sie entweder eine konstante Varianz (möglicherweise aufgrund einer Transformation von Y) hatten oder wenn Sie die Nichtkonstanz genau berücksichtigten (möglicherweise über den Schätzer der verallgemeinerten kleinsten Quadrate).
gung - Wiedereinsetzung von Monica
58

Dies ist ein Ort, an dem mir das Betrachten einiger Formeln geholfen hat, auch für Menschen mit mathematischen Ängsten (ich schlage nicht vor, dass Sie dies unbedingt tun). Das einfache lineare Regressionsmodell lautet wie folgt: Wichtig hierbei ist, dass dieses Modell explizit angegeben wird gibt an, dass nach der Schätzung der aussagekräftigen Informationen in den Daten (das ist " ") nichts als weißes Rauschen übrig bleibt. Darüber hinaus werden die Fehler als Normal mit einer Varianz von .

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

Es ist wichtig zu wissen, dass keine Variable ist (obwohl wir es in der Algebra der Mittelstufe so nennen würden). Es ändert sich nicht. variiert. variiert. Der Fehlerbegriff variiert zufällig . Das heißt, es ist eine Zufallsvariable . Die Parameter ( sind jedoch Platzhalter für Werte, die wir nicht kennen - sie variieren nicht. Stattdessen sind sie unbekannte Konstanten . Das Fazit dieser Tatsache für diese Diskussion ist, dass, egal was ist (dh welcher Wert dort eingesteckt ist),σε2XYεβ0, β1, σε2)Xσε2Bleibt das selbe. Mit anderen Worten ist die Varianz der Fehler / Residuen konstant. Betrachten Sie das folgende Modell aus Gründen des Kontrasts (und der besseren Übersichtlichkeit): In diesem Fall geben wir einen Wert für (beginnend in der dritten Zeile) , lasse es durch die Funktion laufen und erhalte die Fehlervarianz, die sich bei genau diesem Wert von ergibt . Dann gehen wir den Rest der Gleichung wie gewohnt durch.
X f ( X ) X

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

Die obige Diskussion soll helfen , die Natur der Annahme zu verstehen ; die frage fragt auch, wie man das beurteilt . Grundsätzlich gibt es zwei Ansätze: formale Hypothesentests und das Untersuchen von Plots. Tests auf Heteroskedastizität können verwendet werden, wenn Sie experimentelle Daten haben (dh die nur bei festen Werten von ) oder eine ANOVA. Ich diskutiere hier einige solcher Tests: Warum Levene-Test der Varianzgleichheit und nicht des F-VerhältnissesX. Ich denke jedoch, dass es am besten ist, sich die Grundstücke anzuschauen. @Penquin_Knight hat gute Arbeit geleistet, um zu zeigen, wie eine konstante Varianz aussieht, indem die Residuen eines Modells, bei dem Homoskedastizität auftritt, gegen die angepassten Werte aufgetragen wurden. Heteroskedastizität kann möglicherweise auch in einem Diagramm der Rohdaten oder in einem Diagramm mit Skalenposition (auch Spread-Level-Diagramm genannt) nachgewiesen werden. R zeichnet das Letztere bequem für Sie mit einem Anruf an plot.lm(model, which=2); Es ist die Quadratwurzel der Absolutwerte der Residuen gegen die angepassten Werte, wobei eine Kurve mit geringer Intensität hilfreich überlagert ist. Sie möchten, dass die Lowess flach und nicht geneigt sitzt.

Betrachten Sie die folgenden Darstellungen, in denen verglichen wird, wie homoskedastische und heteroskedastische Daten in diesen drei verschiedenen Arten von Abbildungen aussehen könnten. Beachten Sie die Trichterform für die oberen beiden heteroskedastischen Diagramme und die nach oben abfallende untere Linie im letzten Diagramm.

Bildbeschreibung hier eingeben

Der Vollständigkeit halber hier der Code, mit dem ich diese Daten generiert habe:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)
gung - Wiedereinsetzung von Monica
quelle
1
Danke, es ist sehr hilfreich. Können Sie auch erklären, warum wir diese Annahme in einer Laiensprache brauchen
Mukul
5
Gern geschehen, @Mukul. Die Annahme der Homoskedastizität (konstante Varianz) ist erforderlich, um den OLS-Schätzer (dh die Standardverfahrenssoftware, die zum Schätzen von Betas verwendet wird) zum Schätzverfahren zu machen, das Stichprobenverteilungen von Betas mit den engsten Standardfehlern aller Schätzverfahren erzeugt, die ergeben Stichprobenverteilungen, die auf den wahren Wert zentriert sind. IE, es ist notwendig, dass der OLS-Schätzer der Schätzer für die minimale Varianz ist .
gung - Wiedereinsetzung von Monica
5
Wenn Ihre Antwortvariable binär ist , wird sie als Binomial verteilt. IE sind viele Teile des oben beschriebenen linearen Regressionsmodells ungeeignet. Da die Varianz eines Binoms eine Funktion des Mittelwerts ist (Mittelwert: , Varianz: ), wird die Annahme der Homoskedastizität verletzt. Um diese Dinge besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Unterschied zwischen logit- und probit-Modellen , obwohl sie in einem anderen Kontext geschrieben wurde. ( p ( 1 - p ) ) / n )p(p(1p))/n)
gung - Reinstate Monica
2
@gung In Ihrem Kommentar setzen Sie Kursivschrift auf alle Wörter im Schätzer für die minimale Varianz. Ich verstehe, dass der Schätzer mit der Heteroskedastizität weniger effizient wird (mehr Varianz), aber wird er auch voreingenommen sein?
user1205901 - Wiedereinsetzung von Monica
5
@ user1205901, es bleibt unvoreingenommen.
gung - Wiedereinsetzung von Monica