@NickCox hat gute Arbeit geleistet und über die Anzeige von Residuen gesprochen, wenn Sie zwei Gruppen haben. Lassen Sie mich einige der expliziten Fragen und impliziten Annahmen ansprechen, die hinter diesem Thread stehen.
Die Frage lautet: "Wie testen Sie Annahmen einer linearen Regression wie Homoskedastizität, wenn eine unabhängige Variable binär ist?" Sie haben ein multiples Regressionsmodell. Ein (Mehrfach-) Regressionsmodell geht davon aus, dass es nur einen Fehlerterm gibt, der überall konstant ist. Es ist nicht besonders aussagekräftig (und Sie müssen es nicht), für jeden Prädiktor einzeln auf Heteroskedastizität zu prüfen. Aus diesem Grund diagnostizieren wir bei einem multiplen Regressionsmodell die Heteroskedastizität anhand von Darstellungen der Residuen gegen die vorhergesagten Werte. Das wahrscheinlich hilfreichste Diagramm für diesen Zweck ist ein Diagramm für die Skalierungsposition (auch als "Spread-Level" bezeichnet), bei dem es sich um ein Diagramm der Quadratwurzel des absoluten Werts der Residuen gegenüber den vorhergesagten Werten handelt. Beispiele sehen,Was bedeutet "konstante Varianz" in einem linearen Regressionsmodell?
Ebenso müssen Sie nicht die Residuen für jeden Prädiktor auf Normalität überprüfen. (Ich weiß ehrlich gesagt nicht einmal, wie das funktionieren würde.)
Was Sie können mit Plots der Residuen gegen einzelne Prädiktoren zu tun ist , überprüfen, ob die funktionelle Form richtig angegeben ist. Wenn die Residuen beispielsweise eine Parabel bilden, weisen die Daten, die Sie übersehen haben, eine gewisse Krümmung auf. Um ein Beispiel zu sehen, sehen Sie sich das zweite Diagramm in der Antwort von @ Glen_b hier an: Überprüfen der Modellqualität in linearer Regression . Diese Probleme treten jedoch bei einem binären Prädiktor nicht auf.
Wenn Sie nur kategoriale Prädiktoren haben, können Sie auf Heteroskedastizität testen. Sie verwenden nur den Levene-Test. Ich diskutiere es hier: Warum Levene's Test der Varianzgleichheit statt des F-Verhältnisses? In R verwenden Sie ? LeveneTest aus dem Autopaket .
Bearbeiten: Um den Punkt besser zu veranschaulichen, dass das Betrachten eines Diagramms der Residuen gegen eine einzelne Prädiktorvariable nicht hilfreich ist, wenn Sie ein Modell mit mehreren Regressionen haben, betrachten Sie dieses Beispiel:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Sie können dem Datengenerierungsprozess entnehmen, dass keine Heteroskedastizität vorliegt. Lassen Sie uns die relevanten Diagramme des Modells untersuchen, um festzustellen, ob sie eine problematische Heteroskedastizität implizieren:
Nein, nichts, worüber man sich Sorgen machen müsste. Schauen wir uns jedoch die Darstellung der Residuen gegen die einzelne binäre Prädiktorvariable an, um festzustellen, ob dort Heteroskedastizität vorliegt:
Oh, es sieht so aus, als ob es ein Problem geben könnte. Wir wissen aus dem Datengenerierungsprozess, dass es keine Heteroskedastizität gibt, und die primären Diagramme, um dies zu untersuchen, zeigten auch keine. Was passiert also hier? Vielleicht helfen diese Handlungen:
x1
und x2
sind nicht unabhängig voneinander. Darüber hinaus sind die Beobachtungen x2 = 1
an den Extremen. Sie haben mehr Hebelkraft, so dass ihre Residuen natürlich kleiner sind. Dennoch gibt es keine Heteroskedastizität.
Die Nachricht zum Mitnehmen: Am besten diagnostizieren Sie die Heteroskedastizität nur anhand der entsprechenden Diagramme (Residuen vs. angepasste Diagramme und Diagramme auf Streuungsebene).
Es ist wahr, dass herkömmliche Residuendiagramme in diesem Fall härter sind: Es kann (viel) schwieriger sein zu erkennen, ob die Verteilungen ungefähr gleich sind. Aber hier gibt es einfache Alternativen. Sie vergleichen nur zwei Distributionen, und es gibt viele gute Möglichkeiten, dies zu tun. Einige Möglichkeiten sind nebeneinander liegende oder überlagerte Quantildiagramme, Histogramme oder Boxdiagramme. Mein eigenes Vorurteil ist, dass schmucklose Box-Plots hier oft überstrapaziert werden: Sie unterdrücken normalerweise die Details, die wir uns ansehen sollten, auch wenn wir sie oft als unwichtig abtun können. Aber du kannst deinen Kuchen essen und ihn haben.
Sie verwenden R, aber nichts Statistisches in Ihrer Frage ist R-spezifisch. Hier habe ich Stata für eine Regression eines einzelnen binären Prädiktors verwendet und dann Quantil-Box-Plots gestartet, in denen die Residuen für die beiden Ebenen des Prädiktors verglichen wurden. Die praktische Schlussfolgerung in diesem Beispiel ist, dass die Verteilungen ungefähr gleich sind.
Hinweis: Siehe auch Wie wird ein Boxplot mit einem extremen Ausreißer dargestellt? einschließlich des Beispiels von @ Glen_b für ähnliche Diagramme mit R. Solche Diagramme sollten in jeder anständigen Software einfach sein; Wenn nicht, ist Ihre Software nicht anständig.
quelle