Wie führe ich eine Restanalyse für binäre / dichotome unabhängige Prädiktoren in der linearen Regression durch?

11

Ich führe die unten stehende multiple lineare Regression in R durch, um die Rendite des verwalteten Fonds vorherzusagen.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Hier sind nur GRI & MBA binäre / dichotome Prädiktoren; Die verbleibenden Prädiktoren sind kontinuierlich.

Ich verwende diesen Code, um Residuendiagramme für die binären Variablen zu generieren.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Meine Frage: Ich weiß, wie man Residuendiagramme auf kontinuierliche Prädiktoren untersucht, aber wie testet man Annahmen einer linearen Regression wie Homoskedastizität, wenn eine unabhängige Variable binär ist?

Restgrundstücke:

Restplot für GR1 Restplot für MBA

GeorgeOfTheRF
quelle

Antworten:

8

@NickCox hat gute Arbeit geleistet und über die Anzeige von Residuen gesprochen, wenn Sie zwei Gruppen haben. Lassen Sie mich einige der expliziten Fragen und impliziten Annahmen ansprechen, die hinter diesem Thread stehen.

Die Frage lautet: "Wie testen Sie Annahmen einer linearen Regression wie Homoskedastizität, wenn eine unabhängige Variable binär ist?" Sie haben ein multiples Regressionsmodell. Ein (Mehrfach-) Regressionsmodell geht davon aus, dass es nur einen Fehlerterm gibt, der überall konstant ist. Es ist nicht besonders aussagekräftig (und Sie müssen es nicht), für jeden Prädiktor einzeln auf Heteroskedastizität zu prüfen. Aus diesem Grund diagnostizieren wir bei einem multiplen Regressionsmodell die Heteroskedastizität anhand von Darstellungen der Residuen gegen die vorhergesagten Werte. Das wahrscheinlich hilfreichste Diagramm für diesen Zweck ist ein Diagramm für die Skalierungsposition (auch als "Spread-Level" bezeichnet), bei dem es sich um ein Diagramm der Quadratwurzel des absoluten Werts der Residuen gegenüber den vorhergesagten Werten handelt. Beispiele sehen,Was bedeutet "konstante Varianz" in einem linearen Regressionsmodell?

Ebenso müssen Sie nicht die Residuen für jeden Prädiktor auf Normalität überprüfen. (Ich weiß ehrlich gesagt nicht einmal, wie das funktionieren würde.)

Was Sie können mit Plots der Residuen gegen einzelne Prädiktoren zu tun ist , überprüfen, ob die funktionelle Form richtig angegeben ist. Wenn die Residuen beispielsweise eine Parabel bilden, weisen die Daten, die Sie übersehen haben, eine gewisse Krümmung auf. Um ein Beispiel zu sehen, sehen Sie sich das zweite Diagramm in der Antwort von @ Glen_b hier an: Überprüfen der Modellqualität in linearer Regression . Diese Probleme treten jedoch bei einem binären Prädiktor nicht auf.

Wenn Sie nur kategoriale Prädiktoren haben, können Sie auf Heteroskedastizität testen. Sie verwenden nur den Levene-Test. Ich diskutiere es hier: Warum Levene's Test der Varianzgleichheit statt des F-Verhältnisses? In R verwenden Sie ? LeveneTest aus dem Autopaket .


Bearbeiten: Um den Punkt besser zu veranschaulichen, dass das Betrachten eines Diagramms der Residuen gegen eine einzelne Prädiktorvariable nicht hilfreich ist, wenn Sie ein Modell mit mehreren Regressionen haben, betrachten Sie dieses Beispiel:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Sie können dem Datengenerierungsprozess entnehmen, dass keine Heteroskedastizität vorliegt. Lassen Sie uns die relevanten Diagramme des Modells untersuchen, um festzustellen, ob sie eine problematische Heteroskedastizität implizieren:

Geben Sie hier die Bildbeschreibung ein

Nein, nichts, worüber man sich Sorgen machen müsste. Schauen wir uns jedoch die Darstellung der Residuen gegen die einzelne binäre Prädiktorvariable an, um festzustellen, ob dort Heteroskedastizität vorliegt:

Geben Sie hier die Bildbeschreibung ein

Oh, es sieht so aus, als ob es ein Problem geben könnte. Wir wissen aus dem Datengenerierungsprozess, dass es keine Heteroskedastizität gibt, und die primären Diagramme, um dies zu untersuchen, zeigten auch keine. Was passiert also hier? Vielleicht helfen diese Handlungen:

Geben Sie hier die Bildbeschreibung ein

x1und x2sind nicht unabhängig voneinander. Darüber hinaus sind die Beobachtungen x2 = 1an den Extremen. Sie haben mehr Hebelkraft, so dass ihre Residuen natürlich kleiner sind. Dennoch gibt es keine Heteroskedastizität.

Die Nachricht zum Mitnehmen: Am besten diagnostizieren Sie die Heteroskedastizität nur anhand der entsprechenden Diagramme (Residuen vs. angepasste Diagramme und Diagramme auf Streuungsebene).

gung - Monica wieder einsetzen
quelle
Vielen Dank! Für die gleiche Regression, die ich durchgeführt habe, stellte ich fest, dass Residual Vs Y homoskedastisch ist, aber als ich Residual Vs Tenure (unabhängig) überprüfte, war es eine Trichterform. Also muss ich etwas transformieren, um dieses Recht zu korrigieren? Dann wollten Sie in diesem Zusammenhang nur verstehen, warum Sie erwähnt haben, dass die Überprüfung der verbleibenden Vs-unabhängigen Variablen nicht erforderlich ist?
GeorgeOfTheRF
@ mrcet007, nein du brauchst keine Transformation. Wenn die res vs angepasst keine Heteroskedastizität zeigt, sind Sie in Ordnung. Vielleicht hilft Ihnen eine Illustration. Ich habe meine Antwort bearbeitet, um eine Demonstration hinzuzufügen.
Gung - Reinstate Monica
Können Sie diesen Link überprüfen people.duke.edu/~rnau/testing.htm . Es heißt, die verbleibende Vs-unabhängige Variable ebenfalls prüfen. Nur für Diskussionen teilen. Können Sie dies kommentieren? Was ich dachte, war, dass wir immer sowohl die vorhergesagten Rest-Vs als auch die Residuen gegen die unabhängigen überprüfen müssen. Homoskedastizität (konstante Varianz) der Fehler (a) gegenüber der Zeit (im Fall von Zeitreihendaten) (b) gegenüber den Vorhersagen (c) gegenüber einer unabhängigen Variablen
GeorgeOfTheRF
Mein Kommentar ist, dass ich Ihnen sowohl einen Grund gegeben habe, warum Sie Residuen- als auch vorhergesagte Diagramme betrachten, um die Heteroskedastizität zu überprüfen, und Ihnen ein Beispiel gezeigt habe, wie das Betrachten von Residuen-IV-Diagrammen Sie in die Irre führen kann. Ich weiß nicht, was ich sonst noch sagen soll.
Gung - Reinstate Monica
6

Es ist wahr, dass herkömmliche Residuendiagramme in diesem Fall härter sind: Es kann (viel) schwieriger sein zu erkennen, ob die Verteilungen ungefähr gleich sind. Aber hier gibt es einfache Alternativen. Sie vergleichen nur zwei Distributionen, und es gibt viele gute Möglichkeiten, dies zu tun. Einige Möglichkeiten sind nebeneinander liegende oder überlagerte Quantildiagramme, Histogramme oder Boxdiagramme. Mein eigenes Vorurteil ist, dass schmucklose Box-Plots hier oft überstrapaziert werden: Sie unterdrücken normalerweise die Details, die wir uns ansehen sollten, auch wenn wir sie oft als unwichtig abtun können. Aber du kannst deinen Kuchen essen und ihn haben.

Sie verwenden R, aber nichts Statistisches in Ihrer Frage ist R-spezifisch. Hier habe ich Stata für eine Regression eines einzelnen binären Prädiktors verwendet und dann Quantil-Box-Plots gestartet, in denen die Residuen für die beiden Ebenen des Prädiktors verglichen wurden. Die praktische Schlussfolgerung in diesem Beispiel ist, dass die Verteilungen ungefähr gleich sind.

Geben Sie hier die Bildbeschreibung ein

1/43/4

Hinweis: Siehe auch Wie wird ein Boxplot mit einem extremen Ausreißer dargestellt? einschließlich des Beispiels von @ Glen_b für ähnliche Diagramme mit R. Solche Diagramme sollten in jeder anständigen Software einfach sein; Wenn nicht, ist Ihre Software nicht anständig.

Nick Cox
quelle
+1 Schön. Haben Sie das Gefühl, dass Hypothesentests auch hier eine Rolle für das Testen von Hypothesen spielen?
Alexis
@gung Ich habe deine Bearbeitung bearbeitet. Das Original war offensichtlich nicht klar genug, wenn Sie es falsch verstanden haben.
Nick Cox
2
@ Alexis Danke! Ich bin mit der Idee zufrieden, dass eine Hypothese gleicher Streuung in diesem Fall informell durch die Grafik unterstützt wird. Ich bin nicht der Meinung, dass jeder kleine Schritt in einer Analyse durch einen P-Wert geheiligt werden muss. Leider ist es nie einfach, sicher zu sein, dass Sie den richtigen Weg springen, aber ich würde in der Praxis auch andere Modelle unterhalten, wenn ich Zweifel hätte. Hier ist das Beispiel nur für die Frage zusammengestellt und nicht Teil einer ernsthaften Analyse.
Nick Cox
Ich entschuldige mich, Nick. Ich habe den Punkt dieses Satzes falsch verstanden. Ich dachte, es wäre ein Tippfehler. Es ist jetzt klarer.
Gung - Reinstate Monica
1
@whuber Das ist gut für mich. Einige Leute finden sie verwirrend, oder so wird mir gesagt.
Nick Cox