Dieser Wikipedia- Link listet eine Reihe von Techniken auf, um die Heteroskedastizität von OLS-Resten zu erkennen. Ich möchte erfahren, welche praktische Technik bei der Erkennung von Regionen, die von Heteroskedastizität betroffen sind, effizienter ist.
Zum Beispiel hat hier die zentrale Region in der OLS-Darstellung "Residuals vs Fitted" eine höhere Varianz als die Seiten der Darstellung (ich bin nicht ganz sicher, aber nehmen wir an, dass dies der Fall ist, um der Frage willen). Anhand der Fehlerbezeichnungen im QQ-Diagramm können Sie feststellen, dass sie mit den Fehlerbezeichnungen in der Mitte des Residuen-Diagramms übereinstimmen.
Aber wie können wir den Residuenbereich quantifizieren, der eine signifikant höhere Varianz aufweist?
regression
least-squares
heteroscedasticity
Robert Kubrick
quelle
quelle
Antworten:
Dieses Problem hat ein exploratives Gefühl. John Tukey beschreibt in seiner klassischen exploratorischen Datenanalyse (Addison-Wesley 1977) viele Verfahren zur Erforschung der Heteroskedastizität . Vielleicht ist eine Variante seiner " Wanderschemadarstellung " am direktesten nützlich . Dadurch wird eine Variable (wie der vorhergesagte Wert) in Klassen unterteilt und mithilfe von M-Letter-Zusammenfassungen (Verallgemeinerungen von Boxplots) die Position, Verteilung und Form der anderen Variablen für jede Klasse angezeigt. Die M-Letter-Statistiken werden weiter geglättet, um eher allgemeine Muster als zufällige Abweichungen hervorzuheben.
Eine schnelle Version kann durch Ausnutzen der
boxplot
Prozedur in gekocht werdenR
. Wir veranschaulichen mit simulierten stark heteroskedastischen Daten:Lassen Sie uns die vorhergesagten Werte und Residuen aus der OLS-Regression erhalten:
Hier ist also die wandernde schematische Darstellung unter Verwendung von Behältern mit gleicher Anzahl für die vorhergesagten Werte. Ich benutze
lowess
für ein schnelles und schmutziges glattes.Die blaue Kurve glättet die Mediane. Die horizontale Tendenz zeigt an, dass die Regression im Allgemeinen gut passt. Die anderen Kurven glätten die Kastenenden (Quartile) und Zäune (normalerweise extreme Werte). Ihre starke Konvergenz und anschließende Trennung zeugen von der Heteroskedastizität - und helfen uns, sie zu charakterisieren und zu quantifizieren.
(Beachten Sie die nichtlineare Skala auf der horizontalen Achse, die die Verteilung der vorhergesagten Werte widerspiegelt. Mit etwas mehr Arbeit könnte diese Achse linearisiert werden, was manchmal nützlich ist.)
quelle
Typischerweise wird die Heteroskedastizität unter Verwendung eines Breusch-Pagan-Ansatzes modelliert. Die Residuen Ihrer linearen Regression werden dann quadriert und auf die Variablen in Ihrem ursprünglichen linearen Modell zurückgeführt. Die letztere Regression wird als Hilfsregression bezeichnet .
Für Ihre Zwecke können Sie sich auf die einzelnen Koeffizienten dieses Modells konzentrieren, um zu sehen, welche Variablen die Ergebnisse mit hoher oder niedriger Varianz am besten vorhersagen.
quelle