Heteroskedastizität des linearen Modells

10

Ich habe folgendes lineares Modell:

Lineare Modellreste Verteilung der Beobachtungen

Um die Heteroskedastizität der Residuen zu beheben, habe ich versucht, eine Protokolltransformation auf die abhängige Variable als anzuwenden, aber ich sehe immer noch den gleichen Fan-Out-Effekt auf die Residuen. Die DV-Werte sind relativ klein, so dass die konstante Addition von +1 vor der Protokollierung in diesem Fall wahrscheinlich nicht angemessen ist.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Wie kann ich die Variablen transformieren, um den Vorhersagefehler und die Varianz zu verbessern, insbesondere für die ganz rechts angepassten Werte?

Robert Kubrick
quelle

Antworten:

11

Was ist dein Ziel? Wir wissen, dass die Heteroskedastizität unsere Koeffizientenschätzungen nicht beeinflusst. es macht nur unsere Standardfehler falsch. Wenn Sie sich also nur um die Passform des Modells kümmern, spielt die Heteroskedastizität keine Rolle.

Sie können ein effizienteres Modell erhalten ( dh eines mit kleineren Standardfehlern), wenn Sie gewichtete kleinste Quadrate verwenden. In diesem Fall müssen Sie die Varianz für jede Beobachtung schätzen und jede Beobachtung durch die Umkehrung dieser beobachtungsspezifischen Varianz gewichten (im Fall des weightsArguments zu lm). Dieses Schätzverfahren ändert Ihre Schätzungen.

Alternativ können Sie robuste Standardfehler verwenden, um die Standardfehler für die Heteroskedastizität zu korrigieren, ohne Ihre Schätzungen zu ändern. Eine RAnwendung finden Sie im Paket sandwich.

Die Verwendung der Protokolltransformation kann ein guter Ansatz zur Korrektur der Heteroskedastizität sein, jedoch nur, wenn alle Ihre Werte positiv sind und das neue Modell eine vernünftige Interpretation in Bezug auf die von Ihnen gestellte Frage bietet.

Charlie
quelle
Mein primäres Ziel ist es, die Fehler zu reduzieren. Ich werde mich mit gewichteten kleinsten Quadraten befassen müssen, aber ich hatte den Eindruck, dass eine DV-Transformation der richtige Schritt war, da die Restvarianz für höhere angepasste Werte regelmäßig zunimmt.
Robert Kubrick
Was meinst du mit "Fehler reduzieren"? Der durchschnittliche Fehler ist 0. Selbst wenn Sie in Ihrem Diagramm schauen, in jedem Fenster, das Sie wählen, ist der Durchschnitt 0.
Charlie
Ich meine, die Vorhersage des Modells zu verbessern, dh den absoluten Gesamtfehler und die Fehlervarianz zu verringern, insbesondere für die höheren angepassten Werte.
Robert Kubrick
1
yyy
1
yyyy
4

Sie möchten die Box-Cox-Transformation ausprobieren . Es ist eine Version einer Machtumwandlung:

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
y˙

Einige frühere Diskussionen beinhalten: Welche anderen normalisierenden Transformationen werden üblicherweise über die üblichen hinaus verwendet, wie Quadratwurzel, Protokoll usw.? und Wie soll ich nicht negative Daten einschließlich Nullen transformieren? . Sie finden den R-Code wie folgt: Wie sucht man in R nach einem statistischen Verfahren?

Ökonomen hörten nach der wegweisenden Arbeit von Halbert White (1980) auf, Heteroskedastizität zu entwickeln, um Inferenzverfahren einzurichten, die gegenüber Heteroskedastizität robust sind (was tatsächlich nur die frühere Geschichte eines Statistikers F. Eicker (1967) nacherzählte). Siehe Wikipedia-Seite , die ich gerade umgeschrieben habe.

StasK
quelle
Vielen Dank, an dieser Stelle überlege ich, ob ich eine Leistungstransformation anwenden oder eine robuste Regression verwenden soll, um die Fehler zu reduzieren und die Vorhersageintervalle zu verbessern. Ich frage mich, wie sich die beiden Techniken vergleichen lassen. Auch wenn ich die Transformation verwende, müsste ich die vorhergesagten Werte zurücktransformieren. Es sieht nicht nach einer offensichtlichen Formel aus, oder?
Robert Kubrick
y
@Charlie Ich meine en.wikipedia.org/wiki/Robust_regression . Ich bin neu in diesem Bereich, aber ich verstehe, dass robuste Regression die Schätztechnik ändert, daher müssen die Residuen unterschiedlich sein.
Robert Kubrick
Richtig, das ist eine andere Methode und ändert Ihre Schätzungen. Ich denke, dass eine robuste Regression besser für Fälle mit Ausreißern geeignet ist. Abhängig von der Version der robusten Regression, die Sie verwenden möchten, und Ihrem speziellen Datensatz können Sie größere Konfidenzintervalle im Vergleich zu OLS erhalten.
Charlie
1

Es gibt eine sehr einfache Lösung für das Problem der Heteroskedastizität, das mit abhängigen Variablen in Zeitreihendaten verbunden ist. Ich weiß nicht, ob dies auf Ihre abhängige Variable zutrifft. Angenommen, es wird anstelle von nominalem Y die prozentuale Änderung von Y gegenüber der aktuellen Periode gegenüber der vorherigen Periode geändert. Nehmen wir zum Beispiel an, Ihr nominales Y ist ein BIP von 14 Billionen US-Dollar in der aktuellsten Periode. Berechnen Sie stattdessen die Veränderung des BIP im letzten Zeitraum (sagen wir 2,5%).

Eine nominelle Zeitreihe wächst immer und ist immer heteroskedastisch (die Varianz des Fehlers wächst mit der Zeit, weil die Werte wachsen). Eine% -Änderungsreihe ist normalerweise homoskedastisch, da die abhängige Variable ziemlich stationär ist.

Sympa
quelle
Y
Das ist überraschend. Normalerweise sind% change-Variablen nicht heteroskedastisch. Ich frage mich, ob die Residuen weniger heteroskedastisch sind als wir denken. Und dass das zugrunde liegende Problem eines der Ausreißer ist. Ich sehe 4 oder 5 Beobachtungen im Bereich von 0,15%, die bei Entfernung das gesamte Diagramm weniger heteroskedastisch aussehen lassen würden. Wie andere bereits erwähnt haben, werden durch die Heteroskedastizität nicht Ihre Regressionskoeffizienten beschädigt, sondern nur Ihre Konfidenzintervalle und der damit verbundene Standardfehler. Wenn Sie sich jedoch Ihr Diagramm ansehen, scheinen CIs möglicherweise nicht zu stark betroffen zu sein. Und könnte immer noch nützlich sein.
Sympa