Ich habe folgendes lineares Modell:
Um die Heteroskedastizität der Residuen zu beheben, habe ich versucht, eine Protokolltransformation auf die abhängige Variable als anzuwenden, aber ich sehe immer noch den gleichen Fan-Out-Effekt auf die Residuen. Die DV-Werte sind relativ klein, so dass die konstante Addition von +1 vor der Protokollierung in diesem Fall wahrscheinlich nicht angemessen ist.
> summary(Y)
Min. :-0.0005647
1st Qu.: 0.0001066
Median : 0.0003060
Mean : 0.0004617
3rd Qu.: 0.0006333
Max. : 0.0105730
NA's :30.0000000
Wie kann ich die Variablen transformieren, um den Vorhersagefehler und die Varianz zu verbessern, insbesondere für die ganz rechts angepassten Werte?
quelle
Sie möchten die Box-Cox-Transformation ausprobieren . Es ist eine Version einer Machtumwandlung:
Einige frühere Diskussionen beinhalten: Welche anderen normalisierenden Transformationen werden üblicherweise über die üblichen hinaus verwendet, wie Quadratwurzel, Protokoll usw.? und Wie soll ich nicht negative Daten einschließlich Nullen transformieren? . Sie finden den R-Code wie folgt: Wie sucht man in R nach einem statistischen Verfahren?
Ökonomen hörten nach der wegweisenden Arbeit von Halbert White (1980) auf, Heteroskedastizität zu entwickeln, um Inferenzverfahren einzurichten, die gegenüber Heteroskedastizität robust sind (was tatsächlich nur die frühere Geschichte eines Statistikers F. Eicker (1967) nacherzählte). Siehe Wikipedia-Seite , die ich gerade umgeschrieben habe.
quelle
Es gibt eine sehr einfache Lösung für das Problem der Heteroskedastizität, das mit abhängigen Variablen in Zeitreihendaten verbunden ist. Ich weiß nicht, ob dies auf Ihre abhängige Variable zutrifft. Angenommen, es wird anstelle von nominalem Y die prozentuale Änderung von Y gegenüber der aktuellen Periode gegenüber der vorherigen Periode geändert. Nehmen wir zum Beispiel an, Ihr nominales Y ist ein BIP von 14 Billionen US-Dollar in der aktuellsten Periode. Berechnen Sie stattdessen die Veränderung des BIP im letzten Zeitraum (sagen wir 2,5%).
Eine nominelle Zeitreihe wächst immer und ist immer heteroskedastisch (die Varianz des Fehlers wächst mit der Zeit, weil die Werte wachsen). Eine% -Änderungsreihe ist normalerweise homoskedastisch, da die abhängige Variable ziemlich stationär ist.
quelle