Wird die Protokolltransformation immer die Heteroskedastizität verringern? Weil das Lehrbuch besagt, dass die Protokolltransformation häufig die Heteroskedastizität verringert. Ich möchte also wissen, in welchen Fällen die Heteroskedastizität nicht verringert wird.
regression
data-transformation
heteroscedasticity
logarithm
Christopher S.
quelle
quelle
Antworten:
Nein; manchmal wird es schlimmer.
Die Heteroskedastizität, bei der die Streuung nahezu proportional zum bedingten Mittelwert ist, wird tendenziell durch log (y) verbessert. Wenn sie jedoch nicht mit dem Mittelwert nahe dieser Rate (oder mehr) zunimmt, wird die Heteroskedastizität häufig verschlechtert durch diese Transformation.
Weil das Aufnehmen von Protokollen extremere Werte auf der rechten Seite "hochzieht" (hohe Werte), während Werte ganz links (niedrige Werte) dazu neigen, nach hinten gestreckt zu werden:
Dies bedeutet, dass die Spreads kleiner werden, wenn die Werte groß sind, aber gestreckt werden können, wenn die Werte bereits klein sind.
Wenn Sie die ungefähre Form der Heteroskedastizität kennen, können Sie manchmal eine Transformation ausarbeiten, die die Varianz ungefähr konstant macht. Dies ist als varianzstabilisierende Transformation bekannt ; Es ist ein Standardthema in der mathematischen Statistik. Auf unserer Website gibt es eine Reihe von Beiträgen, die sich auf varianzstabilisierende Transformationen beziehen.
Wenn die Streuung proportional zur Quadratwurzel des Mittelwerts ist (Varianz proportional zum Mittelwert), ist eine Quadratwurzeltransformation - in diesem Fall die varianzstabilisierende Transformation - tendenziell viel besser als eine logarithmische Transformation. Die Protokolltransformation macht in diesem Fall "zu viel". In der zweiten Darstellung nimmt die Streuung mit zunehmendem Mittelwert ab, und wenn wir dann entweder Baumstämme oder Quadratwurzeln nehmen, wird dies noch schlimmer. (Es stellt sich heraus, dass die 1,5-Potenz in diesem Fall die Varianz tatsächlich recht gut stabilisiert.)
quelle
Nach meiner Erfahrung ist die Protokolltransformation am hilfreichsten, wenn die Daten "kegelförmig" und (logarithmisch oder auf andere Weise) verzerrt sind (siehe unten). Diese Art von Daten stammt häufig aus Bevölkerungsgruppen, z. B. Benutzern eines Systems, in denen eine große Anzahl von gelegentlichen, seltenen Benutzern und eine kleine Anzahl von häufigen Benutzern vorhanden sind.
Hier ist ein Beispiel für einige kegelförmige Daten:
Wenn Sie die Protokolle von y und z nehmen, erhalten Sie:
Beachten Sie, dass durch die Regression protokollierter Daten die Form der Anpassungsgleichung von geändert wirdy=ax+b
zu
log(y)=alog(x)+b (oder alternativ y=xaeb ).
Über dieses Szenario hinaus würde ich sagen, dass es nie weh tut, die protokollierten Daten grafisch darzustellen, auch wenn die Residuen dadurch nicht homoskedastischer werden. Oft werden Details angezeigt, die Sie sonst nicht sehen würden, oder Daten werden auf nützliche Weise verteilt / gequetscht
quelle