Beide Antworten in diesen Threads, eins und zwei, behaupten, dass transformiert werden sollte, bevor eine andere Transformation auf die Prädiktoren angewendet wird. In der Tat konzentriert sich das Weisberg- Kapitel über Transformationen mehr auf DV als auf Prädiktoren, ebenso wie die Handbuchseite des R-Car-Pakets powerTransform ().
Wir wissen jedoch, dass die Normalität der DV-Verteilung in OLS keine Anforderung zur Schätzung der BLAUEN Koeffizienten ist, und selbst wenn die Residuen nicht streng normalverteilt sind, ist OLS immer noch ein vernünftiger Schätzer .
Warum also die Betonung auf die Transformation von ? Es gibt einige Gründe, aus denen ich denke, dass es eigentlich vorzuziehen ist, Y nicht zu transformieren : Erstens erschwert es das Lesen der IVs-Beziehung und zweitens erfordert es bei der Vorhersage eine Rücktransformation vom geschätzten Wert zur ursprünglichen Y- Skala. Je nachdem, was Sie tun, kann dies ein Problem sein.
quelle
Antworten:
Die Transformation von X wirkt sich weder auf die Form der bedingten Verteilung noch auf die Heteroskedastizität aus. Die Transformation von X dient also nur dazu, nichtlineare Beziehungen zu behandeln. (Wenn Sie additive Modelle anpassen, kann dies dazu beitragen, die Interaktion zu eliminieren, aber selbst das bleibt oft am besten der Transformation von Y überlassen.)
Ein Beispiel, bei dem die Transformation nur von X sinnvoll ist:
Wenn dies - mangelnde Anpassung an den bedingten Mittelwert - Ihr Hauptproblem ist, kann die Transformation von X sinnvoll sein, aber wenn Sie aufgrund der Form des bedingten Y oder aufgrund der Heteroskedastizität transformieren, wenn Sie dies durch Transformation lösen ( Nicht unbedingt die beste Wahl, aber wir nehmen die Transformation als gegeben für diese Frage an. Dann müssen Sie Y auf irgendeine Weise transformieren, um sie zu ändern.
Stellen Sie sich zum Beispiel ein Modell vor, bei dem die bedingte Varianz proportional zum Mittelwert ist:
Ein Beispiel, bei dem die Transformation von nur X die Probleme nicht lösen kann:
Das Verschieben von Werten auf der x-Achse ändert nichts an der Tatsache, dass die Streuung für Werte auf der rechten Seite größer ist als für Werte auf der linken Seite. Wenn Sie diese sich ändernde Varianz durch Transformation korrigieren möchten, müssen Sie hohe Y-Werte reduzieren und niedrige Y-Werte strecken.
Wenn Sie nun überlegen, Y zu transformieren, ändert sich dadurch die Form der Beziehung zwischen Antwort und Prädiktoren. Wenn Sie also ein lineares Modell möchten (wenn es vor der Transformation linear war, werden Sie häufig auch X transformieren). es wird nicht danach sein). Manchmal (wie im zweiten Diagramm oben) wird die Beziehung durch eine Y = -Transformation gleichzeitig linearer - dies ist jedoch nicht immer der Fall.
Wenn Sie sowohl X als auch Y transformieren, möchten Sie zuerst Y ausführen, da sich die Form der Beziehung zwischen Y und X ändert. Normalerweise müssen Sie nach der Transformation sehen, wie Beziehungen aussehen. Die nachfolgende Transformation von X zielt dann darauf ab, eine Linearität der Beziehung zu erhalten.
Wenn Sie also überhaupt transformieren, müssen Sie häufig Y transformieren, und wenn Sie dies tun, möchten Sie es fast immer zuerst tun.
quelle
Die Transformation von Y ist zunächst ein anachronistischer Ansatz zur Datenanalyse. Unsere Ur-Ur-Ur-Großväter haben das getan. Warum sollten wir das nicht tun? Viele Gründe und Ihr Beitrag, der widerspiegelt, dass Gaußsche Annahmen ausschließlich auf den Fehlern eines Modells beruhen, NICHT der Y-Reihe, sind tot.
quelle