Mein Kollege möchte einige Daten analysieren, nachdem er die Antwortvariable transformiert hat, indem er sie auf die Potenz von (d. ).
Das ist mir unangenehm, aber ich habe Mühe zu erklären, warum. Ich kann mir keine mechanistischen Gründe für diese Transformation vorstellen. Ich habe es noch nie zuvor gesehen, und ich mache mir Sorgen, dass es die Fehlerraten von Typ I oder so etwas erhöht - aber ich habe nichts, um diese Bedenken zu untermauern!
Außerdem stellt mein Kollege fest, dass diese transformierten Modelle im AIC-Vergleich nicht transformierte Modelle übertreffen. Rechtfertigt dies an sich seine Verwendung?
regression
data-transformation
aic
AndrewMacDonald
quelle
quelle
Antworten:
Es ist üblich, Leistungstransformationen (Tukey, Box-Cox) mit beliebigen Werten auf die Antwort anzuwenden. Aus dieser Perspektive sehe ich keine besonderen Bedenken in Bezug auf Ihren Wert von 1/8.
Natürlich ändert jede Transformation die funktionale Beziehung, die Sie anpassen, und es kann sein, dass 1/8 mechanistisch keinen Sinn ergibt, aber das wäre für mich kein Problem, wenn der Zweck nicht darin besteht, Parameter eines physischen Objekts zu extrapolieren oder anzupassen Gesetz, aber um einen richtigen p-Wert für das Vorzeichen des Effekts zu erhalten (ich würde behaupten, das ist der normale Anwendungsfall in einer Regression). Zu diesem Zweck besteht Ihre einzige Sorge darin, dass die Funktion zu den Daten in der Domäne Ihrer Prädiktorwerte passt (bezogen auf Mittelwert und Restabweichung) und dass dies leicht zu überprüfen ist.
Wenn Sie sich über den besten Wert für die Leistungstransformation nicht sicher sind und zwischen verschiedenen Optionen vergleichen möchten, sollten Sie die AIC- / Wahrscheinlichkeitswerte nicht direkt vergleichen, da die Leistungstransformation den Maßstab der Antwort ändert. Glücklicherweise stellt sich heraus, dass es relativ einfach ist, eine Korrektur für die Transformation zu berechnen, sodass verschiedene Transformationen über ihre (korrigierte) Wahrscheinlichkeit verglichen werden können (siehe z . B. hier ).
In R ist dies in MASS :: boxcox implementiert - dies ist eine bequeme Möglichkeit, den richtigen Wert für die Leistung auszuwählen.
quelle