Werden Root-Transformationen empfohlen?

12

Mein Kollege möchte einige Daten analysieren, nachdem er die Antwortvariable transformiert hat, indem er sie auf die Potenz von (d. ).18y0.125

Das ist mir unangenehm, aber ich habe Mühe zu erklären, warum. Ich kann mir keine mechanistischen Gründe für diese Transformation vorstellen. Ich habe es noch nie zuvor gesehen, und ich mache mir Sorgen, dass es die Fehlerraten von Typ I oder so etwas erhöht - aber ich habe nichts, um diese Bedenken zu untermauern!

Außerdem stellt mein Kollege fest, dass diese transformierten Modelle im AIC-Vergleich nicht transformierte Modelle übertreffen. Rechtfertigt dies an sich seine Verwendung?

AndrewMacDonald
quelle
9
Nur zu Ihrer Information, sieht für viele Bereiche von sehr nach aus . Die Protokolltransformation ist häufig gerechtfertigt (wird aber auch häufig in ungerechtfertigten Fällen verwendet). y1/8log(y)y
Cliff AB
2
Dies ist eine verwandte Diskussion
user603
5
Sie können AICs zwischen Modellen mit transformierten abhängigen Variablen nicht sinnvoll vergleichen. (Die Transformation der unabhängigen Variablen ist in Ordnung.)
Stephan Kolassa
5
@CliffAB ist richtig. Der wesentliche praktische Unterschied zwischen kleinen positiven Potenzen und dem Logarithmus besteht darin, dass Sie Potenzen von Null nehmen können. Wenn die Daten einige Nullen enthalten (möglicherweise aufgrund der ungenauen Aufzeichnung der Zahlen), kann manchmal eine kleine Potenz (0,1 oder sogar 0,01) als Ersatz für den Logarithmus dienen. (Besser noch: Verwenden Sie die Box-Cox-Transformation für kleine .) Da nur sehr wenige Naturgesetze eine 1/8-Potenz beinhalten und viele exponentielle Phänomene beinhalten, können Sie eine log verwenden bieten manchmal bessere Einsichten und Interpretierbarkeit als eine kleine Macht. y=(xp1)/pp
Whuber
3
Dies ist ein kleines Riff auf der Idee, dass diese Transformation ein Ersatz für Logarithmen sein kann, wenn Nullen auftreten. Eine logarithmische Verknüpfung für verallgemeinerte lineare Modelle besagt, dass die mittleren Antworten exponentiell variieren, jedoch nicht davon ausgehen, dass alle ihre Werte positiv sind. Es toleriert also einige Nullen in den Daten. In etwa bedeutet dies, dass sie positiv sein sollten oder würden, wenn sie könnten: z. B. gemeldete Nullen (Nullproben in der Probe, Nullkonzentrationen je nach Maschine) bedeuten manchmal, dass sie nicht erfasst werden. Trotz seines wunderbaren Namens scheint Box-Cox überverkauft zu sein, wenn es eine natürliche Verbindung in GLMs gibt.
Nick Cox

Antworten:

10

Es ist üblich, Leistungstransformationen (Tukey, Box-Cox) mit beliebigen Werten auf die Antwort anzuwenden. Aus dieser Perspektive sehe ich keine besonderen Bedenken in Bezug auf Ihren Wert von 1/8.

Natürlich ändert jede Transformation die funktionale Beziehung, die Sie anpassen, und es kann sein, dass 1/8 mechanistisch keinen Sinn ergibt, aber das wäre für mich kein Problem, wenn der Zweck nicht darin besteht, Parameter eines physischen Objekts zu extrapolieren oder anzupassen Gesetz, aber um einen richtigen p-Wert für das Vorzeichen des Effekts zu erhalten (ich würde behaupten, das ist der normale Anwendungsfall in einer Regression). Zu diesem Zweck besteht Ihre einzige Sorge darin, dass die Funktion zu den Daten in der Domäne Ihrer Prädiktorwerte passt (bezogen auf Mittelwert und Restabweichung) und dass dies leicht zu überprüfen ist.

Wenn Sie sich über den besten Wert für die Leistungstransformation nicht sicher sind und zwischen verschiedenen Optionen vergleichen möchten, sollten Sie die AIC- / Wahrscheinlichkeitswerte nicht direkt vergleichen, da die Leistungstransformation den Maßstab der Antwort ändert. Glücklicherweise stellt sich heraus, dass es relativ einfach ist, eine Korrektur für die Transformation zu berechnen, sodass verschiedene Transformationen über ihre (korrigierte) Wahrscheinlichkeit verglichen werden können (siehe z . B. hier ).

In R ist dies in MASS :: boxcox implementiert - dies ist eine bequeme Möglichkeit, den richtigen Wert für die Leistung auszuwählen.

Florian Hartig
quelle