Was könnte der Grund für die Verwendung der Quadratwurzel-Transformation für Daten sein?

15

Gibt es irgendeinen Grund dafür, die Daten mit einer Quadratwurzel zu transformieren? Ich meine, was ich immer beobachte, ist, dass die R ^ 2 zunimmt. Aber das liegt wahrscheinlich nur an der Zentrierung der Daten! Jeder Gedanke wird geschätzt!

MarkDollar
quelle
Ich habe diese Frage und die allgemeinere Frage hier beantwortet
stats.stackexchange.com/questions/18844/…
3
Wenn die abhängige Variable unterschiedlich ist, können die R-Quadrate nicht verglichen werden.

Antworten:

13

Im Allgemeinen nimmt die parametrische Regression / GLM die Beziehung zwischen der Variablen und jedem X anYX Variablen linear ist, dass die Residuen nach dem Anpassen des Modells einer Normalverteilung folgen und dass die Größe der Residuen in etwa gleich bleibt entlang Ihrer angepassten Linie (n). Wenn Ihre Daten diesen Annahmen nicht entsprechen, können Transformationen hilfreich sein.

YX2YR2YXXX Werten in Richtung der Linie werden. (Dies ist eine mentale Abkürzung, keine richtige Mathematik!)

Wie Dmitrij und Ocram sagen, ist dies nur eine mögliche Transformation, die unter bestimmten Umständen hilfreich ist. Tools wie die Box-Cox-Formel können Ihnen dabei helfen, die nützlichste auszuwählen. Ich würde empfehlen, sich daran zu gewöhnen, immer ein Diagramm von Residuen mit angepassten Werten (und auch ein Diagramm mit normaler Wahrscheinlichkeit oder ein Histogramm von Residuen) zu betrachten, wenn Sie ein Modell anpassen. Sie werden feststellen, dass Sie am Ende oft sehen können, welche Art von Transformation hilfreich ist.

Freya Harrison
quelle
Hey danke! Ich kenne die Boxcox-Funktion, habe mich aber gefragt, aus welchen praktischen Gründen die sqrt-Transformation sinnvoll ist! Vielen Dank!
MarkDollar
1
Wenn die Varianz der Fehler linear mit dem Niveau der Reihe zusammenhängt, wird eine logarithmische Transformation durchgeführt. Wenn die Standardabweichung linear mit dem Niveau der Reihe zusammenhängt, nimmt man eine Quadratwurzeltransformation vor. Die Auswahl hat nichts mit der Größe der Residuen zu tun, da sie sich auf das Niveau von y bezieht und alles mit dem Koppeln / Entkoppeln des ersten und zweiten Moments.
IrishStat
1
Freya, +1 für geistige Abkürzung >> richtige Mathematik. Ist diese Intuition auch ein Grund für die Verwendung von L.5-Metriken für das Clustering ?
Denis
Hallo Denis, ich fürchte, ich weiß nichts über Clustering.
Freya Harrison
10

λ=0.5

yN(Xβ,σ2In) .

Allerdings könnte (und ist) dieser a priori festgelegte Wert nicht optimal sein. In R können Sie eine Funktion aus der carBibliothek in Betracht ziehen powerTransform, mit deren Hilfe Sie einen optimalen Wert für Box-Cox-Transformationen für jede der an der linearen Regression beteiligten Variablen oder für alle Daten, mit denen Sie arbeiten, abschätzen können ( example(powerTransform)weitere Details siehe ).

Dmitrij Celov
quelle
5

Wenn die Variable einer Poisson-Verteilung folgt, sind die Ergebnisse der Quadratwurzel-Transformation viel näher an Gauß.

Harvey Motulsky
quelle
Könnten Sie einige Argumente für diese Behauptung anführen?
utdiscant
Es hilft nicht wirklich viel für die individuelle Verteilung mit einem bestimmten Wert des Parameters, aber es macht die Verteilungsfamilie, die erhalten wird, wenn der Parameter variiert, näher an einer normalen Familie mit konstanter Varianz
kjetil b halvorsen
3

Manchmal wird empfohlen, die Quadratwurzel zu ziehen, um eine nicht normale Variable wie eine normale Variable in Regressionsproblemen erscheinen zu lassen. Der Logarithmus ist eine weitere häufig vorkommende mögliche Transformation.

Ocram
quelle
0

Mit Bray-Curtis berechnete Distanzmatrizen sind normalerweise für einige Daten nicht metrisch, was zu negativen Eigenwerten führt. Eine der Lösungen, um dieses Problem zu überwinden, besteht darin, es zu transformieren (logarithmisch, Quadratwurzel oder doppelte Quadratwurzel).

Ahmed Nur Osman
quelle