Gibt es irgendeinen Grund dafür, die Daten mit einer Quadratwurzel zu transformieren? Ich meine, was ich immer beobachte, ist, dass die R ^ 2 zunimmt. Aber das liegt wahrscheinlich nur an der Zentrierung der Daten! Jeder Gedanke wird geschätzt!
regression
data-transformation
variance-stabilizing
MarkDollar
quelle
quelle
Antworten:
Im Allgemeinen nimmt die parametrische Regression / GLM die Beziehung zwischen der Variablen und jedem X anY X Variablen linear ist, dass die Residuen nach dem Anpassen des Modells einer Normalverteilung folgen und dass die Größe der Residuen in etwa gleich bleibt entlang Ihrer angepassten Linie (n). Wenn Ihre Daten diesen Annahmen nicht entsprechen, können Transformationen hilfreich sein.
Wie Dmitrij und Ocram sagen, ist dies nur eine mögliche Transformation, die unter bestimmten Umständen hilfreich ist. Tools wie die Box-Cox-Formel können Ihnen dabei helfen, die nützlichste auszuwählen. Ich würde empfehlen, sich daran zu gewöhnen, immer ein Diagramm von Residuen mit angepassten Werten (und auch ein Diagramm mit normaler Wahrscheinlichkeit oder ein Histogramm von Residuen) zu betrachten, wenn Sie ein Modell anpassen. Sie werden feststellen, dass Sie am Ende oft sehen können, welche Art von Transformation hilfreich ist.
quelle
Allerdings könnte (und ist) dieser a priori festgelegte Wert nicht optimal sein. In R können Sie eine Funktion aus der
car
Bibliothek in Betracht ziehenpowerTransform
, mit deren Hilfe Sie einen optimalen Wert für Box-Cox-Transformationen für jede der an der linearen Regression beteiligten Variablen oder für alle Daten, mit denen Sie arbeiten, abschätzen können (example(powerTransform)
weitere Details siehe ).quelle
Wenn die Variable einer Poisson-Verteilung folgt, sind die Ergebnisse der Quadratwurzel-Transformation viel näher an Gauß.
quelle
Manchmal wird empfohlen, die Quadratwurzel zu ziehen, um eine nicht normale Variable wie eine normale Variable in Regressionsproblemen erscheinen zu lassen. Der Logarithmus ist eine weitere häufig vorkommende mögliche Transformation.
quelle
Mit Bray-Curtis berechnete Distanzmatrizen sind normalerweise für einige Daten nicht metrisch, was zu negativen Eigenwerten führt. Eine der Lösungen, um dieses Problem zu überwinden, besteht darin, es zu transformieren (logarithmisch, Quadratwurzel oder doppelte Quadratwurzel).
quelle