Korrelation vor oder nach der Protokolltransformation von Variablen

9

Gibt es ein allgemeines Prinzip, ob die Pearson-Korrelation für zwei Zufallsvariablen X und Y vor oder nach ihrer Log-Transformation berechnet werden sollte? Gibt es ein geeigneteres Testverfahren? Sie ergeben ähnliche, aber unterschiedliche Werte, da die logarithmische Transformation nicht linear ist. Kommt es darauf an, ob X oder Y nach dem Log näher an der Normalität liegen? Wenn ja, warum ist das wichtig? Und bedeutet das, dass man einen Normalitätstest für X und Y gegenüber log (X) und log (Y) durchführen und auf dieser Grundlage entscheiden sollte, ob Pearson (x, y) geeigneter ist als Pearson (log (x), log () y))?

user9097
quelle
@vinux hat eine nette Antwort und bietet einen informativen Link zum Verständnis der Rolle der Normalität bei der Korrelation. Ich wollte nur auf diese Frage hinweisen : stats.stackexchange.com/questions/298, die sehr gut ist, um zu verstehen, was Protokolle bei der Regression tun.
Gung - Reinstate Monica

Antworten:

5

Da und monotone Transformationen der Daten und , können Sie auch die Spearman-Rangkorrelation ( ) verwenden und sich keine Gedanken über die Transformation Ihrer Daten machen, da SieLog(X.)Log(Y.)X.Y.ρS.ρS.(X.,Y.)=ρS.(Log(X.),Log(Y.))

Kavka
quelle
4

Die Korrelation (Pearson) misst eine lineare Beziehung zwischen zwei kontinuierlichen Variablen. Es gibt keine solche Wahl für (X, Y) oder (log X, log Y). Das Streudiagramm der Variablen kann zum Verständnis der Beziehung verwendet werden.

Der folgende Link kann in Bezug auf Normalitätsprobleme antworten. Verknüpfung

vinux
quelle
-3

Die Pearson-Korrelation dient zum parametrischen Testen und ist leistungsfähiger als der nicht-parametrische Test. Daher entscheiden wir uns für die Verwendung der Transformation vor nichtparametrischen Prozeduren. Transformieren Sie Ihre Daten und erhalten Sie die Korrelation der Pearsons. Das ist es.

abi
quelle
@ abi: Abhängig von der Stichprobengröße sind die Koeffizienten von Spearman und Kendall in Bezug auf Leistung und MSE denen von Pearson mit normalverteilten Daten relativ ähnlich und selbst bei geringfügiger Datenverunreinigung weit überlegen.
Patrick