Wie robust ist Pearsons Korrelationskoeffizient gegenüber Verletzungen der Normalität?

Daten für bestimmte Arten von Variablen sind in der Regel nicht normal, wenn sie in bestimmten Bevölkerungsgruppen gemessen werden (z. B. Depressionsniveaus bei einer Population von Menschen mit schwerer Depressionsstörung). Wie robust ist die Teststatistik unter Nichtnormalitätsbedingungen, wenn Pearson Normalität annimmt?

Ich habe eine Reihe von Variablen, für die ich Korrelationskoeffizienten haben möchte, aber die Z-Schiefe für einige dieser Variablen ist bei p <0,001 signifikant (und das ist für eine relativ kleine Stichprobe). Ich habe einige Transformationen versucht, aber die Verbesserungen in den Distributionen sind bestenfalls marginal.

Muss ich mich an nicht parametrische Analysen halten? Und das nicht nur für Korrelationen, sondern auch für andere Arten von Analysen?

correlation Archaeopteryx
quelle

Warten Sie, nimmt Pearsons Korrelationskoeffizient Normalität an? Ich glaube nicht, dass dies der Fall ist, und ich habe es für nicht normale Daten verwendet. Es ist einfach nicht robust für einige Dinge, die in einigen nicht normalen Situationen häufiger vorkommen, aber es gibt viele nicht normale Situationen, in denen ich kein Problem mit der Verwendung des Pearson-Korrelationskoeffizienten sehe.

Douglas Zare

Dass Pearsons Korrelation von Normalität ausgeht, wird in vielen Statistiken behauptet. Ich habe an anderer Stelle gehört, dass Normalität für Pearson eine unnötige Annahme ist. Wenn ich die Analysen durchführe, liefern sowohl Pearsons als auch Spearmans relativ ähnliche Ergebnisse.

Archaeopteryx

Der Rangkorrelationskoeffizient nach Spearman ist der Korrelationskoeffizient nach Pearson, der auf die nicht normalen Ränge angewendet wird. Ich weiß immer noch nicht, in welchem Sinne Pearson Ihrer Meinung nach Normalität erfordert. Vielleicht können Sie ein paar zusätzliche Dinge sagen, falls Sie es in einer multivariaten Normalverteilung verwenden.

Douglas Zare

Ich benutze es nur für einfache bivariate Korrelationen. Ich bin nicht sicher, warum behauptet wird, dass Normalität erforderlich ist. Die Statistiken, die ich gelesen habe, listen immer Normalität als Annahme der Pearson-Korrelation auf und raten, Spearmans für Bedingungen zu verwenden, in denen Nicht-Normalität gilt.

Archaeopteryx

Antworten:

Kurze Antwort: Sehr nicht robust. Die Korrelation ist ein Maß für die lineare Abhängigkeit , und wenn eine Variable nicht als lineare Funktion der anderen geschrieben werden kann (und dennoch die angegebene Randverteilung aufweist), können Sie keine perfekte (positive oder negative) Korrelation haben. Tatsächlich können die möglichen Korrelationswerte stark eingeschränkt sein.

Das Problem ist, dass während die Populationskorrelation immer zwischen und , der genaue erreichbare Bereich stark von den Randverteilungen abhängt. Ein schneller Beweis und eine Demonstration: $-1$ $1$

Erreichbarer Korrelationsbereich

Wenn die Verteilungsfunktion und die Randverteilungsfunktionen und , gibt es einige schöne obere und untere Schranken für , genannt Fréchet-Grenzen. Dies sind (Versuche es zu beweisen; es ist nicht sehr schwierig.) $(X,Y)$ $H$ $F$ $G$ $H$

H_{-} (x, y) \leq H (x, y) \leq H_{+} (x, y),

$H_-(x,y) \leq H(x,y) \leq H_+(x,y),$

\begin{aligned} H_{-} (x, y) & = max (F (x) + G (y) - 1, 0) \\ H_{+} (x, y) & = min (F (x), G (y)) . \end{aligned}

$\begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned}$

Die Grenzen sind selbst Verteilungsfunktionen. Lassen Sie eine gleichmäßige Verteilung haben. Die obere Schranke ist die Verteilungsfunktion von und die untere Schranke ist die Verteilungsfunktion von . $U$ $(X,Y)=(F^-(U), G^-(U))$ $(F^-(-U), G^-(1-U))$

Unter Verwendung dieser Variante der Formel für die Kovarianz ist wir sehen, dass wir die maximale und minimale Korrelation erhalten, wenn gleich bzw. ist, dh wenn ist (positiv bzw. negativ) ) monotone Funktion von .

Cov (X, Y) = \iint H (x, y) - F (x) G (y) d x d y,

$\mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y,$

H

$H$

H_{+}

$H_+$

H_{-}

$H_-$

Y

$Y$

X

$X$

Beispiele

Hier einige Beispiele (ohne Beweise):

Wenn und normalverteilt sind, erhalten wir das Maximum und das Minimum, wenn die übliche bivariate Normalverteilung hat, wobei als lineare Funktion von . Das heißt, wir erhalten das Maximum für Hier sind die Grenzen (natürlich) und , egal welche Mittel und Varianzen und haben. $X$ $Y$ $(X,Y)$ $Y$ $X$
$Y = μ_{Y} + σ_{Y} \frac{X - μ_{X}}{σ_{X}} .$ $Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$ $-1$ $1$ $X$ $Y$
Wenn und logarithmische Normalverteilungen haben, ist die Untergrenze niemals erreichbar, da dies bedeuten würde, dass für einige und positive als geschrieben werden könnte und niemals negativ sein kann. Es gibt (leicht hässliche) Formeln für die genauen Grenzen, aber lassen Sie mich nur einen Sonderfall nennen. Wenn und logarithmische Standardverteilungen haben (dh wenn sie sind sie normale Standardverteilungen), beträgt der erreichbare Bereich . (Im Allgemeinen ist auch die Obergrenze eingeschränkt.) $X$ $Y$ $Y$ $Y=a-bX$ $a$ $b$ $Y$ $X$ $Y$ $[-1/e, 1]\approx [-0.37, 1]$
Wenn eine Standardnormalverteilung hat und eine Standardlognormalverteilung hat, sind die Korrelationsgrenzen $X$ $Y$
$\pm \frac{1}{\sqrt{e - 1}} \approx 0.76.$ $\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$

Beachten Sie, dass alle Grenzen für die Populationskorrelation gelten . Die Stichprobenkorrelation kann sich leicht über die Grenzen hinaus erstrecken, insbesondere bei kleinen Stichproben (kurzes Beispiel: Stichprobengröße 2).

Schätzung der Korrelationsgrenzen

Es ist eigentlich recht einfach, die oberen und unteren Grenzen der Korrelation abzuschätzen, wenn Sie anhand der Randverteilungen simulieren können. Für das letzte Beispiel oben können wir diesen R-Code verwenden:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Wenn wir nur tatsächliche Daten haben und die Randverteilungen nicht kennen, können wir trotzdem die obige Methode anwenden. Es ist kein Problem , dass die Variablen abhängig sind, solange die Beobachtungen Paare abhängig sind. Aber es hilft, viele Beobachtungspaare zu haben .

Daten transformieren

Es ist natürlich möglich , die Daten so zu transformieren, dass sie (geringfügig) normalverteilt sind, und dann die Korrelation auf den transformierten Daten zu berechnen. Das Problem ist die Interpretierbarkeit. (Und warum sollte die Normalverteilung anstelle einer anderen Verteilung verwendet werden, bei der eine lineare Funktion von ?) Bei Daten, die bivariant normalverteilt sind, hat die Korrelation eine gute Interpretation (ihr Quadrat ist die Varianz einer Variablen, die durch die andere erklärt wird) ). Dies ist hier nicht der Fall. $Y$ $X$

Was Sie hier wirklich tun, ist, ein neues Maß an Abhängigkeit zu schaffen, das nicht von den Randverteilungen abhängt. Sie erstellen also ein kopula- basiertes Maß für die Abhängigkeit. Es gibt bereits mehrere solcher Maßnahmen, wobei Spearmans  ρ und Kendalls  τ die bekanntesten sind. (Wenn Sie wirklich an Abhängigkeitskonzepten interessiert sind, ist es keine schlechte Idee, Copulas zu untersuchen.)

Abschließend

Ein paar abschließende Gedanken und Ratschläge: Nur die Korrelation zu betrachten, hat ein großes Problem: Es lässt Sie aufhören zu denken. Wenn man dagegen Streudiagramme betrachtet, beginnt man oft zu überlegen. Mein Hauptratschlag wäre daher, die Streudiagramme zu untersuchen und die Abhängigkeit explizit zu modellieren.

Das heißt, wenn Sie ein einfaches korrelationsähnliches Maß benötigen, würde ich nur Spearmans  ρ (und das zugehörige Konfidenzintervall und die zugehörigen Tests) verwenden. Die Reichweite ist nicht eingeschränkt. Seien Sie sich jedoch der nicht-monotonen Abhängigkeit bewusst. Der Wikipedia-Artikel zur Korrelation enthält einige schöne Darstellungen, die mögliche Probleme veranschaulichen.

Karl Ove Hufthammer
quelle

+1 Dieser sehr nette Beitrag spricht mehrere wiederkehrende Probleme im Zusammenhang mit Korrelationen an. Ich schätze besonders die Bemerkungen im ersten abschließenden Absatz über das Anhalten / Beginnen des Denkens.

Whuber

Würde die Nicht-Robustheit auch asymptotisch bleiben? Wenn ja, ist das Wiki falsch, wenn es sagt, dass "[Die t-Verteilung des Schülers für eine einfache Transformation von r] auch ungefähr gilt, selbst wenn die beobachteten Werte nicht normal sind, vorausgesetzt, die Stichprobengrößen sind nicht sehr klein"?

Max.

Wie sehen die Verteilungen dieser Variablen aus (abgesehen davon, dass sie verzerrt sind)? Wenn die einzige Unnormalität die Schiefe ist, muss eine Art Transformation helfen. Wenn diese Variablen jedoch viele Klumpen aufweisen, werden sie durch keine Transformation zur Normalität gebracht. Wenn die Variable nicht stetig ist, gilt dasselbe.

Wie robust ist die Korrelation zu Verstößen? Schauen Sie sich das Anscombe Quartet an. Es zeigt einige Probleme recht gut.

Wie bei anderen Analysetypen hängt es von der Analyse ab. Wenn die verzerrten Variablen beispielsweise unabhängige Variablen in einer Regression sind, liegt möglicherweise überhaupt kein Problem vor - Sie müssen sich die Residuen ansehen.

Peter Flom - Wiedereinsetzung von Monica
quelle

Einige der Variablen haben auch Probleme mit der Kurtosis, aber die Schiefe ist das größte Problem. Ich habe Quadratwurzel- und Protokolltransformationen für die Problemvariablen versucht, aber sie verbessern sich nicht wesentlich. Tatsächlich scheinen die Verteilungen fast genau gleich zu sein, jedoch mit einer größeren Punktzahlanhäufung.

Archaeopteryx

Das scheint sehr seltsam. Können Sie den Mittelwert, den Median, die Schiefe und die Kurtosis der betreffenden Variablen angeben? Oder (noch besser) ein Dichtediagramm davon?

Peter Flom - Wiedereinsetzung von Monica

Unabhängig davon, ob die Verteilung von (X, Y) bivariant normal ist oder nicht, ist die Pearson-Korrelation ein Maß für den Grad der Linearität. Die Wahrscheinlichkeitsverteilung für die Stichprobenschätzung hängt von der Normalität ab.

Michael R. Chernick

Diese Variablen sind nicht sehr schief. Sie können sie so lassen, wie sie sind.

Peter Flom - Wiedereinsetzung von Monica

Kümmere dich hier nicht um die Bedeutung. Typischerweise wird angenommen, dass eine Neigung und eine Kurtosis von <-2 oder> 2 möglicherweise eine Transformation erfordern. Besser noch ist es, sich Diagramme anzusehen, z. B. Quantil-Normalplot und Dichteplot mit Kernel, um zu sehen, was los ist.

Peter Flom - Reinstate Monica