Daten für bestimmte Arten von Variablen sind in der Regel nicht normal, wenn sie in bestimmten Bevölkerungsgruppen gemessen werden (z. B. Depressionsniveaus bei einer Population von Menschen mit schwerer Depressionsstörung). Wie robust ist die Teststatistik unter Nichtnormalitätsbedingungen, wenn Pearson Normalität annimmt?
Ich habe eine Reihe von Variablen, für die ich Korrelationskoeffizienten haben möchte, aber die Z-Schiefe für einige dieser Variablen ist bei p <0,001 signifikant (und das ist für eine relativ kleine Stichprobe). Ich habe einige Transformationen versucht, aber die Verbesserungen in den Distributionen sind bestenfalls marginal.
Muss ich mich an nicht parametrische Analysen halten? Und das nicht nur für Korrelationen, sondern auch für andere Arten von Analysen?
quelle
Antworten:
Kurze Antwort: Sehr nicht robust. Die Korrelation ist ein Maß für die lineare Abhängigkeit , und wenn eine Variable nicht als lineare Funktion der anderen geschrieben werden kann (und dennoch die angegebene Randverteilung aufweist), können Sie keine perfekte (positive oder negative) Korrelation haben. Tatsächlich können die möglichen Korrelationswerte stark eingeschränkt sein.
Das Problem ist, dass während die Populationskorrelation immer zwischen und , der genaue erreichbare Bereich stark von den Randverteilungen abhängt. Ein schneller Beweis und eine Demonstration:1- 1 1
Erreichbarer Korrelationsbereich
Wenn die Verteilungsfunktion und die Randverteilungsfunktionen und , gibt es einige schöne obere und untere Schranken für , genannt Fréchet-Grenzen. Dies sind (Versuche es zu beweisen; es ist nicht sehr schwierig.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y) H F G H
Die Grenzen sind selbst Verteilungsfunktionen. Lassen Sie eine gleichmäßige Verteilung haben. Die obere Schranke ist die Verteilungsfunktion von und die untere Schranke ist die Verteilungsfunktion von .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U ( X, Y) = ( F-( U) , G-( U) ) ( F-( - U) , G-( 1 - U) )
Unter Verwendung dieser Variante der Formel für die Kovarianz ist wir sehen, dass wir die maximale und minimale Korrelation erhalten, wenn gleich bzw. ist, dh wenn ist (positiv bzw. negativ) ) monotone Funktion von .H H + H - Y X
Beispiele
Hier einige Beispiele (ohne Beweise):
Wenn und normalverteilt sind, erhalten wir das Maximum und das Minimum, wenn die übliche bivariate Normalverteilung hat, wobei als lineare Funktion von . Das heißt, wir erhalten das Maximum für Hier sind die Grenzen (natürlich) und , egal welche Mittel und Varianzen und haben.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XX Y. ( X, Y) Y. X -11XY
Wenn und logarithmische Normalverteilungen haben, ist die Untergrenze niemals erreichbar, da dies bedeuten würde, dass für einige und positive als geschrieben werden könnte und niemals negativ sein kann. Es gibt (leicht hässliche) Formeln für die genauen Grenzen, aber lassen Sie mich nur einen Sonderfall nennen. Wenn und logarithmische Standardverteilungen haben (dh wenn sie sind sie normale Standardverteilungen), beträgt der erreichbare Bereich . (Im Allgemeinen ist auch die Obergrenze eingeschränkt.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]X Y. Y. Y.= a - b X ein b Y X Y [−1/e,1]≈[−0.37,1]
Wenn eine Standardnormalverteilung hat und eine Standardlognormalverteilung hat, sind die Korrelationsgrenzen Y ± 1X Y
Beachten Sie, dass alle Grenzen für die Populationskorrelation gelten . Die Stichprobenkorrelation kann sich leicht über die Grenzen hinaus erstrecken, insbesondere bei kleinen Stichproben (kurzes Beispiel: Stichprobengröße 2).
Schätzung der Korrelationsgrenzen
Es ist eigentlich recht einfach, die oberen und unteren Grenzen der Korrelation abzuschätzen, wenn Sie anhand der Randverteilungen simulieren können. Für das letzte Beispiel oben können wir diesen R-Code verwenden:
Wenn wir nur tatsächliche Daten haben und die Randverteilungen nicht kennen, können wir trotzdem die obige Methode anwenden. Es ist kein Problem , dass die Variablen abhängig sind, solange die Beobachtungen Paare abhängig sind. Aber es hilft, viele Beobachtungspaare zu haben .
Daten transformieren
Es ist natürlich möglich , die Daten so zu transformieren, dass sie (geringfügig) normalverteilt sind, und dann die Korrelation auf den transformierten Daten zu berechnen. Das Problem ist die Interpretierbarkeit. (Und warum sollte die Normalverteilung anstelle einer anderen Verteilung verwendet werden, bei der eine lineare Funktion von ?) Bei Daten, die bivariant normalverteilt sind, hat die Korrelation eine gute Interpretation (ihr Quadrat ist die Varianz einer Variablen, die durch die andere erklärt wird) ). Dies ist hier nicht der Fall.XY X
Was Sie hier wirklich tun, ist, ein neues Maß an Abhängigkeit zu schaffen, das nicht von den Randverteilungen abhängt. Sie erstellen also ein kopula- basiertes Maß für die Abhängigkeit. Es gibt bereits mehrere solcher Maßnahmen, wobei Spearmans ρ und Kendalls τ die bekanntesten sind. (Wenn Sie wirklich an Abhängigkeitskonzepten interessiert sind, ist es keine schlechte Idee, Copulas zu untersuchen.)
Abschließend
Ein paar abschließende Gedanken und Ratschläge: Nur die Korrelation zu betrachten, hat ein großes Problem: Es lässt Sie aufhören zu denken. Wenn man dagegen Streudiagramme betrachtet, beginnt man oft zu überlegen. Mein Hauptratschlag wäre daher, die Streudiagramme zu untersuchen und die Abhängigkeit explizit zu modellieren.
Das heißt, wenn Sie ein einfaches korrelationsähnliches Maß benötigen, würde ich nur Spearmans ρ (und das zugehörige Konfidenzintervall und die zugehörigen Tests) verwenden. Die Reichweite ist nicht eingeschränkt. Seien Sie sich jedoch der nicht-monotonen Abhängigkeit bewusst. Der Wikipedia-Artikel zur Korrelation enthält einige schöne Darstellungen, die mögliche Probleme veranschaulichen.
quelle
Wie sehen die Verteilungen dieser Variablen aus (abgesehen davon, dass sie verzerrt sind)? Wenn die einzige Unnormalität die Schiefe ist, muss eine Art Transformation helfen. Wenn diese Variablen jedoch viele Klumpen aufweisen, werden sie durch keine Transformation zur Normalität gebracht. Wenn die Variable nicht stetig ist, gilt dasselbe.
Wie robust ist die Korrelation zu Verstößen? Schauen Sie sich das Anscombe Quartet an. Es zeigt einige Probleme recht gut.
Wie bei anderen Analysetypen hängt es von der Analyse ab. Wenn die verzerrten Variablen beispielsweise unabhängige Variablen in einer Regression sind, liegt möglicherweise überhaupt kein Problem vor - Sie müssen sich die Residuen ansehen.
quelle