Warum ist Korrelation nicht sehr nützlich, wenn eine der Variablen kategorisch ist?

14

Dies ist ein kleiner Bauchcheck. Bitte helfen Sie mir zu sehen, ob und auf welche Weise ich dieses Konzept missverstehe.

Ich habe ein funktionales Verständnis von Korrelation, aber ich fühle mich ein wenig amüsiert, um die Prinzipien hinter diesem funktionalen Verständnis wirklich sicher zu erklären.

Nach meinem Verständnis ist die statistische Korrelation (im Gegensatz zur allgemeineren Verwendung des Begriffs) ein Weg, um zwei kontinuierliche Variablen zu verstehen und wie sie in ähnlicher Weise steigen oder fallen oder nicht.

Der Grund, warum Sie keine Korrelationen für beispielsweise eine kontinuierliche und eine kategoriale Variable ausführen können, ist, dass es nicht möglich ist, die Kovarianz zwischen den beiden zu berechnen , da die kategoriale Variable per Definition keinen Mittelwert liefern und daher nicht einmal in die erste Variable eintreten kann Schritte der statistischen Analyse.

Ist das richtig?

Toof
quelle
2
Hier sind Vortragsfolien aus einer Klasse, die ich unterrichte, die sich hauptsächlich mit der Korrelation von Populationen (nicht Stichproben) und Kovarianz befasst. People.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor
3
Einfacher Grund, stellen Sie sich vor, Sie fragen die Leute: "Was ist Ihre Lieblingsfarbe?" und sie antworten mit "rot", "grün", "blau", "orange", "gelb", ..., was in Ihrem Datensatz als 1, 2, 3, ... codiert ist. Als nächstes berechnen Sie den Korrelationskoeffizienten zwischen solche Variable mit Arbeitszufriedenheit und erhalten Wert 0,21. Was bedeutet es? Könnten Sie jede sinnvolle Interpretation?
Tim
2
Eng verwandt (vielleicht sogar ein Duplikat?) - Korrelation zwischen einer nominalen (IV) und einer kontinuierlichen (DV) Variablen
Silverfish
@Taylor: Was verwenden wir, wenn beide Variablen stetig / numerisch sind, eine davon jedoch stochastisch ist und die andere nicht, z. B. Stunden im Vergleich zu GPA?
MSIS

Antworten:

16

Die Korrelation ist die standardisierte Kovarianz, dh die Kovarianz von x und y geteilt durch die Standardabweichung von x und y . Lassen Sie mich das veranschaulichen.

Vereinfacht gesagt, können Statistiken zusammengefasst werden, um Modelle an Daten anzupassen und zu bewerten, wie gut das Modell diese Datenpunkte beschreibt ( Ergebnis = Modell + Fehler ). Eine Möglichkeit besteht darin, die Summe der Abweichungen oder Residuen (Res) aus dem Modell zu berechnen:

res=(xix¯)

Viele statistische Berechnungen basieren darauf. der Korrelationskoeffizient (siehe unten).

Hier ist ein Beispieldatensatz aus R(die Residuen werden als rote Linien angezeigt und ihre Werte werden daneben hinzugefügt):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

Bildbeschreibung hier eingeben

X=11Y=5.4SS

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Der Einfachheit halber kann die Quadratwurzel der Stichprobenvarianz genommen werden, die als Stichprobenstandardabweichung bekannt ist:

s=s2=SSn1=(xix¯)2n1

Die Kovarianz bewertet nun, ob zwei Variablen miteinander in Beziehung stehen. Ein positiver Wert zeigt an, dass eine Variable vom Mittelwert abweicht und die andere Variable in dieselbe Richtung abweicht.

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

Bildbeschreibung hier eingeben

Also lange Rede, kurzer Sinn, ja, Ihr Gefühl ist richtig, aber ich hoffe, meine Antwort kann einen Kontext liefern.

Stefan
quelle
1
Das ist super hilfreich - beim Versuch, mein eigenes Verständnis zu vertiefen, denke ich, dass ich es nicht so gut verstehe, wie ich dachte, wenn ich es jemandem ohne statistischen Hintergrund nicht ausreichend erklären kann.
Toof
8

Sie haben (fast) recht. Die Kovarianz (und damit auch die Korrelation) kann nur zwischen numerischen Variablen berechnet werden. Dazu gehören kontinuierliche Variablen, aber auch diskrete numerische Variablen.

Kategoriale Variablen könnten verwendet werden, um die Korrelation zu berechnen, wenn ihnen nur ein nützlicher numerischer Code zur Verfügung steht. Dies wird jedoch wahrscheinlich keinen praktischen Vorteil bringen - möglicherweise ist dies für einige kategoriale Variablen mit zwei Ebenen hilfreich, andere Tools sind jedoch geeigneter.

Pere
quelle
Der Pearson-Produktmoment-Korrelationskoeffizient gibt den Grad einer linearen Beziehung zwischen den beiden Variablen an. Nichtparametrische Maße wie Spearmans Rho oder Kendalls Tau kennzeichnen die Tendenz, dass X und Y zusammen zunehmen oder abnehmen (verhalten sich in gewissem Maße wie eine monotone Beziehung, die nicht unbedingt linear sein muss.
Michael R. Chernick
@Pere: Was verwenden wir, wenn wir zwei stetige Variablen haben, von denen jedoch nur eine stochastisch ist, z. B. trainierte Stunden vs. Gewicht?
MSIS
1
@MSIS - Das sollte eine andere Frage sein, aber die Korrelation kann verwendet werden, auch wenn eine Variable nicht zufällig ist.
Pere
1
@Pere: Ich habe gefragt, ob Sie interessiert sind: stats.stackexchange.com/questions/435257/…
MSIS
3

Es ist absolut nichts falsch daran, Korrelationen zu berechnen, bei denen eine der Variablen kategorisch ist. Eine starke positive Korrelation würde bedeuten, dass das Aktivieren (oder Deaktivieren) Ihrer kategorialen Variablen zu einer Erhöhung der Antwort führt. Dies kann beispielsweise bei der Berechnung einer logistischen Regression auftreten, bei der Variablen kategorisch sind: Vorhersagen der Wahrscheinlichkeit eines Herzinfarkts bei Komorbiditäten von Patienten wie Diabetes und bmi. In diesem Fall hätte der BMI eine sehr starke Korrelation mit Herzinfarkten. Würden Sie daraus schließen, dass das nicht nützlich ist?

Alex R.
quelle