Es gibt zwei Boolesche Vektoren, die nur 0 und 1 enthalten. Wenn ich die Pearson- oder Spearman-Korrelation berechne, sind sie sinnvoll oder vernünftig?
correlation
binary-data
pearson-r
spearman-rho
Zhilong Jia
quelle
quelle
Antworten:
Die Pearson und Spearman Korrelation definiert sind, solange Sie einige haben0 s und einige 1 s für beide von zwei binären Variablen, sagen y und X . Es ist einfach, eine gute qualitative Vorstellung davon zu bekommen, was sie bedeuten, wenn man sich ein Streudiagramm der beiden Variablen überlegt. Natürlich gibt es nur vier Möglichkeiten ( 0 , 0 ) , ( 0 , 1 ) , ( 1 , 0 ) , ( 1 , 1 ) (Daher ist es eine gute Idee, zu zittern, um identische Punkte für die Visualisierung auseinander zu rütteln.) Beispielsweise ist in jeder Situation, in der die beiden Vektoren identisch sind, vorbehaltlich einiger Nullen und einiger Einsen, per Definition y= x und die Korrelation ist notwendigerweise 1 . Ebenso ist es möglich, dass y= 1 - x und dann die Korrelation - 1 .
quelle
Es gibt spezielle Ähnlichkeitsmetriken für binäre Vektoren, wie zum Beispiel:
usw.
Einzelheiten finden Sie hier .
quelle
Ich würde nicht empfehlen, den Pearson-Korrelationskoeffizienten für binäre Daten zu verwenden, siehe das folgende Gegenbeispiel:
in den meisten Fällen geben beide eine 1
aber die Korrelation zeigt dies nicht
Ein binäres Ähnlichkeitsmaß wie der Jaccard-Index zeigt jedoch eine viel höhere Assoziation:
Warum ist das? Sehen Sie hier die einfache bivariate Regression
Grafik unten (kleines Rauschen hinzugefügt, um die Anzahl der Punkte deutlicher zu machen)
quelle