Beziehung zwischen den Korrelationskoeffizienten phi, Matthews und Pearson

13

Sind die Phi- und Matthews-Korrelationskoeffizienten dasselbe Konzept? In welcher Beziehung stehen sie zum Pearson-Korrelationskoeffizienten für zwei Binärvariablen oder entsprechen diesen? Ich gehe davon aus, dass die Binärwerte 0 und 1 sind.


Die Pearson-Korrelation zwischen zwei Bernoulli-Zufallsvariablen und y ist:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

wo

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Phi-Koeffizient aus Wikipedia:

In der Statistik ist der Phi-Koeffizient (auch als "mittlerer quadratischer Kontingenzkoeffizient" bezeichnet und mit oder r ϕ bezeichnet ) ein Maß für die Assoziation zweier binärer Variablen, die von Karl Pearson eingeführt wurden. Dieses Maß ähnelt in seiner Interpretation dem Pearson-Korrelationskoeffizienten. Tatsächlich gibt ein Pearson-Korrelationskoeffizient, der für zwei binäre Variablen geschätzt wird, den Phi-Koeffizienten zurück ...ϕrϕ

Wenn wir eine 2 × 2-Tabelle für zwei Zufallsvariablen und y habenxy

Bildbeschreibung hier eingeben

Der Phi-Koeffizient, der die Assoziation von und y beschreibt, ist ϕ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

Matthews Korrelationskoeffizient aus Wikipedia:

Der Matthews-Korrelationskoeffizient (MCC) kann direkt aus der Verwirrungsmatrix unter Verwendung der Formel berechnet werden:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

In dieser Gleichung ist TP die Anzahl wahrer Positive, TN die Anzahl wahrer Negative, FP die Anzahl falsch positiver und FN die Anzahl falsch negativer. Wenn eine der vier Summen im Nenner Null ist, kann der Nenner willkürlich auf Eins gesetzt werden. Dies ergibt einen Matthews-Korrelationskoeffizienten von Null, der als korrekter Grenzwert gezeigt werden kann.

Tim
quelle

Antworten:

14

Ja, sie sind gleich. Der Matthews-Korrelationskoeffizient ist nur eine spezielle Anwendung des Pearson-Korrelationskoeffizienten auf eine Konfusionstabelle.

Eine Kontingenztabelle ist nur eine Zusammenfassung der zugrunde liegenden Daten. Sie können sie von den in der Kontingenztabelle angezeigten Zählwerten in eine Zeile pro Beobachtung zurückkonvertieren.

Betrachten Sie die im Wikipedia-Artikel verwendete Beispiel-Verwirrungsmatrix mit 5 echten Positiven, 17 echten Negativen, 2 falschen Positiven und 3 falschen Negativen

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
quelle
Danke, Peter! Mathematisch gesehen, warum sind phi und Mathew für zwei binäre Zufallsvariablen gleichbedeutend mit Pearson?
Tim
Wenn Sie die Definition der Pearson-Korrelation so manipulieren, dass sie sich eher auf die Anzahl als auf die Summe der Unterschiede zwischen einzelnen Beobachtungen und den Mitteln bezieht, erhalten Sie die Matthews-Formel. Ich habe das eigentlich nicht gemacht, aber es muss einigermaßen einfach sein.
Peter Ellis
2

E[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

ρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
Ryan tt
quelle