Wie untersuche ich die „Korrelation“ zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen?

19

Was ist ein sinnvolles "Korrelations" -Maß, um die Beziehung zwischen diesen beiden Variablentypen zu untersuchen?

Wie geht das in R?

r correlation categorical-data association-measure Luna
quelle

1

Bevor Sie "Wie lernen Sie?" fragen, sollten Sie die Antwort auf "Wie definieren Sie?" haben :-) Übrigens, wenn Sie die kategoriale Variable auf ganzzahlige Zahlen projizieren, können Sie bereits eine Korrelation durchführen.

Neugierig

2

@Tomas, wenn du das tust, hängt die geschätzte Stärke der Beziehung davon ab, wie du dich entschieden hast, die Punkte

Makro

@Macro, Sie haben Recht - ein weiteres Argument für eine gute Definition!

Neugierig

@Macro Es sei denn, ich habe deinen Standpunkt falsch verstanden, nein. Die Korrelation ist unempfindlich gegenüber linearen Transformationen. Also cor (X, Y) = cor (a + bX, Y) für endlich a und b. Die Umbenennung von 0/1 als 1/11 hat keine Auswirkung auf die Korrelationen, die diese Variable oder ihre lineare Transformation verwenden.

Alexis

@Curious siehe mein Kommentar zu Macro oben. Und beachten Sie: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): gleiche Ergebnisse für beide Korrelationen!

Alexis

19

Lassen Sie uns für einen Moment das kontinuierliche / diskrete Problem ignorieren. Grundsätzlich misst die Korrelation die Stärke der linearen Beziehung zwischen Variablen, und Sie scheinen nach einer alternativen Methode zur Messung der Stärke der Beziehung zu fragen. Vielleicht interessieren Sie sich für einige Ideen aus der Informationstheorie . Insbesondere denke ich, dass Sie sich gegenseitige Informationen ansehen möchten . Gegenseitige Informationen geben Ihnen im Wesentlichen die Möglichkeit zu quantifizieren, wie viel Wissen über den Zustand einer Variablen über die andere Variable aussagt. Ich denke tatsächlich, dass diese Definition eher dem entspricht, was die meisten Leute meinen, wenn sie über Korrelation nachdenken.

Für zwei diskrete Variablen X und Y lautet die Berechnung wie folgt:

I (X; Y) = \sum_{y \in Y} \sum_{x \in X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)})

$I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }$

Für zwei stetige Variablen integrieren wir statt der Summe:

I (X; Y) = \int_{Y} \int_{X} p (x, y) \log (\frac{p (x, y)}{p (x) p (y)}) d x d y

$I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy$

Ihr spezieller Anwendungsfall ist für eine diskrete und eine kontinuierliche. Anstatt über eine Summe zu integrieren oder über ein Integral zu summieren, stelle ich mir vor, es wäre einfacher, eine der Variablen in den anderen Typ zu konvertieren. Ein typischer Weg, dies zu tun, besteht darin, Ihre kontinuierliche Variable in diskrete Bins zu diskretisieren .

Es gibt eine Reihe von Möglichkeiten, Daten zu diskriminieren (z. B. gleiche Intervalle), und ich glaube, das Entropiepaket sollte für die MI-Berechnungen hilfreich sein, wenn Sie R verwenden möchten.

Michael McGowan
quelle

1

Vielen Dank. Aber wie hoch ist ein MI, der korr = 1 entspricht, und wie niedrig ist ein MI, der korr = 0 entspricht?

Luna,

MI hat ein Minimum von 0 und MI = 0, wenn und nur wenn die Variablen unabhängig sind. MI hat jedoch keine konstante Obergrenze (die Obergrenze bezieht sich auf die Entropien der Variablen). Wenn dies für Sie wichtig ist, sollten Sie sich eine der normalisierten Versionen ansehen.

Michael McGowan

6

Wenn die kategoriale Variable ordinal ist und Sie die kontinuierliche Variable in einige Frequenzintervalle unterteilen, können Sie Gamma verwenden. Für gepaarte Daten in Ordnungsform sind auch Kendals Tau, Stuarts Tau und Somers D verfügbar. Diese sind alle in SAS unter Verwendung von Proc Freq verfügbar. Ich weiß nicht, wie sie mit R-Routinen berechnet werden. Hier ist ein Link zu einer Präsentation mit detaillierten Informationen: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures of Association for Nominal and Ordinal Variables

Michael R. Chernick
quelle

1

Eine kategoriale Variable ist praktisch nur eine Menge von Indikatorvariablen. Es ist eine Grundidee der Messtheorie, dass eine solche Variable für die Neuetikettierung der Kategorien nicht relevant ist. Daher ist es nicht sinnvoll, die numerische Kennzeichnung der Kategorien in einem Maß für die Beziehung zwischen einer anderen Variablen zu verwenden (z. B. „Korrelation“). . Aus diesem Grund sollte ein Maß für die Beziehung zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen vollständig auf den Indikatorvariablen basieren, die von letzteren abgeleitet sind.

Da Sie ein Maß für die 'Korrelation' zwischen den beiden Variablen wünschen, ist es sinnvoll, die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen die von einer kategorialen Variablen abgeleitet wurde. Wenn wir , haben wir: $X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

was gibt:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen ist also eine relativ einfache Funktion der Indikatorwahrscheinlichkeit und der normierten Zunahme des Erwartungswerts von aus der Konditionierung auf . Es ist zu beachten, dass diese Korrelation keine Diskretisierung der kontinuierlichen Zufallsvariablen erfordert. $X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

Setzen Sie Monica wieder ein
quelle

0

Das R-Paket mpmi kann gegenseitige Informationen für den gemischten variablen Fall berechnen, und zwar kontinuierlich und diskret. Obwohl andere statistische Optionen wie der (punkt-) biseriale Korrelationskoeffizient von Nutzen sind, wäre es vorteilhaft und sehr empfehlenswert, die gegenseitige Information zu berechnen, da sie andere Assoziationen als linear und monoton erkennen kann.

siyisoy
quelle

0

Ob $X$ ist eine stetige Zufallsvariable und $Y$ ist eine kategorische rv. die beobachtete Korrelation zwischen $X$ und $Y$ kann gemessen werden mit

der Punkt-Biserial-Korrelationskoeffizient , wenn $Y$ ist dichotom;
der punktpolyserielle Korrelationskoeffizient , wenn $Y$ ist polychotom mit ordinalen Kategorien.

Es sollte jedoch beachtet werden, dass die Punkt-Polyserial-Korrelation nur eine Verallgemeinerung des Punkt-Biserial ist.

Für eine breitere Sicht ist hier eine Tabelle von Olsson, Drasgow & Dorans (1982) [1].

[1]: Quelle: Olsson, U., Drasgow, F. & Dorans, NJ (1982). Der polyserielle Korrelationskoeffizient. Psychometrika, 47 (3), 337–347

Waldir Leoncio
quelle

Wie untersuche ich die „Korrelation“ zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen?

Antworten: