Was ist ein sinnvolles "Korrelations" -Maß, um die Beziehung zwischen diesen beiden Variablentypen zu untersuchen?
Wie geht das in R?
Was ist ein sinnvolles "Korrelations" -Maß, um die Beziehung zwischen diesen beiden Variablentypen zu untersuchen?
Wie geht das in R?
X <- sample(c(0,1),replace=TRUE,size=100)
(2)Y <- X + rnorm(100,0.5)
(3)corr(Y,X)
(4)X <- 1 + 10*X
(5)corr(X,Y)
: gleiche Ergebnisse für beide Korrelationen!Antworten:
Lassen Sie uns für einen Moment das kontinuierliche / diskrete Problem ignorieren. Grundsätzlich misst die Korrelation die Stärke der linearen Beziehung zwischen Variablen, und Sie scheinen nach einer alternativen Methode zur Messung der Stärke der Beziehung zu fragen. Vielleicht interessieren Sie sich für einige Ideen aus der Informationstheorie . Insbesondere denke ich, dass Sie sich gegenseitige Informationen ansehen möchten . Gegenseitige Informationen geben Ihnen im Wesentlichen die Möglichkeit zu quantifizieren, wie viel Wissen über den Zustand einer Variablen über die andere Variable aussagt. Ich denke tatsächlich, dass diese Definition eher dem entspricht, was die meisten Leute meinen, wenn sie über Korrelation nachdenken.
Für zwei diskrete Variablen X und Y lautet die Berechnung wie folgt:
Für zwei stetige Variablen integrieren wir statt der Summe:
Ihr spezieller Anwendungsfall ist für eine diskrete und eine kontinuierliche. Anstatt über eine Summe zu integrieren oder über ein Integral zu summieren, stelle ich mir vor, es wäre einfacher, eine der Variablen in den anderen Typ zu konvertieren. Ein typischer Weg, dies zu tun, besteht darin, Ihre kontinuierliche Variable in diskrete Bins zu diskretisieren .
Es gibt eine Reihe von Möglichkeiten, Daten zu diskriminieren (z. B. gleiche Intervalle), und ich glaube, das Entropiepaket sollte für die MI-Berechnungen hilfreich sein, wenn Sie R verwenden möchten.
quelle
Wenn die kategoriale Variable ordinal ist und Sie die kontinuierliche Variable in einige Frequenzintervalle unterteilen, können Sie Gamma verwenden. Für gepaarte Daten in Ordnungsform sind auch Kendals Tau, Stuarts Tau und Somers D verfügbar. Diese sind alle in SAS unter Verwendung von Proc Freq verfügbar. Ich weiß nicht, wie sie mit R-Routinen berechnet werden. Hier ist ein Link zu einer Präsentation mit detaillierten Informationen: http://faculty.unlv.edu/cstream/ppts/QM722/measuresofassociation.ppt#260,5,Measures of Association for Nominal and Ordinal Variables
quelle
Eine kategoriale Variable ist praktisch nur eine Menge von Indikatorvariablen. Es ist eine Grundidee der Messtheorie, dass eine solche Variable für die Neuetikettierung der Kategorien nicht relevant ist. Daher ist es nicht sinnvoll, die numerische Kennzeichnung der Kategorien in einem Maß für die Beziehung zwischen einer anderen Variablen zu verwenden (z. B. „Korrelation“). . Aus diesem Grund sollte ein Maß für die Beziehung zwischen einer kontinuierlichen Variablen und einer kategorialen Variablen vollständig auf den Indikatorvariablen basieren, die von letzteren abgeleitet sind.
Da Sie ein Maß für die 'Korrelation' zwischen den beiden Variablen wünschen, ist es sinnvoll, die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen I zu betrachten, die von einer kategorialen Variablen abgeleitet wurde. Wenn wir ϕ ≡ P ( I = 1 ) lassen , haben wir:X I ϕ≡P(I=1)
was gibt:
Die Korrelation zwischen einer stetigen Zufallsvariablen und einer Indikator-Zufallsvariablen I ist also eine relativ einfache Funktion der Indikatorwahrscheinlichkeit ϕ und der normierten Zunahme des Erwartungswerts von X aus der Konditionierung auf I = 1 . Es ist zu beachten, dass diese Korrelation keine Diskretisierung der kontinuierlichen Zufallsvariablen erfordert.X I ϕ X I=1
quelle
Das R-Paket mpmi kann gegenseitige Informationen für den gemischten variablen Fall berechnen, und zwar kontinuierlich und diskret. Obwohl andere statistische Optionen wie der (punkt-) biseriale Korrelationskoeffizient von Nutzen sind, wäre es vorteilhaft und sehr empfehlenswert, die gegenseitige Information zu berechnen, da sie andere Assoziationen als linear und monoton erkennen kann.
quelle
ObX ist eine stetige Zufallsvariable und Y. ist eine kategorische rv. die beobachtete Korrelation zwischenX und Y. kann gemessen werden mit
Es sollte jedoch beachtet werden, dass die Punkt-Polyserial-Korrelation nur eine Verallgemeinerung des Punkt-Biserial ist.
Für eine breitere Sicht ist hier eine Tabelle von Olsson, Drasgow & Dorans (1982) [1].
[1]: Quelle: Olsson, U., Drasgow, F. & Dorans, NJ (1982). Der polyserielle Korrelationskoeffizient. Psychometrika, 47 (3), 337–347
quelle