Korrelation zwischen kontinuierlichen Daten und Zähldaten

9

Angenommen, wir haben es mit diesem Datensatz wobei eine stetige Variable (zum Beispiel Exponential) und eine diskrete Verteilung (zum Beispiel Poisson) für . Lassen Sie uns sagen , dass die Korrelation zwischen dem und . Wie kann jemand definieren ? X i N i i = 1 , . . . , n ρ X N ρ(X.ich,N.ich)X.ichN.ichich=1,...,nρX.N.ρ

user9292
quelle
Es ist üblich, eine Variablenauswahl für die Modellierung durchzuführen, wenn einige der Prädiktorvariablen Zähldaten sind und die Antwortdaten kontinuierlich sind. Es gibt kein Verbot, zwischen reellen und ganzen Zahlen zu vergleichen. Die Form der Verteilungen wird ein größeres Problem sein. Sie sollten eine Reihe von Tukey-Leiterfunktionen (auch Power-Serien genannt) ausprobieren.
Chris
@ Chris Danke für den Kommentar. Ich habe es hier nicht mit Regression zu tun (obwohl jemand argumentieren kann, dass der Aufbau eines GLM die Korrelation erfasst). Ich bin interessiert, ob es ein Maß für die Korrelation gibt (dh Pearson für kontinuierliche Daten). G(Y.)=βN.
user9292
2
Warum sollte die gewöhnliche Pearson-Korrelation kein Maß für die Korrelation für dieses Problem sein?
Glen_b -Rate State Monica

Antworten:

13

Ich würde sagen, es gibt mindestens 3 anständige Optionen, die für Sie sinnvoll wären:

  1. N.ichρX.ich
  2. Nichtparametrische Korrelation - Der Rangkorrelationskoeffizient nach Spearman ist in diesem Fall wahrscheinlich eine gute Option. Die Berechnung für Spearmans Rho basiert auf den Rängen der Werte jeder Variablen und nicht auf den Werten selbst, wodurch sie bei nichtlinearen Beziehungen oder gemischten Datentypen breiter anwendbar ist.
  3. Modellierung - Ich weiß, dass Sie in den Kommentaren erwähnt haben, dass Sie nicht versuchen, irgendeine Art von Modellierung durchzuführen, aber ich denke immer noch, dass ein oder zwei Parameterschätzungen aus einer gut passenden, funktionalen Beziehung zwischen den beiden Variablen viel informativer sind als jeden Korrelationskoeffizienten, den Sie finden werden (es sei denn, die diskrete Variable wurde tatsächlich aus der Hälfte der Werte einer bivariaten Normalverteilung erstellt - was ich bezweifle).

ρ

Signifikanztests mit einem nichtparametrischen Korrelationskoeffizienten (z. B. nach Spearman) wären jedoch möglich, und es wäre leicht, gut dokumentierte Implementierungen davon in jeder Sprache zu finden.

Eric Czech
quelle