Korrelationen zwischen kontinuierlichen und kategorialen (nominalen) Variablen

42

Ich möchte die Korrelation zwischen einer kontinuierlichen (abhängigen Variablen) und einer kategorialen (nominal: Geschlecht, unabhängige Variable) Variablen finden. Fortlaufende Daten werden normalerweise nicht verteilt. Vorher hatte ich es mit dem Spearman's berechnet . Mir wurde jedoch gesagt, dass es nicht richtig ist.ρ

Bei der Suche im Internet habe ich festgestellt, dass der Boxplot eine Vorstellung davon geben kann, inwieweit sie verknüpft sind. Ich suchte jedoch nach einem quantifizierten Wert wie Pearsons Produktmomentkoeffizient oder Spearmans . Können Sie mir bitte helfen, wie das geht? Oder informieren Sie sich, welche Methode angemessen wäre?ρ

Wäre der Punkt-Biserial-Koeffizient die richtige Option?

Md. Ferdous Wahid
quelle
Normalerweise kann man nicht nur anhand des Formats der Daten raten! Was bedeuten die Daten und was möchten Sie mit Ihrer Analyse erreichen?
kjetil b halvorsen
1
Dank kjetil möchte ich die Assoziation zwischen Geschlecht und anderen kontinuierlichen Variablen vergleichen. Einfach zu wissen, welche stetigen Variablen mäßig / stark korreliert sind und welche nicht.
Md. Ferdous Wahid
1
Scheint wie ein Duplikat von stats.stackexchange.com/questions/25229/… Können Sie uns sagen, ob die Antworten darauf Ihnen helfen?
kjetil b halvorsen
Ja, meine Frage ist ähnlich. Ich erhielt jedoch ein Feedback, in dem der Gutachter darauf hinwies, dass Spearmans nicht angemessen ist. Meine Stichprobengröße ist 31. Laut der Antwort (der Link wird bereitgestellt) wäre nicht normal kein Problem, und für den großen Datensatz kann eine beliebige Korrelationsmethode (Spearman / Pearson / Point-Biserial) verwendet werden. Wäre das auch für den kleinen Datensatz der Fall? Das Geschlecht ist übrigens keine künstlich erzeugte dichotome Nominalskala. Der obige Link sollte einen biserialen Korrelationskoeffizienten verwenden. ρ
Md. Ferdous Wahid
3
Korrelation zwischen Nominal- und Intervall- oder Ordinalvariablen stats.stackexchange.com/q/73065/3277
ttnphns

Antworten:

25

ρ(Zi,Ii)ZIρZ,IIρwird im Grunde eine neu skalierte Version der mittleren Ränge zwischen den beiden Gruppen werden. Einfacher (interpretierbarer) wäre es, die Mittel einfach zu vergleichen! Ein anderer Ansatz ist der folgende.

X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjMXi<YjWθ
MM+W
kjetil b halvorsen
quelle
5
Die Rangkorrelation nach Spearman ist nur die Korrelation nach Pearson, die auf die Ränge der numerischen Variablen und die Werte der ursprünglichen binären Variablen angewendet wird (Rang hat hier keine Auswirkung). Also ist Spearmans Rho das Ranganalogon der Punkt-Biserial-Korrelation. Ich sehe kein Problem darin, Spearmans Rho in dieser Situation deskriptiv zu verwenden.
Michael M
Michael Mayer: Ja, es könnte vielleicht funktionieren, aber gibt es irgendeinen Grund dafür? Es gibt keine Informationen, die nicht in einem Mittelweg enthalten sind! und das ist direkter interpretierbar.
kjetil b halvorsen
1
Ist ein Rangunterschied viel einfacher als Spearmans Rho zu interpretieren? Selbst wenn ja, würden Sie Spearmans Rho als falsch bezeichnen? Schade, dass wir die Überlegungen der Rezensenten nicht sehen.
Michael M
1
Was Sie vorschlagen, ist nett. Es scheint mit der Teststatistik des Wilcoxon-Tests mit zwei Stichproben zu tun zu haben, die der Rangkorrelation von Kendall zwischen dem numerischen Ergebnis und der binären Gruppenvariablen ähnelt.
Michael M
1
θθ^1θ
8

Ich habe jetzt das gleiche Problem. Bisher hat noch niemand darauf hingewiesen, aber ich untersuche die Punkt-Biserial-Korrelation, die sich aus dem Pearson-Korrelationskoeffizienten zusammensetzt. Es ist gemittelt für eine stetige Variable und eine dichotome Variable.

Lesen Sie kurz: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Ich benutze R, finde aber, dass SPSS eine großartige Dokumentation hat.

Jon
quelle
1
Eine gute Referenz, um eine Korrelation zwischen einer stetigen und einer dichotomen Variablen zu finden! Die aufgeführten Annahmen sind jedoch etwas stark.
SUNDONG
1

Es scheint, dass der geeignetste Vergleich darin besteht, die Mediane (wie es nicht normal ist) und die Verteilung zwischen den binären Kategorien zu vergleichen. Ich würde den nicht-parametrischen Mann-Whitney-Test vorschlagen ...

brca1
quelle
6
Während das Mann-Whitney eine Möglichkeit wäre, die Ortsverschiebung in einer Variablen (oder allgemeineren Formen der stochastischen Dominanz) über eine binäre kategoriale Variable hinweg zu identifizieren, vergleicht das Mann-Whitney keine Mediane, zumindest nicht ohne zusätzliche Annahmen.
Glen_b
1

Für das angegebene Problem kann das Messen der Fläche unter der Kurve einer Empfängerkennlinie hilfreich sein.

Ich bin kein Experte in diesem Bereich und versuche es einfach zu halten. Bitte kommentieren Sie Fehler oder falsche Interpretationen, damit ich sie ändern kann.

xyxxx

xx

xx

Die obige Aussage wird mit der Fläche unter der Kurve berechnet.

Beispiel für gute Korrelation (rechts) und faire Antikorrelation (links) Beispiel für eine gute Korrelation (rechts) und eine faire Antikorrelation (links).

aerijman
quelle
1
Willkommen zum Lebenslauf! Ihre Antwort ist etwas zu kurz und scheint nicht hilfreich zu sein: "Die Korrelation zwischen einer kontinuierlichen (abhängigen Variablen) und einer kategorialen (nominal: Geschlecht, unabhängige Variable) Variablen" . Könnten Sie Ihre Antwort dahingehend ändern, wie AUROC dies erreichen soll?
Frans Rodenburg
-3

Sie sollten eine lineare Trendalternative zur Unabhängigkeit verwenden. Wenn Sie diesen Weg nicht kennen, können Sie eine Einführung in die kategoriale Datenanalyse auf Seite 41 lesen.

Mehdi Loohs
quelle
4
Es gibt bereits eine akzeptierte Antwort. Und es ist nicht klar, was Ihre Antwort dazu beiträgt. Könntest du mehr erklären? Ich gehe davon aus, dass Sie sich auf Agrestis Einführung in die kategoriale Datenanalyse beziehen. Bitte vollständig zitieren.
TEG - Reinstate Monica