Ich habe eine nominelle Variable (verschiedene Gesprächsthemen, codiert als topic0 = 0 usw.) und eine Reihe von Skalenvariablen (DV), wie z. B. die Dauer eines Gesprächs.
Wie kann ich Korrelationen zwischen Nominal- und Skalenvariablen ableiten?
correlation
continuous-data
categorical-data
Paul Miller
quelle
quelle
Antworten:
Der Titel dieser Frage deutet auf ein grundlegendes Missverständnis hin. Die grundlegendste Idee der Korrelation lautet: "Wenn eine Variable zunimmt, nimmt die andere Variable zu (positive Korrelation), nimmt ab (negative Korrelation) oder bleibt dieselbe (keine Korrelation)", wobei die perfekte positive Korrelation +1 beträgt. keine Korrelation ist 0 und die perfekte negative Korrelation ist -1. Die Bedeutung von "perfekt" hängt davon ab, welches Maß für die Korrelation verwendet wird: für die Pearson - Korrelation bedeutet dies, dass die Punkte auf einem Streudiagramm direkt auf einer geraden Linie liegen (für +1 nach oben und für -1 nach unten geneigt), für die Spearman - Korrelation, dass die Die Ränge stimmen genau überein (oder stimmen nicht überein, also wird zuerst mit dem letzten für -1 gepaart) und für Kendalls Taudass alle Beobachtungspaare übereinstimmende Ränge haben (oder nicht übereinstimmen für -1). Eine Vorstellung davon, wie dies in der Praxis funktioniert, können Sie den Pearson-Korrelationen für die folgenden Streudiagramme entnehmen ( Bildnachweis ):
Weitere Erkenntnisse ergeben sich aus der Betrachtung des Anscombe-Quartetts, bei dem alle vier Datensätze eine Pearson-Korrelation von +0,816 aufweisen, obwohl sie dem Muster "mit zunehmendem zunehmendem " auf sehr unterschiedliche Weise folgen ( Bildnachweis ):yx y
Wenn Ihre unabhängige Variable nominal ist, ist es nicht sinnvoll, darüber zu sprechen, was "mit zunehmendem " geschieht . In Ihrem Fall hat "Gesprächsthema" keinen numerischen Wert, der auf und ab gehen kann. Sie können "Gesprächsthema" also nicht mit "Gesprächsdauer" korrelieren. Aber wie @ttnphns in den Kommentaren schrieb, gibt es Assoziationsstärkemessungen, die Sie verwenden können und die etwas analog sind. Hier sind einige gefälschte Daten und der dazugehörige R-Code:x
Welches gibt:
Durch die Verwendung von "Gossip" als Bezugsebene für "Topic" und die Definition von binären Dummy-Variablen für "Sports" und "Weather" können wir eine multiple Regression durchführen.
Wir können den geschätzten Abschnitt so interpretieren, dass er die durchschnittliche Dauer von Klatschgesprächen mit 7,5 Minuten angibt, und die geschätzten Koeffizienten für die Dummy-Variablen lauten, dass Sportgespräche im Durchschnitt 4 Minuten kürzer waren als Klatschgespräche, während Wettergespräche 2 Minuten kürzer waren als Klatschgespräche. Ein Teil der Ausgabe ist der Bestimmungskoeffizient . Eine Interpretation davon ist, dass unser Modell 68% der Varianz in der Gesprächsdauer erklärt. Eine andere Interpretation von ist, dass wir durch Quadratwurzeln den Mehrfachkorrelationskoeffizienten .R 2 RR2=0.6809 R2 R
Beachten Sie, dass 0,825 nicht die Korrelation zwischen Duration und Topic ist - wir können diese beiden Variablen nicht korrelieren, da Topic nominal ist. Was es tatsächlich darstellt, ist die Korrelation zwischen den beobachteten und den von unserem Modell vorhergesagten (angepassten) Dauern . Beide Variablen sind numerisch, sodass wir sie korrelieren können. Tatsächlich sind die angepassten Werte nur die mittleren Dauern für jede Gruppe:
Zur Überprüfung lautet die Pearson-Korrelation zwischen beobachteten und angepassten Werten:
Wir können dies auf einem Streudiagramm visualisieren:
Die Stärke dieser Beziehung ist visuell sehr ähnlich zu denen der Diagramme des Anscombe-Quartetts, was nicht verwunderlich ist, da sie alle Pearson-Korrelationen von etwa 0,82 aufwiesen.
Sie werden überrascht sein, dass ich mich bei einer kategorialen unabhängigen Variablen für eine (multiple) Regression und nicht für eine Einweg-ANOVA entschieden habe . Tatsächlich stellt sich dies jedoch als gleichwertiger Ansatz heraus.
Dies ergibt eine Zusammenfassung mit identischer F-Statistik und identischem p- Wert:
Auch hier passt das ANOVA-Modell genau wie die Regression zum Gruppenmittel:
Dies bedeutet, dass die Korrelation zwischen angepassten und beobachteten Werten der abhängigen Variablen dieselbe ist wie für das multiple Regressionsmodell. Das "Anteil der Varianz erklärt" -Maß für die multiple Regression hat ein ANOVA-Äquivalent, ( ; im Quadrat). Wir können sehen, dass sie zusammenpassen.η 2R2 η2
In diesem Sinne wäre das nächste Analogon zu einer "Korrelation" zwischen einer nominalen erklärenden Variablen und einer kontinuierlichen Antwort , die Quadratwurzel von , die das Äquivalent des Mehrfachkorrelationskoeffizienten für die Regression ist. Dies erklärt die Bemerkung, dass "das natürlichste Maß für die Assoziation / Korrelation zwischen einer nominalen (als IV angenommenen) und einer Skala (als DV angenommenen) Variablen eta ist". Wenn Sie mehr an dem erklärten Anteil der Varianz interessiert sind , können Sie bei eta squared (oder dessen Regressionsäquivalent ) bleiben . Bei ANOVA stößt man oft auf das Teilη 2 R R 2η η2 R R2 eta im Quadrat. Da es sich bei dieser ANOVA um eine Einbahnstraße handelte (es gab nur einen kategorialen Prädiktor), ist das partielle ETA-Quadrat dasselbe wie das ETA-Quadrat, aber die Dinge ändern sich in Modellen mit mehr Prädiktoren.
Es ist jedoch durchaus möglich, dass weder "Korrelation" noch "Anteil der erklärten Varianz" das Maß für die gewünschte Effektgröße ist. Zum Beispiel könnte Ihr Fokus mehr darauf liegen, wie sich die Mittel zwischen den Gruppen unterscheiden. Diese Frage und Antwort enthält weitere Informationen zu eta squared, partial eta squared und verschiedenen Alternativen.
quelle