Korrelationskoeffizient für nicht dichotome nominale Variable und ordinale oder numerische Variable

12

Ich habe bereits alle Seiten dieser Website gelesen und versucht, die Antwort auf mein Problem zu finden, aber niemand scheint der richtige von mir zu sein ...

Zuerst erkläre ich Ihnen die Art von Daten, mit denen ich arbeite ...

Angenommen, ich habe einen Array-Vektor mit mehreren Städtenamen, einen für jeden von 300 Benutzern. Ich habe auch einen anderen Array-Vektor mit einer Antwort auf eine Umfrage unter jedem Benutzer oder einem kontinuierlichen Wert für jeden Benutzer.

Ich würde gerne wissen, ob es einen Korrelationskoeffizienten gibt, der die Korrelation zwischen diesen beiden Variablen berechnet, also nominalen und numerischen / ordinalen Variablen

Ich habe im Internet gesucht und auf einigen Seiten wird vorgeschlagen, den Kontingenzkoeffizienten oder Cramers V- oder Lambda-Koeffizienten oder Eta zu verwenden. Für jede dieser Maßnahmen sagen wir einfach, dass sie für solche Daten angewendet werden könnten, in denen wir eine nominelle Variable und ein Intervall oder eine numerische Variable haben. Die Sache ist, dass das Suchen und Suchen, der Versuch, jeden von ihnen zu verstehen, irgendwann geschrieben wird oder die Beispiele betrachtet, dass sie sinnvoll sind, um sie zu verwenden, wenn Sie eine dichotome nominale Variable haben, mit Ausnahme von Cramers V, für die andere Zeit keine Anforderung geschrieben ist die Art der Daten. Viele andere Seiten sagen, dass es richtig ist, stattdessen Regression anzuwenden, das ist richtig, aber ich möchte einfach nur wissen, ob es für diese Art von Daten einen Koeffizienten wie Pearson / Spearman gibt.

Ich denke auch, dass es nicht so richtig ist, den Spearman-Korrelationskoeffizienten zu verwenden, da die Städte nicht sortierbar sind.

Ich habe auch die Funktion von Cramer'sV und Eta selbst erstellt (ich arbeite mit Matlab), aber für Eta sprechen sie nicht über einen p-Wert, um festzustellen, ob der Koeffizient statistisch signifikant ist ...

Auf der matlabWorks-Site gibt es auch eine nette Toolbox, die sagt, dass eta ^ 2 berechnet werden soll, aber die Art der Eingabe, die benötigt wird, ist nicht verständlich.

Ist hier jemand, der einen Test wie meinen gemacht hat? Wenn Sie mehr Details benötigen, um die Art der Daten zu verstehen, die ich verwende, fragen Sie mich einfach und ich werde versuchen, Sie besser zu erklären.

Cristis
quelle
1
Cramérs V ist für zwei Nominale. Was ist schlecht an Regression? Nehmen Sie die numerische Variable als Antwort und regressieren Sie sie auf den Nominalwert (unter Verwendung von Dummies). Schauen Sie sich den und den zugehörigen globalen F-Test an. R2
Michael M
An der Regression ist nichts auszusetzen, aber da wir dieses Maß bereits haben, möchten wir es auf eine andere Weise überprüfen, genauso wie eine doppelte Überprüfung mit einem Korrelationskoeffizienten ... danke für die Antwort
Cristis
Sie haben nichts Spezifisches über Ihre Variable "numerisch / ordinal" gesagt. Was bringt Sie dazu, es ordinal zu stellen? numerisch?
ttnphns
Ordnungszahl, weil ich eine Variable habe, die aus einem Umfragetest stammt, so dass ihr Bereich -4,4 beträgt. Sie können sie auch als Intervall betrachten, aber diese Art von Vermessungsvariablen wird meistens als Ordnungszahl betrachtet und die anderen sind numerisch, in spezifischer kontinuierlicher Form Merkmale extrahiert.
Cristis
1
SIEHE
ttnphns

Antworten:

17

Nominal vs Intervall

Das klassischste "Korrelations" -Maß zwischen einer nominalen und einer Intervallvariablen ("numerisch") ist Eta , auch Korrelationsverhältnis genannt, und entspricht dem Wurzel-R-Quadrat der Einweg-ANOVA (mit p-Wert = dem der ANOVA). Eta kann wie die Korrelation als symmetrisches Assoziationsmaß angesehen werden, da Eta von ANOVA (mit dem Nominalwert als unabhängig, numerisch als abhängig) gleich Pillais Spur multivariater Regression ist (wobei der numerische Wert als unabhängiger Satz von Dummy-Variablen dem entspricht nominal als abhängig).

Ein subtileres Maß ist der Intraclass-Korrelationskoeffizient ( ICC ). Während Eta nur den Unterschied zwischen Gruppen (definiert durch die nominale Variable) in Bezug auf die numerische Variable erfasst, misst ICC gleichzeitig auch die Koordination oder Übereinstimmung zwischen numerischen Werten innerhalb von Gruppen. Mit anderen Worten, ICC (insbesondere die ursprüngliche unverzerrte "Pairing" -ICC-Version) bleibt auf der Wertebene, während Eta auf der Statistikebene arbeitet (Gruppenmittelwerte gegenüber Gruppenabweichungen).

Nominal vs Ordinal

Die Frage nach dem "Korrelations" -Maß zwischen einer nominalen und einer ordinalen Variablen ist weniger offensichtlich. Der Grund für die Schwierigkeit ist, dass die Ordnungsskala von Natur aus "mystischer" oder "verdreht" ist als Intervall- oder Nominalskalen. Kein Wunder, dass statistische Analysen speziell für Ordnungsdaten bisher relativ schlecht formuliert sind.

Eine Möglichkeit könnte darin bestehen, Ihre Ordnungsdaten in Ränge umzuwandeln und dann Eta so zu berechnen, als wären die Ränge Intervalldaten. Der p-Wert einer solchen Eta = der der Kruskal-Wallis-Analyse. Dieser Ansatz scheint aus den gleichen Gründen gerechtfertigt zu sein, aus denen Spearman Rho verwendet wird, um zwei Ordnungsvariablen zu korrelieren. Diese Logik lautet: "Wenn Sie die Intervallbreiten auf der Skala nicht kennen, schneiden Sie den gordischen Knoten, indem Sie eine mögliche Monotonie linearisieren: Ordnen Sie die Daten."

Ein anderer Ansatz (möglicherweise strenger und flexibler) wäre die Verwendung einer ordinalen logistischen Regression mit der ordinalen Variablen als DV und der nominalen als IV. Die Quadratwurzel von Nagelkerkes Pseudo-R-Quadrat (mit dem p-Wert der Regression) ist ein weiteres Korrelationsmaß für Sie. Beachten Sie, dass Sie mit verschiedenen Verknüpfungsfunktionen in der ordinalen Regression experimentieren können. Diese Zuordnung ist jedoch nicht symmetrisch: Der Nennwert wird als unabhängig angenommen.

Ein weiterer Ansatz könnte darin bestehen, eine solche monotone Umwandlung von Ordnungsdaten in Intervalle zu finden - anstelle der Rangfolge des vorletzten Absatzes -, die R (dh Eta ) für Sie maximieren würde . Dies ist eine kategoriale Regression (= lineare Regression mit optimaler Skalierung).

Ein weiterer Ansatz besteht darin, einen Klassifizierungsbaum wie CHAID mit der Ordnungsvariablen als Prädiktor durchzuführen . Diese Prozedur fasst benachbarte geordnete Kategorien zusammen (daher ist dies der Ansatz, der der vorherigen entgegengesetzt ist), die nicht zwischen Kategorien des nominalen Prädiktanden unterscheiden. Dann könnten Sie sich auf Chi-Quadrat-basierte Assoziationsmaße (wie Cramers V) verlassen, als ob Sie nominelle mit nominalen Variablen korrelieren.

Und @Michael schlägt in seinem Kommentar noch einen weiteren Weg vor - einen speziellen Koeffizienten namens Freemans Theta .

Wir sind also bisher bei folgenden Gelegenheiten angekommen: (1) Rang, dann Eta berechnen; (2) Ordinale Regression verwenden; (3) Verwenden Sie eine kategoriale Regression ("optimale" Umwandlung der Ordnungsvariablen in ein Intervall); (4) Klassifizierungsbaum verwenden ("optimal", um die Anzahl der geordneten Kategorien zu verringern); (5) Benutze Freemans Theta.

ttnphns
quelle
3
PS Es gibt einen guten kurzen Überblick über ordinale variable Ansätze in Jeromy Anglims
ttnphns
2
Ein Maß für die Assoziation zwischen einer Ordnungszahl und einer Nominalzahl heißt "Freeman's ". Leider habe ich keine Open-Access-Referenz zur Hand. θ
Michael M
2
@ Michael danke, hier fand ich einen Artikel "Eine weitere Anmerkung zu Freeman's Assoziationsmaß" moreno.ss.uci.edu/22.pdf
ttnphns
1
Weitere Informationen zu Freemans Theta und einem R-Paket, das die Statistik enthält, finden Sie in dieser Frage mit Kreuzvalidierung .
Sal Mangiafico
@ttnphns Entschuldigung, können Sie bitte diese Frage beantworten: stats.stackexchange.com/questions/363543/… Vielen Dank.
Ebrahimi
0

Führen Sie eine Einweganova für die Antwort durch, wobei die Stadt die Gruppierungsvariable ist. Das und es gibt, sollte das gleiche sein wie das und aus der Regression der Antwort auf die Dummy-codierten Städte, und sollte gleich dem Vielfachen aus dem sein Regression. Das multiple ist die Korrelation der Stadt mit der Antwort.p F p S S b e t w e e nFpFp R 2 RSSbetweencities/SStotalR2R

Ray Koopman
quelle