Ich habe bereits alle Seiten dieser Website gelesen und versucht, die Antwort auf mein Problem zu finden, aber niemand scheint der richtige von mir zu sein ...
Zuerst erkläre ich Ihnen die Art von Daten, mit denen ich arbeite ...
Angenommen, ich habe einen Array-Vektor mit mehreren Städtenamen, einen für jeden von 300 Benutzern. Ich habe auch einen anderen Array-Vektor mit einer Antwort auf eine Umfrage unter jedem Benutzer oder einem kontinuierlichen Wert für jeden Benutzer.
Ich würde gerne wissen, ob es einen Korrelationskoeffizienten gibt, der die Korrelation zwischen diesen beiden Variablen berechnet, also nominalen und numerischen / ordinalen Variablen
Ich habe im Internet gesucht und auf einigen Seiten wird vorgeschlagen, den Kontingenzkoeffizienten oder Cramers V- oder Lambda-Koeffizienten oder Eta zu verwenden. Für jede dieser Maßnahmen sagen wir einfach, dass sie für solche Daten angewendet werden könnten, in denen wir eine nominelle Variable und ein Intervall oder eine numerische Variable haben. Die Sache ist, dass das Suchen und Suchen, der Versuch, jeden von ihnen zu verstehen, irgendwann geschrieben wird oder die Beispiele betrachtet, dass sie sinnvoll sind, um sie zu verwenden, wenn Sie eine dichotome nominale Variable haben, mit Ausnahme von Cramers V, für die andere Zeit keine Anforderung geschrieben ist die Art der Daten. Viele andere Seiten sagen, dass es richtig ist, stattdessen Regression anzuwenden, das ist richtig, aber ich möchte einfach nur wissen, ob es für diese Art von Daten einen Koeffizienten wie Pearson / Spearman gibt.
Ich denke auch, dass es nicht so richtig ist, den Spearman-Korrelationskoeffizienten zu verwenden, da die Städte nicht sortierbar sind.
Ich habe auch die Funktion von Cramer'sV und Eta selbst erstellt (ich arbeite mit Matlab), aber für Eta sprechen sie nicht über einen p-Wert, um festzustellen, ob der Koeffizient statistisch signifikant ist ...
Auf der matlabWorks-Site gibt es auch eine nette Toolbox, die sagt, dass eta ^ 2 berechnet werden soll, aber die Art der Eingabe, die benötigt wird, ist nicht verständlich.
Ist hier jemand, der einen Test wie meinen gemacht hat? Wenn Sie mehr Details benötigen, um die Art der Daten zu verstehen, die ich verwende, fragen Sie mich einfach und ich werde versuchen, Sie besser zu erklären.
Antworten:
Nominal vs Intervall
Das klassischste "Korrelations" -Maß zwischen einer nominalen und einer Intervallvariablen ("numerisch") ist Eta , auch Korrelationsverhältnis genannt, und entspricht dem Wurzel-R-Quadrat der Einweg-ANOVA (mit p-Wert = dem der ANOVA). Eta kann wie die Korrelation als symmetrisches Assoziationsmaß angesehen werden, da Eta von ANOVA (mit dem Nominalwert als unabhängig, numerisch als abhängig) gleich Pillais Spur multivariater Regression ist (wobei der numerische Wert als unabhängiger Satz von Dummy-Variablen dem entspricht nominal als abhängig).
Ein subtileres Maß ist der Intraclass-Korrelationskoeffizient ( ICC ). Während Eta nur den Unterschied zwischen Gruppen (definiert durch die nominale Variable) in Bezug auf die numerische Variable erfasst, misst ICC gleichzeitig auch die Koordination oder Übereinstimmung zwischen numerischen Werten innerhalb von Gruppen. Mit anderen Worten, ICC (insbesondere die ursprüngliche unverzerrte "Pairing" -ICC-Version) bleibt auf der Wertebene, während Eta auf der Statistikebene arbeitet (Gruppenmittelwerte gegenüber Gruppenabweichungen).
Nominal vs Ordinal
Die Frage nach dem "Korrelations" -Maß zwischen einer nominalen und einer ordinalen Variablen ist weniger offensichtlich. Der Grund für die Schwierigkeit ist, dass die Ordnungsskala von Natur aus "mystischer" oder "verdreht" ist als Intervall- oder Nominalskalen. Kein Wunder, dass statistische Analysen speziell für Ordnungsdaten bisher relativ schlecht formuliert sind.
Eine Möglichkeit könnte darin bestehen, Ihre Ordnungsdaten in Ränge umzuwandeln und dann Eta so zu berechnen, als wären die Ränge Intervalldaten. Der p-Wert einer solchen Eta = der der Kruskal-Wallis-Analyse. Dieser Ansatz scheint aus den gleichen Gründen gerechtfertigt zu sein, aus denen Spearman Rho verwendet wird, um zwei Ordnungsvariablen zu korrelieren. Diese Logik lautet: "Wenn Sie die Intervallbreiten auf der Skala nicht kennen, schneiden Sie den gordischen Knoten, indem Sie eine mögliche Monotonie linearisieren: Ordnen Sie die Daten."
Ein anderer Ansatz (möglicherweise strenger und flexibler) wäre die Verwendung einer ordinalen logistischen Regression mit der ordinalen Variablen als DV und der nominalen als IV. Die Quadratwurzel von Nagelkerkes Pseudo-R-Quadrat (mit dem p-Wert der Regression) ist ein weiteres Korrelationsmaß für Sie. Beachten Sie, dass Sie mit verschiedenen Verknüpfungsfunktionen in der ordinalen Regression experimentieren können. Diese Zuordnung ist jedoch nicht symmetrisch: Der Nennwert wird als unabhängig angenommen.
Ein weiterer Ansatz könnte darin bestehen, eine solche monotone Umwandlung von Ordnungsdaten in Intervalle zu finden - anstelle der Rangfolge des vorletzten Absatzes -, die R (dh Eta ) für Sie maximieren würde . Dies ist eine kategoriale Regression (= lineare Regression mit optimaler Skalierung).
Ein weiterer Ansatz besteht darin, einen Klassifizierungsbaum wie CHAID mit der Ordnungsvariablen als Prädiktor durchzuführen . Diese Prozedur fasst benachbarte geordnete Kategorien zusammen (daher ist dies der Ansatz, der der vorherigen entgegengesetzt ist), die nicht zwischen Kategorien des nominalen Prädiktanden unterscheiden. Dann könnten Sie sich auf Chi-Quadrat-basierte Assoziationsmaße (wie Cramers V) verlassen, als ob Sie nominelle mit nominalen Variablen korrelieren.
Und @Michael schlägt in seinem Kommentar noch einen weiteren Weg vor - einen speziellen Koeffizienten namens Freemans Theta .
Wir sind also bisher bei folgenden Gelegenheiten angekommen: (1) Rang, dann Eta berechnen; (2) Ordinale Regression verwenden; (3) Verwenden Sie eine kategoriale Regression ("optimale" Umwandlung der Ordnungsvariablen in ein Intervall); (4) Klassifizierungsbaum verwenden ("optimal", um die Anzahl der geordneten Kategorien zu verringern); (5) Benutze Freemans Theta.
quelle
Führen Sie eine Einweganova für die Antwort durch, wobei die Stadt die Gruppierungsvariable ist. Das und es gibt, sollte das gleiche sein wie das und aus der Regression der Antwort auf die Dummy-codierten Städte, und sollte gleich dem Vielfachen aus dem sein Regression. Das multiple ist die Korrelation der Stadt mit der Antwort.p F p S S b e t w e e nF p F p R 2 RSSbetweencities/SStotal R2 R
quelle