Schnell (visuell) Korrelationen zwischen geordneten kategorialen Daten in R?

11

Ich suche nach Korrelationen zwischen den Antworten auf verschiedene Fragen in einer Umfrage ("ähm, mal sehen, ob die Antworten auf Frage 11 mit denen von Frage 78 korrelieren"). Alle Antworten sind kategorisch (die meisten reichen von "sehr unglücklich" bis "sehr glücklich"), aber einige haben unterschiedliche Antworten. Die meisten von ihnen können als ordinal betrachtet werden. Betrachten wir diesen Fall hier.

Da ich keinen Zugang zu einem kommerziellen Statistikprogramm habe, muss ich R verwenden.

Ich habe Rattle ausprobiert (ein Freeware-Data-Mining-Paket für R, sehr geschickt), aber leider werden keine kategorialen Daten unterstützt. Ein Hack, den ich verwenden könnte, besteht darin, die codierte Version der Umfrage, die Zahlen (1..5) anstelle von "sehr unglücklich" ... "glücklich" enthält, in R zu importieren und Rattle glauben zu lassen, dass es sich um numerische Daten handelt.

Ich dachte daran, ein Streudiagramm zu erstellen und die Punktgröße proportional zur Anzahl der Zahlen für jedes Paar zu haben. Nach einigem googeln fand ich http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/, aber es scheint (für mich) sehr kompliziert zu sein.

Ich bin kein Statistiker (sondern ein Programmierer), habe aber etwas darüber gelesen, und wenn ich das richtig verstehe, wäre Spearmans Rho hier angemessen.

Also die Kurzfassung der Frage für diejenigen, die es eilig haben: Gibt es eine Möglichkeit, Spearmans Rho schnell in R zu zeichnen ? Ein Plot ist einer Zahlenmatrix vorzuziehen, da es einfacher ist, einen Ball zu sehen, und auch in Materialien enthalten sein kann.

Danke im Voraus.

PS Ich habe eine Weile darüber nachgedacht, ob ich das auf der SO-Hauptseite oder hier posten soll. Nachdem ich beide Sites nach R-Korrelation durchsucht hatte, fand ich, dass diese Site für die Frage besser geeignet ist.

Wishihadabettername
quelle
2
Sie klingen, als wäre R der Software für das Eigentum unterlegen. :)
Roman Luštrik
Für mich klingt es völlig vernünftig, in Ihrem Fall die Pearson-Produkt-Moment-Korrelation (unter der Annahme kontinuierlicher Daten) zu verwenden (unter der Annahme, dass genügend Punkte auf Ihrer Skala vorhanden sind und kein unbekannter Mittelpunkt). Ganze Bereiche innerhalb der Psychologie (z. B. Persönlichkeits- oder Sozialpsychologie) beruhen (erfolgreich) auf der Annahme, dass Antworten auf einen einzelnen Punkt auf einer z. B. Fünf-Punkte- (oder Sieben-Punkte-) Skala von sehr un-X bis sehr X sein können als kontinuierlich behandelt. Siehe auch diesen Thread: stats.stackexchange.com/questions/539/…
Henrik
@romunov: Ich bin mir nicht sicher, wie du den Eindruck bekommen hast, dass R meiner Meinung nach anderen s / w unterlegen ist. Aber das ist überhaupt nicht der Fall.
Wishihadabettername
Ich war nur ein kluger Arsch. Ich hoffe es gibt keine harten Gefühle. :)
Roman Luštrik

Antworten:

19

Eine weitere gute Visualisierung der Korrelation bietet das Corrplot- Paket, das Ihnen Folgendes bietet: Alt-Text

Es ist ein tolles Paket.

Schauen Sie sich auch die Antwort hier an , es könnte gut für Sie sein, es zu wissen.

Wenn Sie Vorschläge haben, wie der Code in dem Beitrag, auf den Sie verwiesen haben, einfacher sein könnte, lassen Sie es mich bitte wissen.

Tal Galili
quelle
1
Danke Tal, ich werde es jetzt mit Corrplot versuchen. Ich wünschte auch, ich könnte Ihre Lösung vereinfachen (auf die ich in der Frage verwiesen habe), aber ich bin nur ein Neuling in R, sodass Sie mehr wissen als ich. Ich werde die Frage aktualisieren, um zu klären, dass die Lösung für mich
Wishihadabettername
Der Corrplot sieht gut aus. Es gibt eine großartige visuelle Momentaufnahme der Größe und Richtung der Korrelationen. Im Fall von 5-Punkt-geordneten kategorialen Variablen kann es nützlich sein, neben der Pearson-Korrelation ein anderes Assoziationsmaß anzugeben: z. B. polychrone Korrelationen. Die Größe der Standard-Pearson-Korrelationen geordneter kategorialer Variablen wird etwas vom Mittelwert der beiden Variablen beeinflusst.
Jeromy Anglim
3

Einige zusätzliche Plotideen sind:

Jeromy Anglim
quelle
Die Sonnenblume ist eine unterhaltsame Lösung. Die Verwendung eines Jitters habe ich versucht, als ich mir das Thema zum ersten Mal ansah, aber ich fand, dass es nicht effektiv genug ist, um Korrelationsmatrizen zu zeichnen ...
Tal Galili
Ja, Jitter könnte mit einer Scattermatrix mit vielen Variablen ziemlich chaotisch werden. Ich nehme an, der Vorteil von Jitter und Sonnenblumen besteht darin, dass Sie die Rohdaten sehen können (wenn auch im Jitter-Fall gestört).
Jeromy Anglim
Einverstanden (ich liebe Jitter, einfach nicht dafür :))
Tal Galili