Wie kann man kategoriale Daten zusammenfassen?

13

Ich habe mit dem folgenden Problem zu kämpfen, das für Statistiker hoffentlich ein leichtes ist (ich bin ein Programmierer, der etwas mit Statistiken zu tun hat).

Ich muss die Antworten auf eine Umfrage (für das Management) zusammenfassen. Die Umfrage enthält mehr als 100 Fragen, die in verschiedenen Bereichen gruppiert sind (mit etwa 5 bis 10 Fragen pro Bereich). Alle Antworten sind kategorisch (auf einer Ordnungsskala sind sie wie "überhaupt nicht", "selten" ... "täglich oder häufiger").

Das Management möchte eine Zusammenfassung für jeden Bereich erhalten, und dies ist mein Problem: Wie lassen sich kategoriale Antworten in der zugehörigen Frage zusammenfassen? . Die Fragen sind zu viele, um für jeden Bereich eine Grafik oder gar ein Gitterplot zu erstellen. Ich bevorzuge einen visuellen Ansatz, wenn möglich im Vergleich zu Tabellen mit Zahlen (leider werden sie nicht gelesen).

Das einzige, was mir einfällt, ist, die Anzahl der Antworten in jedem Bereich zu zählen und dann das Histogramm zu zeichnen.

Gibt es noch etwas für kategoriale Daten?

Ich benutze R, bin mir aber nicht sicher, ob es relevant ist. Ich bin der Meinung, dass dies eher eine allgemeine Statistikfrage ist.

wishihadabettername
quelle
Wie wäre es mit PCA / FA? Sie würden korrelierte Variablen in Faktoren zerlegen und von dort aus arbeiten ...
Roman Luštrik
Dies könnte zu viel sein, wenn das Management fragt, wie Sie die aggregierten Zahlen erhalten haben. Sie wollen eine einfachere Technik, damit sie sie verstehen können. Ach, die reale Welt :-( Danke aber.
wishihadabettername

Antworten:

10

Sie müssen wirklich herausfinden, welche Frage Sie zu beantworten versuchen oder welche Frage das Management am meisten interessiert. Dann können Sie die Umfragefragen auswählen, die für Ihr Problem am relevantesten sind.

Hier sind einige allgemeine Lösungen, ohne dass Sie etwas über Ihr Problem oder Ihren Datensatz wissen:

  • Stellen Sie die Antworten visuell als Cluster dar. Mein Favorit ist, entweder Dendrogramme zu verwenden oder einfach auf einer xy-Achse zu zeichnen (Google "cluster analysis r" und zum ersten Ergebnis von statmethods.net zu gelangen).
  • Ordnen Sie die Fragen den niedrigsten bis "täglichen oder häufigeren" Antworten zu. Dies ist ein Beispiel, das möglicherweise nicht genau für Sie funktioniert, aber es wird Sie vielleicht inspirieren http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Kreuztabellen: Wenn Sie zum Beispiel eine Frage haben: "Wie oft kommen Sie zu spät zur Arbeit?" und "Wie oft nutzen Sie Facebook?". Durch Kreuzen der beiden Fragen können Sie den Prozentsatz der Personen ermitteln, die selten beides tun oder jeden Tag beides tun )
  • Korrelogramme. Ich habe noch keine Erfahrung damit, aber ich habe es auch auf der Website statmethods.net gesehen. Grundsätzlich finden Sie, welche Fragen die höchste Korrelation haben und erstellen dann eine Tabelle. Sie finden dies möglicherweise nützlich, obwohl es irgendwie "beschäftigt" aussieht.
Dimitry L
quelle
Ich werde dies als Antwort markieren. Es gibt mehrere gute Vorschläge, daher überlege ich, wie ich sie anwenden soll.
wishihadabettername
9

Es gibt ein nettes Papier über Visualisierungstechniken, die Sie von Michael Friendly verwenden könnten:

(Tatsächlich gibt es ein ganzes Buch , das vom selben Autor dazu verfasst wurde.) Das vcd- Paket in R implementiert viele dieser Techniken.

ars
quelle
Ich habe für den Verweis auf die Zeitung und das Buch gestimmt und werde sie lesen
Wunschname des Autors 20.08.10
8

Zu den Standardoptionen gehören:

  • Ermitteln des Mittelwerts für Elemente innerhalb einer Skala (wenn z. B. die Skala 1 bis 5 beträgt, beträgt der Mittelwert 1 bis 5)
  • Konvertieren jedes Elements in eine binäre Kennzahl (z. B. wenn Element> = 3, dann 1, sonst 0) und dann Mitteln dieser binären Antwort

Angenommen, Sie aggregieren über Elemente und über große Stichproben von Personen in der Organisation, sind beide oben genannten Optionen (dh der Mittelwert von 1 bis 5 oder der Mittelwert des Prozentsatzes über einem Punkt) auf Organisationsebene zuverlässig ( siehe hier für weitere Diskussion ). Somit kommuniziert jede der obigen Optionen im Grunde die gleiche Information.

Im Allgemeinen würde ich mir keine Sorgen darüber machen, dass Artikel kategorisch sind. Wenn Sie Skalen erstellen, indem Sie über Elemente aggregieren und dann über die Stichprobe der Befragten aggregieren, ist die Skala eine enge Annäherung an eine kontinuierliche Skala.

Für das Management ist eine Metrik möglicherweise leichter zu interpretieren. Wenn ich die Bewertung der Unterrichtsqualität erhalte (dh die durchschnittliche Zufriedenheit der Schüler von beispielsweise 100 Schülern), ist dies der Durchschnitt auf einer Skala von 1 bis 5, und das ist in Ordnung. In den Jahren, in denen ich von Jahr zu Jahr meine eigenen Noten und auch einige Normen für die Universität gesehen habe, habe ich einen Bezugsrahmen dafür entwickelt, was verschiedene Werte bedeuten. Das Management zieht es jedoch manchmal vor, über den Prozentsatz nachzudenken, der eine Aussage unterstützt, oder über den Prozentsatz der positiven Antworten, selbst wenn es sich gewissermaßen um den mittleren Prozentsatz handelt.

Die größte Herausforderung besteht darin, einen konkreten Bezugsrahmen für die Partituren anzugeben. Das Management wird wissen wollen, was die Zahlen tatsächlich bedeuten . Wenn zum Beispiel die mittlere Antwort für eine Skala 4,2 ist, was bedeutet das? Ist es gut? Ist es schlimm? Ist es nur okay

Wenn Sie die Umfrage über mehrere Jahre oder in verschiedenen Organisationen verwenden, können Sie beginnen, einige Normen zu entwickeln. Der Zugang zu Normen ist einer der Gründe, warum Unternehmen häufig einen externen Umfrageanbieter beauftragen oder eine Standardumfrage verwenden.

Möglicherweise möchten Sie auch eine Faktorenanalyse durchführen, um zu überprüfen, ob die Zuordnung von Elementen zu Skalen empirisch gerechtfertigt ist.

Für eine visuelle Darstellung können Sie eine einfache Linie oder ein Balkendiagramm mit dem Skalentyp auf der x-Achse und der Punktzahl auf der y-Achse erstellen. Wenn Sie normative Daten haben, können Sie diese auch hinzufügen.

Jeromy Anglim
quelle
1

Ja. Ich halte Clustering für einen sehr effektiven Ansatz zur Datenreduktion, um Umfragedaten sowohl für das Verständnis als auch für die Präsentation durch das Management zu reduzieren.

Die Analyse latenter Klassen (Behandlung der Antwortskalen als Ordnungszahl) oder das k-Mittel (Behandlung als stetig) können beide als eine Form der Informationskomprimierung angesehen werden . Die Einteilung der Befragten in das wahrscheinlichste Segment ergibt im Allgemeinen eine kategoriale Variable, deren Profilierung in Bezug auf die Antworten intuitive Erklärungen enthält.

Anschließend können Sie die Segmente benennen und diese Variablen für die Analyse und Darstellung auf Zusammenfassungsebene verwenden.

Passen Sie einen Cluster für Gruppen von verwandten Elementen (z. B. unten) oder möglicherweise für alle zusammen an.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Ich verwende häufig LatentGold, empfinde FASTCLUS in SAS jedoch als eine gute Lösung.

Bevor Sie dies tun, sollten Sie überlegen, die Antworten der einzelnen Personen auf ihre Verwendung der Skala abzustimmen (umstritten, aber pragmatisch). Manche Leute lehnen sich nur an ein Ende der Skala und meiden entweder das Negative oder das Positive. Das Clustering von unformatierten Antworten neigt normalerweise dazu, Menschen von diesem Verhalten zu trennen.

Die Standardisierung der Antworten der einzelnen Befragten auf ihren eigenen Mittelwert und die Gruppierung nach diesen Kriterien legen häufig Variablen offen, die sich auf sehr interessante Weise zusammen bewegen.

Prototyp
quelle