Ich habe mit dem folgenden Problem zu kämpfen, das für Statistiker hoffentlich ein leichtes ist (ich bin ein Programmierer, der etwas mit Statistiken zu tun hat).
Ich muss die Antworten auf eine Umfrage (für das Management) zusammenfassen. Die Umfrage enthält mehr als 100 Fragen, die in verschiedenen Bereichen gruppiert sind (mit etwa 5 bis 10 Fragen pro Bereich). Alle Antworten sind kategorisch (auf einer Ordnungsskala sind sie wie "überhaupt nicht", "selten" ... "täglich oder häufiger").
Das Management möchte eine Zusammenfassung für jeden Bereich erhalten, und dies ist mein Problem: Wie lassen sich kategoriale Antworten in der zugehörigen Frage zusammenfassen? . Die Fragen sind zu viele, um für jeden Bereich eine Grafik oder gar ein Gitterplot zu erstellen. Ich bevorzuge einen visuellen Ansatz, wenn möglich im Vergleich zu Tabellen mit Zahlen (leider werden sie nicht gelesen).
Das einzige, was mir einfällt, ist, die Anzahl der Antworten in jedem Bereich zu zählen und dann das Histogramm zu zeichnen.
Gibt es noch etwas für kategoriale Daten?
Ich benutze R, bin mir aber nicht sicher, ob es relevant ist. Ich bin der Meinung, dass dies eher eine allgemeine Statistikfrage ist.
quelle
Antworten:
Sie müssen wirklich herausfinden, welche Frage Sie zu beantworten versuchen oder welche Frage das Management am meisten interessiert. Dann können Sie die Umfragefragen auswählen, die für Ihr Problem am relevantesten sind.
Hier sind einige allgemeine Lösungen, ohne dass Sie etwas über Ihr Problem oder Ihren Datensatz wissen:
quelle
Es gibt ein nettes Papier über Visualisierungstechniken, die Sie von Michael Friendly verwenden könnten:
(Tatsächlich gibt es ein ganzes Buch , das vom selben Autor dazu verfasst wurde.) Das vcd- Paket in R implementiert viele dieser Techniken.
quelle
Zu den Standardoptionen gehören:
Angenommen, Sie aggregieren über Elemente und über große Stichproben von Personen in der Organisation, sind beide oben genannten Optionen (dh der Mittelwert von 1 bis 5 oder der Mittelwert des Prozentsatzes über einem Punkt) auf Organisationsebene zuverlässig ( siehe hier für weitere Diskussion ). Somit kommuniziert jede der obigen Optionen im Grunde die gleiche Information.
Im Allgemeinen würde ich mir keine Sorgen darüber machen, dass Artikel kategorisch sind. Wenn Sie Skalen erstellen, indem Sie über Elemente aggregieren und dann über die Stichprobe der Befragten aggregieren, ist die Skala eine enge Annäherung an eine kontinuierliche Skala.
Für das Management ist eine Metrik möglicherweise leichter zu interpretieren. Wenn ich die Bewertung der Unterrichtsqualität erhalte (dh die durchschnittliche Zufriedenheit der Schüler von beispielsweise 100 Schülern), ist dies der Durchschnitt auf einer Skala von 1 bis 5, und das ist in Ordnung. In den Jahren, in denen ich von Jahr zu Jahr meine eigenen Noten und auch einige Normen für die Universität gesehen habe, habe ich einen Bezugsrahmen dafür entwickelt, was verschiedene Werte bedeuten. Das Management zieht es jedoch manchmal vor, über den Prozentsatz nachzudenken, der eine Aussage unterstützt, oder über den Prozentsatz der positiven Antworten, selbst wenn es sich gewissermaßen um den mittleren Prozentsatz handelt.
Die größte Herausforderung besteht darin, einen konkreten Bezugsrahmen für die Partituren anzugeben. Das Management wird wissen wollen, was die Zahlen tatsächlich bedeuten . Wenn zum Beispiel die mittlere Antwort für eine Skala 4,2 ist, was bedeutet das? Ist es gut? Ist es schlimm? Ist es nur okay
Wenn Sie die Umfrage über mehrere Jahre oder in verschiedenen Organisationen verwenden, können Sie beginnen, einige Normen zu entwickeln. Der Zugang zu Normen ist einer der Gründe, warum Unternehmen häufig einen externen Umfrageanbieter beauftragen oder eine Standardumfrage verwenden.
Möglicherweise möchten Sie auch eine Faktorenanalyse durchführen, um zu überprüfen, ob die Zuordnung von Elementen zu Skalen empirisch gerechtfertigt ist.
Für eine visuelle Darstellung können Sie eine einfache Linie oder ein Balkendiagramm mit dem Skalentyp auf der x-Achse und der Punktzahl auf der y-Achse erstellen. Wenn Sie normative Daten haben, können Sie diese auch hinzufügen.
quelle
Ja. Ich halte Clustering für einen sehr effektiven Ansatz zur Datenreduktion, um Umfragedaten sowohl für das Verständnis als auch für die Präsentation durch das Management zu reduzieren.
Die Analyse latenter Klassen (Behandlung der Antwortskalen als Ordnungszahl) oder das k-Mittel (Behandlung als stetig) können beide als eine Form der Informationskomprimierung angesehen werden . Die Einteilung der Befragten in das wahrscheinlichste Segment ergibt im Allgemeinen eine kategoriale Variable, deren Profilierung in Bezug auf die Antworten intuitive Erklärungen enthält.
Anschließend können Sie die Segmente benennen und diese Variablen für die Analyse und Darstellung auf Zusammenfassungsebene verwenden.
Passen Sie einen Cluster für Gruppen von verwandten Elementen (z. B. unten) oder möglicherweise für alle zusammen an.
Ich verwende häufig LatentGold, empfinde FASTCLUS in SAS jedoch als eine gute Lösung.
Bevor Sie dies tun, sollten Sie überlegen, die Antworten der einzelnen Personen auf ihre Verwendung der Skala abzustimmen (umstritten, aber pragmatisch). Manche Leute lehnen sich nur an ein Ende der Skala und meiden entweder das Negative oder das Positive. Das Clustering von unformatierten Antworten neigt normalerweise dazu, Menschen von diesem Verhalten zu trennen.
Die Standardisierung der Antworten der einzelnen Befragten auf ihren eigenen Mittelwert und die Gruppierung nach diesen Kriterien legen häufig Variablen offen, die sich auf sehr interessante Weise zusammen bewegen.
quelle