Ich versuche visuell zu vergleichen, wie drei verschiedene Nachrichtenpublikationen verschiedene Themen abdecken (bestimmt durch ein LDA-Themenmodell). Ich habe dazu zwei verwandte Methoden, aber viele Rückmeldungen von Kollegen erhalten, dass dies nicht sehr intuitiv ist. Ich hoffe, dass jemand da draußen eine bessere Idee hat, dies zu visualisieren.
In der ersten Grafik zeige ich die Proportionen der einzelnen Themen in jeder Veröffentlichung wie folgt:
Dies ist für fast alle, mit denen ich gesprochen habe, ziemlich einfach und intuitiv. Es ist jedoch schwierig, die Unterschiede zwischen den Veröffentlichungen zu erkennen. Welche Zeitung behandelt welches Thema mehr?
Um dies zu erreichen, habe ich den Unterschied zwischen der Publikation mit dem höchsten und dem zweithöchsten Anteil an Themen grafisch dargestellt, die von der Publikation mit dem höchsten Anteil gefärbt wurden. So was:
Die riesige Bar für Fußball ist also in Wirklichkeit die Entfernung zwischen al-Ahram English und Daily News Egypt (Nummer 2 in der Fußballberichterstattung), und sie ist rot gefärbt, weil Al-Ahram die Nummer 1 ist. In ähnlicher Weise sind Studien grün, da Egypt Independent den höchsten Anteil hat und die Balkengröße der Abstand zwischen Egypt Independent und Daily News Egypt (erneut Nummer 2) ist.
Die Tatsache, dass ich das alles in zwei Absätzen erklären muss, ist ein ziemlich sicheres Zeichen dafür, dass das Diagramm den Autarkietest nicht besteht. Es ist schwer zu sagen, was wirklich los ist, wenn man es nur ansieht.
Haben Sie allgemeine Vorschläge, wie Sie die dominierende Publikation für jedes Thema intuitiver hervorheben können?
Bearbeiten: Daten zum Spielen: Hier ist die dput
Ausgabe von R sowie eine CSV-Datei .
Bearbeiten 2: Hier ist eine vorläufige Version des Punktdiagramms mit den Durchmessern der Punkte, die proportional zum Anteil des Themas im Korpus sind (so wurden die Themen ursprünglich sortiert). Obwohl ich noch ein bisschen mehr daran arbeiten muss, fühlt es sich viel intuitiver an als das, was ich vorher getan habe. Vielen Dank an alle!
Antworten:
Vielen Dank, dass Sie die Daten zugänglich gemacht haben und sich für einen interessanten Datensatz und eine interessante grafische Herausforderung entschieden haben.
Mein Hauptvorschlag ist ein (Cleveland) Punktdiagramm.
Die wichtigsten Details möchte ich hervorheben:
Die Überlagerung ermöglicht und erleichtert den Vergleich.
Die Reihenfolge der Themen in Ihren Anzeigen erscheint recht willkürlich. Ohne eine natürliche Reihenfolge (z. B. Zeit, Raum, eine geordnete Variable) würde ich immer nach einer der Variablen sortieren, um einen Rahmen bereitzustellen. Welche zu verwenden ist, könnte eine Frage sein, ob man besonders interessant oder wichtig ist, die Entscheidung eines Forschers. Eine andere Möglichkeit besteht darin, die Unterschiede zwischen den Artikeln nach einem bestimmten Maß zu ordnen, sodass Themen, die eine ähnliche Berichterstattung erhalten, an einem Ende und Themen, die eine unterschiedliche Berichterstattung erhalten, am anderen Ende angezeigt werden.
Offene Markierungen oder Punktsymbole ermöglichen eine bessere Auflösung von Überlappungen oder Identitäten als geschlossene oder durchgezogene Markierungen oder Symbole, die sich im schlimmsten Fall gegenseitig verdecken oder verschleiern. (Eine Alternative, die hier recht gut funktionieren könnte, sind Briefe wie A, D und I für die drei Zeitungen.)
Es gibt eindeutig viel Spielraum, um mein Design zu verbessern. Ist der Schriftzug zum Beispiel zu groß und / oder zu schwer? Andererseits müssen die Überschriften leicht lesbar sein, sonst ist das Diagramm ein Fehler.
Einige kleinere, wählerischere Punkte:
ein. Rot und Grün in Ihrem Diagramm sind eine zu vermeidende Farbkombination. Wenn verschiedene Marker verwendet werden, ist die Farbauswahl etwas weniger wichtig.
b. Die horizontalen Häkchen in Ihrem Diagramm lenken ab. Im Gegensatz dazu werden meine Gitterlinien benötigt, aber ich versuche, sie durch dünne, helle Linien unauffällig zu machen.
Cleveland-Punktdiagramme schulden am meisten
Cleveland, WS 1984. Grafische Methoden für die Datenpräsentation: Skalenumbrüche, Punktdiagramme und mehrbasige Protokollierung. American Statistician 38: 270 & ndash; 80.
Cleveland, WS 1985. Elemente von Grafikdaten. Monterey, Kalifornien: Wadsworth.
Cleveland, WS 1994. Elemente von Grafikdaten. Summit, New Jersey: Hobart Press.
Ein Vorläufer (statistisch bekannter für ganz andere Arbeiten !!!) war
Pearson, ES 1956. Einige Aspekte der Geometrie der Statistik: Verwendung der visuellen Darstellung zum Verständnis der Theorie und Anwendung der mathematischen Statistik. Zeitschrift der Royal Statistical Society A 119: 125-146.
Für Interessenten wurde das Diagramm in Stata nach dem Einlesen der .csv mit Code erstellt
quelle
Das Punktdiagramm von Nick Cox ist wahrscheinlich das beste für das gesamte Bild. Wenn Sie wirklich die Beziehung zwischen dem ersten und dem zweiten Balken hervorheben möchten, finden Sie hier eine Änderung an Ihrem Diagramm, die den Differenzbalken um die Länge des zweiten Balkens versetzt.
Und für eine andere Gesamtansicht können Sie so etwas wie ein Steigungsdiagramm oder ein Parallelkoordinatendiagramm ausprobieren. Die Zeilen sind hier möglicherweise etwas überfüllt, aber es funktioniert möglicherweise, wenn Sie eine Teilmenge der Themen hervorheben möchten.
Sie können auch helpmeviz.com ausprobieren, das sich an sehr spezifischen Daten orientiert, z. B. an folgenden Fragen.
quelle
Mein erster Anlass war, eine mosaische Verschwörung vorzuschlagen . Jede Unterkategorie wird als Rechteck dargestellt, wobei eine Dimension die Gesamtanzahl für die Hauptkategorie und die andere Dimension den proportionalen Anteil der Unterkategorie darstellt. Es gibt ein R-Paket, mit dem sie gezeichnet werden können , aber es ist auch recht einfach, mit Grafikwerkzeugen niedrigerer Ebene zu arbeiten.
Mosaikdiagramme (wie prozentbasierte gestapelte Balkendiagramme) funktionieren jedoch am besten, wenn die Dimension, in der Sie die Proportionen vergleichen möchten, nur zwei oder drei Kategorien enthält. Sie würden also gut funktionieren, wenn Sie die Unterschiede zwischen Themen in Bezug auf den Anteil der Artikel in jeder der drei Zeitungen vergleichen möchten , aber nicht so sehr für Ihre beabsichtigte Verwendung, indem Sie die Unterschiede zwischen drei Zeitungen in Bezug auf den Anteil der Berichterstattung für jedes Thema vergleichen möchten . Eine subtile, aber wichtige Unterscheidung!
Für das, was Sie betonen möchten, denke ich, dass das effektivste Diagramm eines der einfachsten ist - ein gruppiertes Balkendiagramm. Mehr Menschen verstehen Balkendiagramme als Punktdiagramme. Auf einen Blick sehen Sie, dass Sie Mengen unterschiedlicher Größe vergleichen und die Werte, die Sie vergleichen möchten, nebeneinander liegen.
Allerdings , wenn Sie wirklich betonen die Unterschiede im Verhältnis wollen, könnten Sie einen benutzerdefinierten gruppierte Balkendiagramm erstellen, veränderte jede Gruppe so zu positionieren, dass der Medianwert pro Kategorie mit der Achse ausgerichtet ist, anstelle der Null - Werte:
Beachten Sie, dass die Balken in jeder Gruppe für einen einfachen Größenvergleich weiterhin ausgerichtet sind und dass die Grundlinie jeder Gruppe jetzt links von der Achse entsprechend dem Medianwert dieser Gruppe positioniert ist, während die Balken, die rechts von der Achse hervorstehen, gleich sind zu Ihrem zweiten Balkendiagramm, in dem der Unterschied zwischen den beiden obersten Kategorien angezeigt wird.
Unabhängig davon, ob Sie ein standardmäßiges gruppiertes Balkendiagramm oder ein versatzangepasstes Diagramm wie das oben beschriebene verwenden, können Sie dennoch eine Idee aus Mosaikplots ableiten und die Breite jedes Balkens proportional zur Gesamtzahl der Artikel für diese Zeitung machen (also der Größe von Der Balken ist proportional zur Anzahl der Artikel in dieser Zeitung in dieser Kategorie.
Da Ihre Teststatistik eine Eigenschaft jedes Vergleichs und nicht einzelner Werte ist, halte ich es nicht für sinnvoll, jeden Datenpunkt entsprechend der Signifikanz zu skalieren. Stattdessen würde ich neben jeder Gruppierung ein Symbol haben, das die Bedeutung darstellt. Für wissenschaftliche Veröffentlichungen hat der Standard
*
/**
/***
den Vorteil der Vertrautheit, aber Sie könnten kreativ werden, wenn Sie das gesamte Kontinuum der Statistik anzeigen möchten.quelle
Haben Sie eine Blasentabelle ausprobiert? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Die einzelnen Themen können Kreise sein, und jeder Kreis kann ein Kreisdiagramm des Prozentsatzes sein, zu dem jede Nachrichtenquelle das Thema abdeckt. Die Größe des Kreises kann auf die relative Abdeckung des Themas hinweisen. Wenn beispielsweise mehr Artikel über Öl als über Kultur geschrieben werden, hat der Ölkreis einen größeren Durchmesser.
quelle