Wie lassen sich Unterschiede in unterschiedlichen Anteilen in drei Gruppen am besten darstellen?

18

Ich versuche visuell zu vergleichen, wie drei verschiedene Nachrichtenpublikationen verschiedene Themen abdecken (bestimmt durch ein LDA-Themenmodell). Ich habe dazu zwei verwandte Methoden, aber viele Rückmeldungen von Kollegen erhalten, dass dies nicht sehr intuitiv ist. Ich hoffe, dass jemand da draußen eine bessere Idee hat, dies zu visualisieren.

In der ersten Grafik zeige ich die Proportionen der einzelnen Themen in jeder Veröffentlichung wie folgt:

Proportionen für alle Themen und Veröffentlichungen

Dies ist für fast alle, mit denen ich gesprochen habe, ziemlich einfach und intuitiv. Es ist jedoch schwierig, die Unterschiede zwischen den Veröffentlichungen zu erkennen. Welche Zeitung behandelt welches Thema mehr?

Um dies zu erreichen, habe ich den Unterschied zwischen der Publikation mit dem höchsten und dem zweithöchsten Anteil an Themen grafisch dargestellt, die von der Publikation mit dem höchsten Anteil gefärbt wurden. So was:

Unterschied zwischen erstem und zweithöchstem Thema

Die riesige Bar für Fußball ist also in Wirklichkeit die Entfernung zwischen al-Ahram English und Daily News Egypt (Nummer 2 in der Fußballberichterstattung), und sie ist rot gefärbt, weil Al-Ahram die Nummer 1 ist. In ähnlicher Weise sind Studien grün, da Egypt Independent den höchsten Anteil hat und die Balkengröße der Abstand zwischen Egypt Independent und Daily News Egypt (erneut Nummer 2) ist.

Die Tatsache, dass ich das alles in zwei Absätzen erklären muss, ist ein ziemlich sicheres Zeichen dafür, dass das Diagramm den Autarkietest nicht besteht. Es ist schwer zu sagen, was wirklich los ist, wenn man es nur ansieht.

Haben Sie allgemeine Vorschläge, wie Sie die dominierende Publikation für jedes Thema intuitiver hervorheben können?

Bearbeiten: Daten zum Spielen: Hier ist die dputAusgabe von R sowie eine CSV-Datei .

Bearbeiten 2: Hier ist eine vorläufige Version des Punktdiagramms mit den Durchmessern der Punkte, die proportional zum Anteil des Themas im Korpus sind (so wurden die Themen ursprünglich sortiert). Obwohl ich noch ein bisschen mehr daran arbeiten muss, fühlt es sich viel intuitiver an als das, was ich vorher getan habe. Vielen Dank an alle!

Punktdiagramm

Andrew
quelle
1
Ich habe gerade einige Daten hinzugefügt (für R und eine CSV). Ich habe die Auswahl guter Farben noch nicht abgeschlossen (daher das weihnachtliche Rot / Grün), obwohl ich mir der Probleme mit den Farbenblinden bewusst bin :)
Andrew
1
Die Erwähnung von "Proportionen" ist hier ein bisschen roter Faden, da die Daten keine wirklichen Proportionen sind und, was noch wichtiger ist, keine der grafischen Lösungen bisher davon abhängt, dass die Daten Proportionen sind. Dies ist gut, da die Lösungen für eine Vielzahl von Daten relevant sind, aber nicht irregeführt werden dürfen.
Nick Cox
(+1) Schöne Frage, inklusive herunterladbaren Datensatz und schnellem Follow-up!
Chl
Andrew, in Bezug auf deine letzte Bearbeitung denke ich, dass es mit den vertikalen Gitterlinien besser wäre. Sie erstellen ein Checker-Muster, bieten jedoch nur einen geringen Mehrwert, vorausgesetzt, Sie möchten keine genauen Werte aus dem Diagramm lesen.
xan
Ohne die vertikalen Linien?
Andrew

Antworten:

18

Vielen Dank, dass Sie die Daten zugänglich gemacht haben und sich für einen interessanten Datensatz und eine interessante grafische Herausforderung entschieden haben.

Mein Hauptvorschlag ist ein (Cleveland) Punktdiagramm.

Bildbeschreibung hier eingeben

Die wichtigsten Details möchte ich hervorheben:

  1. Die Überlagerung ermöglicht und erleichtert den Vergleich.

  2. Die Reihenfolge der Themen in Ihren Anzeigen erscheint recht willkürlich. Ohne eine natürliche Reihenfolge (z. B. Zeit, Raum, eine geordnete Variable) würde ich immer nach einer der Variablen sortieren, um einen Rahmen bereitzustellen. Welche zu verwenden ist, könnte eine Frage sein, ob man besonders interessant oder wichtig ist, die Entscheidung eines Forschers. Eine andere Möglichkeit besteht darin, die Unterschiede zwischen den Artikeln nach einem bestimmten Maß zu ordnen, sodass Themen, die eine ähnliche Berichterstattung erhalten, an einem Ende und Themen, die eine unterschiedliche Berichterstattung erhalten, am anderen Ende angezeigt werden.

  3. Offene Markierungen oder Punktsymbole ermöglichen eine bessere Auflösung von Überlappungen oder Identitäten als geschlossene oder durchgezogene Markierungen oder Symbole, die sich im schlimmsten Fall gegenseitig verdecken oder verschleiern. (Eine Alternative, die hier recht gut funktionieren könnte, sind Briefe wie A, D und I für die drei Zeitungen.)

Es gibt eindeutig viel Spielraum, um mein Design zu verbessern. Ist der Schriftzug zum Beispiel zu groß und / oder zu schwer? Andererseits müssen die Überschriften leicht lesbar sein, sonst ist das Diagramm ein Fehler.

Einige kleinere, wählerischere Punkte:

ein. Rot und Grün in Ihrem Diagramm sind eine zu vermeidende Farbkombination. Wenn verschiedene Marker verwendet werden, ist die Farbauswahl etwas weniger wichtig.

b. Die horizontalen Häkchen in Ihrem Diagramm lenken ab. Im Gegensatz dazu werden meine Gitterlinien benötigt, aber ich versuche, sie durch dünne, helle Linien unauffällig zu machen.

×

Cleveland-Punktdiagramme schulden am meisten

Cleveland, WS 1984. Grafische Methoden für die Datenpräsentation: Skalenumbrüche, Punktdiagramme und mehrbasige Protokollierung. American Statistician 38: 270 & ndash; 80.

Cleveland, WS 1985. Elemente von Grafikdaten. Monterey, Kalifornien: Wadsworth.

Cleveland, WS 1994. Elemente von Grafikdaten. Summit, New Jersey: Hobart Press.

Ein Vorläufer (statistisch bekannter für ganz andere Arbeiten !!!) war

Pearson, ES 1956. Einige Aspekte der Geometrie der Statistik: Verwendung der visuellen Darstellung zum Verständnis der Theorie und Anwendung der mathematischen Statistik. Zeitschrift der Royal Statistical Society A 119: 125-146.

Für Interessenten wurde das Diagramm in Stata nach dem Einlesen der .csv mit Code erstellt

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 
Nick Cox
quelle
Das ist großartig - danke! Die Prozentzahlen summieren sich leider zu nichts, da die Werte standardisierte Mittelwerte aus einem großen Korpus von Dokumenten sind (dh jedes Dokument in jeder Publikation besteht aus einer Kombination der 20 von LDA entdeckten Themen - dies zeigt die normalisierten Mittelwerte… daher die kleine Zahlen)
Andrew
Außerdem sind die Themen nach ihrem Anteil im Korpus geordnet. Ägypten Governance ist das am häufigsten auftretende Thema, während Sonstiges das seltenste Thema ist. Durch die Verwendung dieser Reihenfolge ist es jedoch etwas schwieriger, den Punkten / Symbolen visuell zu folgen.
Andrew
Das ist toll! Vielen Dank! Ich habe den ursprünglichen Beitrag aktualisiert, um Ihre Vorschläge zu berücksichtigen und Korpusanteile hinzuzufügen.
Andrew
(+6) Schöne Antwort! Und es ist immer schön, Referenzen und reproduzierbaren Code zu haben.
Chl
@chl Vielen Dank für dankbare Kommentare und den zusätzlichen Ruf.
Nick Cox
14

Das Punktdiagramm von Nick Cox ist wahrscheinlich das beste für das gesamte Bild. Wenn Sie wirklich die Beziehung zwischen dem ersten und dem zweiten Balken hervorheben möchten, finden Sie hier eine Änderung an Ihrem Diagramm, die den Differenzbalken um die Länge des zweiten Balkens versetzt.

Bildbeschreibung hier eingeben

Und für eine andere Gesamtansicht können Sie so etwas wie ein Steigungsdiagramm oder ein Parallelkoordinatendiagramm ausprobieren. Die Zeilen sind hier möglicherweise etwas überfüllt, aber es funktioniert möglicherweise, wenn Sie eine Teilmenge der Themen hervorheben möchten.

Bildbeschreibung hier eingeben

Sie können auch helpmeviz.com ausprobieren, das sich an sehr spezifischen Daten orientiert, z. B. an folgenden Fragen.

xan
quelle
Interessant! Minutenpunkt: Der Achsentitel oder die Bezeichnung "Proportion" stimmen nicht mit den Einheiten von% überein.
Nick Cox
Oh, das ist wirklich interessant. Ich werde damit spielen, um zu sehen, ob es das Punktdiagramm ergänzen kann.
Andrew
2

Mein erster Anlass war, eine mosaische Verschwörung vorzuschlagen . Jede Unterkategorie wird als Rechteck dargestellt, wobei eine Dimension die Gesamtanzahl für die Hauptkategorie und die andere Dimension den proportionalen Anteil der Unterkategorie darstellt. Es gibt ein R-Paket, mit dem sie gezeichnet werden können , aber es ist auch recht einfach, mit Grafikwerkzeugen niedrigerer Ebene zu arbeiten.

Mosaikdiagramme (wie prozentbasierte gestapelte Balkendiagramme) funktionieren jedoch am besten, wenn die Dimension, in der Sie die Proportionen vergleichen möchten, nur zwei oder drei Kategorien enthält. Sie würden also gut funktionieren, wenn Sie die Unterschiede zwischen Themen in Bezug auf den Anteil der Artikel in jeder der drei Zeitungen vergleichen möchten , aber nicht so sehr für Ihre beabsichtigte Verwendung, indem Sie die Unterschiede zwischen drei Zeitungen in Bezug auf den Anteil der Berichterstattung für jedes Thema vergleichen möchten . Eine subtile, aber wichtige Unterscheidung!

Für das, was Sie betonen möchten, denke ich, dass das effektivste Diagramm eines der einfachsten ist - ein gruppiertes Balkendiagramm. Mehr Menschen verstehen Balkendiagramme als Punktdiagramme. Auf einen Blick sehen Sie, dass Sie Mengen unterschiedlicher Größe vergleichen und die Werte, die Sie vergleichen möchten, nebeneinander liegen.

Allerdings , wenn Sie wirklich betonen die Unterschiede im Verhältnis wollen, könnten Sie einen benutzerdefinierten gruppierte Balkendiagramm erstellen, veränderte jede Gruppe so zu positionieren, dass der Medianwert pro Kategorie mit der Achse ausgerichtet ist, anstelle der Null - Werte:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Beachten Sie, dass die Balken in jeder Gruppe für einen einfachen Größenvergleich weiterhin ausgerichtet sind und dass die Grundlinie jeder Gruppe jetzt links von der Achse entsprechend dem Medianwert dieser Gruppe positioniert ist, während die Balken, die rechts von der Achse hervorstehen, gleich sind zu Ihrem zweiten Balkendiagramm, in dem der Unterschied zwischen den beiden obersten Kategorien angezeigt wird.

Unabhängig davon, ob Sie ein standardmäßiges gruppiertes Balkendiagramm oder ein versatzangepasstes Diagramm wie das oben beschriebene verwenden, können Sie dennoch eine Idee aus Mosaikplots ableiten und die Breite jedes Balkens proportional zur Gesamtzahl der Artikel für diese Zeitung machen (also der Größe von Der Balken ist proportional zur Anzahl der Artikel in dieser Zeitung in dieser Kategorie.

Da Ihre Teststatistik eine Eigenschaft jedes Vergleichs und nicht einzelner Werte ist, halte ich es nicht für sinnvoll, jeden Datenpunkt entsprechend der Signifikanz zu skalieren. Stattdessen würde ich neben jeder Gruppierung ein Symbol haben, das die Bedeutung darstellt. Für wissenschaftliche Veröffentlichungen hat der Standard */ **/ ***den Vorteil der Vertrautheit, aber Sie könnten kreativ werden, wenn Sie das gesamte Kontinuum der Statistik anzeigen möchten.

AmeliaBR
quelle
Die Hauptidee hierbei ist, die Balken vertikal zu gruppieren. Dies ist ein weit verbreitetes Design, das jedoch im Original des Posters 60 Balken anstatt 20 vertikal impliziert. Obwohl Sie die Breite der Balken deutlich anpassen können, benötigen Sie in diesem Fall mehr Platz, insbesondere, wenn Sie den Abstand zwischen den Gruppen erhöhen möchten.
Nick Cox
@NickCox Das ist ein Nachteil im Vergleich zum kompakteren Originaldiagramm, obwohl Sie das gesamte Diagramm um 90 Grad drehen könnten, wenn eine querformatige Figur für Ihr Gesamtlayout geeignet wäre.
AmeliaBR
Man könnte, aber 60 Balken sind auch von links nach rechts schwierig, und 20 Labels wie "Muslim Brotherhood and Politics" müssten lesbar bleiben ...
Nick Cox
Möglicherweise können Sie es zum Laufen bringen, indem Sie die Balken in einer Gruppe übereinander anstatt nebeneinander platzieren. Schwer zu sagen, ohne ein Modell zu sehen (und meine ASCII-Kunst ist nicht sehr gut darin, Aussehen und Gefühl zu vermitteln). Es wäre weniger intuitiv, da es keine so vertraute Struktur ist und zu Verwirrung führen könnte, wenn zwei Balken nahezu die gleiche Höhe haben. Wenn die Alternative ein Pixel breiter Balken ist ...
AmeliaBR
Sie nähern sich also dem Vorschlag in meiner Antwort eines Punktdiagramms.
Nick Cox
1

Haben Sie eine Blasentabelle ausprobiert? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Die einzelnen Themen können Kreise sein, und jeder Kreis kann ein Kreisdiagramm des Prozentsatzes sein, zu dem jede Nachrichtenquelle das Thema abdeckt. Die Größe des Kreises kann auf die relative Abdeckung des Themas hinweisen. Wenn beispielsweise mehr Artikel über Öl als über Kultur geschrieben werden, hat der Ölkreis einen größeren Durchmesser.

Rosinante
quelle
[X,Y]
1
@NickStauner Ich habe die bearbeitete Frage mit dem Datensatz nicht gesehen, als ich sie ursprünglich beantwortet habe. Die Koordinaten würden nicht viel bedeuten, aber die Anzahl der Veröffentlichungen. Die Kreise können thematisch oder nach Durchmesser gruppiert werden. Ich weiß nicht, warum Prozentsätze verwendet wurden, da die Zahlen extrem klein sind.
Rocinante