Ich erstelle eine Grafik, um die Trends der Sterblichkeitsraten (pro 1000 Einwohner) in verschiedenen Ländern darzustellen, und die Geschichte, die sich aus der Handlung ergeben sollte, ist, dass Deutschland (hellblaue Linie) der einzige ist, dessen Trend nach 1932 zunimmt. Dies ist Mein erster (einfacher) Versuch
Meiner Meinung nach zeigt dieses Diagramm bereits, was wir damit sagen wollen, aber es ist nicht sehr intuitiv. Haben Sie einen Vorschlag, um diese Unterscheidung zwischen Trends deutlicher zu machen? Ich habe überlegt, Wachstumsraten zu zeichnen, aber ich habe es versucht, und es ist nicht so besser.
Die Daten sind die folgenden
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
PhDing
quelle
quelle
Antworten:
Manchmal ist weniger mehr. Mit weniger Details zu den jährlichen Schwankungen und den Länderunterschieden können Sie mehr Informationen zu den Trends bereitstellen . Da die anderen Länder größtenteils zusammenziehen, kommt man ohne separate Farben aus.
Wenn Sie einen Smoother verwenden, muss der Leser darauf vertrauen, dass Sie keine interessanten Variationen geglättet haben.
Update nach einigen Code-Anfragen :
Ich habe dies in JMPs interaktivem Graph Builder gemacht. Das JMP-Skript lautet:
));
quelle
Hier gibt es gute Antworten. Lassen Sie sich beim Wort nehmen, dass Sie zeigen wollen, dass sich der Trend für Deutschland vom Rest unterscheidet. Niveaus gegen Änderungen ist eine allgemeine Unterscheidung in der Wirtschaft. Ihre Daten befinden sich in Ebenen , Ihre Frage wird jedoch als Änderungssuche angegeben . Die Möglichkeit dazu besteht darin, den Referenzpegel (hier 1932) auf . Von da an ist jedes aufeinanderfolgende Jahr ein Bruchteil des vorherigen. (Es ist üblich, Protokolle zu führen, um Änderungen stabiler und symmetrischer zu machen. Dies ändert die Bedeutung der exakten Zahlen ein wenig. Wenn Sie wirklich möchten, dass jemand diese aus dem Plot entnimmt, möchten die Leute dies normalerweise tun In der Lage, das Muster zu sehen.) Sie erhalten dann eine laufende Summe für jede Serie und multiplizieren es mit100 1001 100 vereinbarungs. Das ist, was Sie planen. Ihr Fall ist insofern etwas seltener, als sich Ihr Bezugspunkt in der Mitte Ihrer Serie befindet. Daher habe ich ihn ab 1932 in beide Richtungen durchlaufen lassen. Nachfolgend finden Sie ein einfaches Beispiel, das in R codiert ist (es gibt viele Möglichkeiten, den Code und zu erstellen) Plot schöner, aber dies sollte die Idee direkt zeigen). Ich habe die Linie für Deutschland dicker gemacht, um sie in der Legende zu unterscheiden, und ich habe eine Referenzlinie bei hinzugefügt . Es ist leicht zu erkennen, dass sich Deutschland vom Rest abhebt. Sie können auch sehen, dass alle anderen Länder 1937 niedrigere Raten aufweisen als 1932, und dass ihre jährlichen Veränderungen in den Jahren nach 1932 viel weniger schwanken als in den Jahren davor. 100
Im Gegensatz dazu ist unten eine entsprechende Darstellung der Daten in Ebenen. Trotzdem habe ich versucht, auf zwei Arten zu erkennen, dass Deutschland nach 1932 allein in die Höhe geht: Ich habe 1932 auf jeder Serie einen markanten Punkt gesetzt und auf diesen Ebenen im Hintergrund eine schwache graue Linie über die Handlung gezogen.
quelle
Hier gibt es viele gute Ideen in anderen Antworten, aber sie erschöpfen nicht die guten Lösungen, die möglich sind. Das erste Diagramm in dieser Antwort geht davon aus, dass unterschiedliche Sterblichkeitsraten separat diskutiert und erklärt werden können. Indem jede Serie einen Großteil des verfügbaren Raums ausfüllt, lenkt sie die Aufmerksamkeit der Leser auf Muster relativer Veränderungen.
Die alphabetische Reihenfolge nach Ländern ist normalerweise eine blöde Voreinstellung und wird hier nicht betont. Zum Glück steht Germany as de im Mittelpunkt dieses 3 x 3 Displays. Eine einfache Erzählung - Schau! Deutschlands Muster ist mit einem Aufschwung von 1932 außergewöhnlich - möglich und plausibel.
Glücklicherweise, aber glücklicherweise, reichen 9 Länder aus, um zu rechtfertigen, separate Panels zu versuchen, aber nicht zu viele, um dieses Design nicht praktikabel zu machen (mit etwa 30 und mit Sicherheit 300 Panels könnten (würden) zu viele Panels gescannt werden, von denen jedes zu klein ist prüfen).
Offensichtlich gibt es hier viel Platz für umfassendere Ländernamen. (In einigen anderen Antworten beanspruchen Legenden einen großen Teil des verfügbaren Speicherplatzes, bleiben jedoch ein wenig kryptisch. In der Praxis ist es für die an solchen Daten Interessierten einfach, die Länderabkürzungen zu dekodieren, aber inwieweit die Legende benötigt wird, ist häufig eine störendes Problem bei der grafischen Gestaltung.)
Statuscode für den Datensatz:
BEARBEITEN:
Eine einfache Verbesserung dieses von Tim Morris vorgeschlagenen Diagramms besteht darin, das Jahr hervorzuheben, in dem das Maximum aufgetreten ist:
EDIT 2 (überarbeitet, um einfacheren Code anzuzeigen):
Alternativ zeigt dieses nächste Design jede Serie einzeln, aber jedes Mal mit der anderen Serie als Hintergrund. Die allgemeine Idee wird in diesem verwandten Thread erörtert .
Hier gibt es sowohl Verluste als auch Gewinne. Während jede Serie leichter im Kontext der anderen zu sehen ist, geht durch Wiederholung Platz verloren.
Statuscode für den Datensatz:
(Code
input
,reshape
,rename
wie oben in dieser Antwort)fabplot
ist zu verstehen alsf
Vordergrund oderf
Vordergrunda
undb
Hintergrund oderb
Hintergrund, nicht als ein Echo des Slangs der 1960er Jahre für "fabelhaft".quelle
year
als x- Achsen-Titel (wer braucht das?). Ich werde das zu einem Stata-Benutzer hinzufügen, die natürliche Datenstruktur wäre eine, die einrename
und nicht verpflichtetreshape
. hat aber unterschiedliche Tafeln (hier Länder) als unterschiedliche Beobachtungsblöcke.Ihr Diagramm ist vernünftig, erfordert jedoch eine gewisse Verfeinerung, einschließlich eines Titels, Achsenbeschriftungen und vollständiger Länderbeschriftungen. Wenn Sie betonen möchten, dass Deutschland das einzige Land ist, in dem die Sterblichkeitsrate im Beobachtungszeitraum gestiegen ist, können Sie dies auf einfache Weise erreichen, indem Sie diese Linie in der Handlung entweder durch eine dickere Linie oder durch eine andere hervorheben Linientyp oder Alpha-Transparenz. Sie können Ihr Zeitreihendiagramm auch mit einem Balkendiagramm ergänzen, das die Änderung der Sterblichkeitsrate im Zeitverlauf anzeigt, sodass die Komplexität der Zeitreihenlinien auf ein einziges Maß für die Änderung reduziert wird.
So können Sie diese Diagramme mit
ggplot
in erstellenR
:Dies führt zu folgenden Darstellungen:
Anmerkung: Mir ist bekannt, dass das OP beabsichtigte, die Veränderung der Sterblichkeitsrate seit 1932 herauszustellen, als sich der Trend in Deutschland zu verstärken begann. Dies scheint mir ein bisschen wie ein Kirschpflücken zu sein, und ich finde es zweifelhaft, wenn Zeitintervalle ausgewählt werden, um einen bestimmten Trend zu erhalten. Aus diesem Grund habe ich das Intervall über den gesamten Datenbereich betrachtet, was ein anderer Vergleich zum OP ist.
quelle
Obwohl das erklärte Ziel darin besteht, Änderungen anzuzeigen , möchten Sie anscheinend auch die jährlichen Zeitreihen nach Ländern anzeigen . Das bedeutet, die Grafik nicht komplett zu wiederholen, sondern nur zu modifizieren.
Da sich eine Änderung darauf bezieht, was von einem Jahr zum nächsten geschieht, können Sie die Änderungen durch grafische Symbole darstellen, die sich über mehrere Jahre erstrecken, dh die Liniensegmente, die die Datenpunkte im Diagramm verbinden.
Da Farbe für die Unterscheidung von Ländern so nützlich ist und ansonsten quantitative Variablen nicht so gut anzeigt, bleiben uns im Wesentlichen nur zwei andere Merkmale, die variiert werden können, um eine Veränderung anzuzeigen: der Stil und die Dicke der Segmente. Da es sich bei Ihrer Arbeit um eine positive Änderung handelt, sollten Sie Liniensegmente für Erhöhungen hervorheben: Ihre Stile sollten kontinuierlicher und dicker sein.
Schließlich befasst sich Ihre These mit Daten nach 1932. Wir wollen diese Elemente der Grafik im Verhältnis zu den anderen hervorheben. Dies kann durch Sättigung der Farbe erfolgen.
Diese Lösung liefert sofort Erkenntnisse, die im Original nicht erkennbar waren:
Kein Land verzeichnete für alle Jahre nach 1932 einen jährlichen Anstieg der Sterbeziffern. Ein solches Land würde als durchgehende durchgezogene Linie erscheinen, es ist jedoch keine solche Linie vorhanden.
Ein Großteil der Veränderung sollte auf Faktoren zurückgeführt werden, die allen Ländern gemeinsam sind. Dies zeigt sich in den Ähnlichkeiten von Linienstil und Linienstärke in vertikalen Spalten. Während des Zeitraums von 1934 bis 1935 beispielsweise stiegen die Sterberaten in fast allen Ländern, während sie in den Jahren 1933 bis 1934 in fast allen Ländern zurückgingen.
In Deutschland war ein starker Anstieg der Sterblichkeitsraten in den Jahren 1932-33 und ein leichter Anstieg in den Jahren 1935-36 ungewöhnlich .
Dies deutet darauf hin, dass eine robuste Zwei-Wege-Untersuchung der Veränderung der Sterblichkeitsrate gegenüber dem Land durchgeführt wird, möglicherweise nach dem Mittelwert, um die relative Leistung der europäischen Länder in diesem Zeitraum besser zu erfassen .
Wenn Sie nur den Unterschied zwischen 1937 und 1932 hervorheben möchten, können Sie mit einer ähnlichen Technik die Abschnitte der Pfade zwischen diesen Daten symbolisieren. Deutschland würde auffallen:
quelle
Slopegraphs
Eine Möglichkeit, Ihre Daten darzustellen, ist die Verwendung eines Slopegraphen, der sich besonders gut zum Vergleichen von Änderungen oder Verläufen eignet (einige Links: 1 2 ).
Drunter ist
Links ein Beispiel für einen Slopegraph, der zeigt, wie dies für Ihren Fall aussieht.
In der Mitte ein komplexerer Slopegraph, der auch das Jahr 1932 zeigt
Rechts eine Variation des Slopegraphen, eher eine Art Sparklines, in denen alle Daten angezeigt werden (dh keine geraden Linien).
Ich bin mir nicht sicher, welches das Beste ist. Die dritte / rechte Option gibt einen genaueren Überblick über die Schwankungen von Jahr zu Jahr (und zum Beispiel wird deutlicher, dass Dänemark und Deutschland nicht so unterschiedlich aussehen und von Jahr zu Jahr stark auf und ab gehen), kann es aber auch ablenken (vor allem der 1929er Höhepunkt). Welche besser ist, hängt also davon ab, was Sie mit der Grafik vermitteln möchten und wie detailliert Ihre Geschichte sein muss (z. B. die Wende um 1932 mit der anderen Regierung, was in der zweiten / mittleren Option klarer wird).
Die Variation des Slopegraphen auf der rechten Seite ähnelt der Grafik von Xan. Neben den stilistischen Unterschieden gibt es jedoch einen weiteren wichtigen Unterschied. Die Breite und Höhe der Figur sind so gewählt, dass der Winkel der Kurven nahe bei 45 Grad liegt. Auf diese Weise sind die Unterschiede ausgeprägter (ich glaube, dass das beste Beispiel das Sonnenfleck-Beispiel von Edward Tufte ist )
Mehr Kontext
Wenn Sie mehr Komplexität als den einfachen Slopegraph hinzufügen möchten, ist es meiner Meinung nach tatsächlich besser, mehr Daten außerhalb des Bereichs von 1927 bis 1937 als innerhalb des Bereichs anzuzeigen . (Wieder ein Beispiel von Tufte von den Seiten 74-75 unter Die visuelle Anzeige quantitativer Informationen, das Sie über diese Seite im Schwarzen Brett auf seiner Website aufrufen können.)
Das folgende Beispiel zeigt Daten für die Jahre 1900-2000 (mit Ausnahme von Polen, dessen Daten etwas schwierig sind), die aus Wikipedia extrahiert wurden (z. B. diese Seite für die Tschechische Republik ) und für die Schweiz und die Niederlande ihre nationalen Statistikämter ( bfs und Statline ).
(Die Daten sind ein bisschen anders als Ihre, aber die gleichen wie zum Beispiel der Artikel "Autarkie, Marktzerfall und Gesundheit: Die Sterblichkeits- und Ernährungskrise in Nazideutschland, 1933-1937" von Jörg Baten und Andrea Wagner. Dieser Artikel ist interessant zu lesen, da sie viel mehr Daten liefern als nur rohe Sterblichkeitsraten, sich aber auch auf einen kleinen Zeitraum beschränken: Besonders interessant ist, dass der Anstieg der Sterblichkeitsrate von 1932 bis 1937 hauptsächlich in Städten in einem Streifen von Frankfurt nach Bremen zu verzeichnen war und Hamburg)
Ich halte diese Grafik für wichtig, da sie zeigt, dass Deutschland vor dem Aufstieg nach 1932 einen sehr starken Rückgang verzeichnete. Stärker als andere Länder. Sie können also negative und positive Interpretationen haben. Die Sterblichkeitsrate in Deutschland stieg zwischen 1932 und 1937 stärker als in anderen Ländern. War dies (1) ein Anstieg von einem niedrigen Gipfel weg oder (2) ein Anstieg in Richtung eines hohen Gipfels? Ein interessanter Aspekt in dieser Hinsicht ist, dass das Niveau von 1932 von 10,8 für Deutschland ein sehr niedriges Niveau ist (zu diesem Zeitpunkt hatten nur die Niederlande eine niedrigere Sterblichkeitsrate). Dies ist nicht nur der niedrigste Stand seit 1937, sondern es dauert auch bis 1995, bis dieser Wert von 10,8 wieder erreicht ist.
Ein weiterer Punkt im Zusammenhang mit der Gesundheit (wenn dies Ihr Kontext ist): Es ist möglicherweise besser, die Lebenserwartung zu vergleichen. Die demografische Zusammensetzung der Bevölkerung hat einen Einfluss auf die Sterblichkeitsrate, unabhängig von Änderungen der Gesundheitssituation
Ein bisschen weniger zusätzlicher Kontext
Die obige Grafik zeigt die Gesamtheit, kann aber für die meisten Zwecke ein Overkill sein (außer in diesem Beitrag, in dem ich die gesamte Geschichte zeigen wollte und es eher zu Erkundungszwecken ist). Die Grafik unten ist eine Alternative, die meines Erachtens immer noch in Ordnung ist.
quelle
Kommt auf das Publikum an, aber ich würde die Dinge vereinfachen:
Dann buchstabieren Sie es in der Überschrift zB
(Übrigens, was ist ch vs. cz, dh in welchem Land fehle ich oben?)
Um gründlich zu sein, müssen Sie das natürlich nach
death rate
einer Schätzung der Bevölkerung gewichten, wenn Sie dies für die "Anderen" "zusammenfassen", aber ich bin sicher, dass Ihnen diese Informationen jederzeit zur Verfügung stehen.Update 09.06.18: Dies ist natürlich eine "Spielzeug" -Skizze und wurde nicht aus den Daten abgeleitet; Die Idee ist, einen groben Entwurf der Form zu liefern, die ein Diagramm annehmen sollte.
oder besser, wenn Sie Bevölkerungsinformationen haben. für jedes Jahr:
Abhängig von der Leserschaft (z. B. Epidemiologen vs. Historiker) könnte eine Standardabweichung oder ein Standardfehler zu letzterer hinzugefügt werden, obwohl ich denke, dass dies das einfache Erscheinungsbild der Handlung eher beeinträchtigen würde.
quelle
ch
ist die Schweiz. (Übrigens war es in den 30er Jahren noch nicht die Tschechische Republik .) - Was mir an Ihrem Ansatz nicht gefällt, ist, dass es nicht klar ist, dass der Abwärtstrend in den anderen Ländern konsistent ist. Es könnte den Anschein haben, als gäbe es nur zufällige Schwankungen, die in den anderen Ländern durchschnittlich negativ sind, in Deutschland jedoch positiv ausfallen.Wenn Sie die Änderung hervorheben möchten, berechnen Sie diese und zeigen Sie sie an. Die Verwendung einer Heatmap zur Anzeige der Änderungen kann nützlich sein, da Vergleiche ohne Überzeichnung von Problemen möglich sind und Interpolationsprobleme vermieden werden, die durch Liniendiagramme verursacht werden können.
Verwenden Sie Ihre Daten wie
d
in R:Beachten Sie, dass sich die Daten jetzt gegenüber dem Vorjahr geändert haben. Sie können sehen, dass Deutschland nach 1932 eine Reihe von Blues (Anstieg der Sterblichkeitsraten) hat, die andere Länder nicht haben. Sie können auch sehen, dass zwischen 1934 und 1935 in allen Ländern außer Polen die Sterblichkeitsraten gestiegen sind, aber die Tendenz in Deutschland scheint zwischen 1932 und 1933 und zwischen 1935 und 1936 (sowie zwischen 1927 und 1928) zu schwanken.
Interessant ist, dass die Farben links intensiver sind als rechts. Dies bedeutet, dass das Ausmaß der Änderungen zu Beginn des Berichtszeitraums höher und gegen Ende gedämpfter war.
Ich würde empfehlen, dies mit einem Liniendiagramm zu kombinieren, das auch die Pegel zeigt.
quelle
Hier zeige ich Ihnen die Differenz des Logarithmus des Todesquotienten pro 1000 Einwohner gegenüber dem Vorjahr (daher wird 1927 nicht gezeigt). Deutschland ist rot dargestellt, während der Durchschnitt anderer Länder in der dicken schwarzen Linie dargestellt ist.
Deutschland verzeichnete in 5 von 10 Jahren einen Anstieg der Quote. Nach 1932 hieß es bis 1937 über dem Durchschnitt anderer Länder (und größtenteils positiv).
Warum aber der Logarithmus? Der Grund ist einfach: Der Wechsel von 2 zu 1 ist drastischer als der Wechsel von 1000 zu 999 :)
Code:
quelle
Eine weitere Version: Verhältnisse (mittlere Sterbeziffer von 1927 bis zum laufenden Jahr) / (Sterbeziffer 1927)
Fertig mit Mathematica-Code
(Peaks im Jahr 1929 scheinen mit einer Grippepandemie in Verbindung zu stehen, die zu dieser Zeit auftrat.)
quelle