Benutzer sind häufig versucht, Achsenwerte zu unterbrechen, um Daten unterschiedlicher Größenordnungen in demselben Diagramm darzustellen (siehe hier ). Dies mag zwar praktisch sein, ist jedoch nicht immer die bevorzugte Art der Anzeige der Daten (kann bestenfalls irreführend sein). Was sind alternative Möglichkeiten zur Anzeige von Daten, die sich in mehreren Größenordnungen unterscheiden?
Ich kann mir zwei Möglichkeiten vorstellen, die Daten zu loggen oder Gitterdiagramme zu verwenden. Was sind andere Möglichkeiten?
data-visualization
logarithm
Roman Luštrik
quelle
quelle
Antworten:
Ich bin sehr vorsichtig bei der Verwendung von logarithmischen Achsen in Balkendiagrammen . Das Problem ist, dass Sie einen Startpunkt der Achse wählen müssen, und dies ist fast immer willkürlich. Sie können festlegen, dass zwei Balken sehr unterschiedliche oder fast die gleiche Höhe haben, indem Sie lediglich den Mindestwert auf der Achse ändern. Diese drei Diagramme zeichnen alle die gleichen Daten auf:
Eine Alternative zu diskontinuierlichen Achsen, die noch niemand erwähnt hat, besteht darin, einfach eine Wertetabelle anzuzeigen. In vielen Fällen sind Tabellen leichter zu verstehen als Grafiken.
quelle
Einige zusätzliche Ideen:
(1) Sie brauchen sich nicht auf eine logarithmische Transformation zu beschränken. Durchsuchen Sie diese Site beispielsweise nach dem Tag "data-transformation". Einige Daten eignen sich gut für bestimmte Transformationen wie Root oder Logit. (Solche Transformationen - sogar Protokolle - sollten normalerweise vermieden werden, wenn Grafiken für ein nicht technisches Publikum veröffentlicht werden. Andererseits können sie hervorragende Werkzeuge zum Anzeigen von Mustern in Daten sein.)
(2) Sie können eine kartografische Standardtechnik zum Einfügen eines Diagrammdetails in oder neben Ihr Diagramm ausleihen. Insbesondere würden Sie die Extremwerte für sich in einem Diagramm und alle (oder die) übrigen Daten in einem anderen Diagramm mit einem begrenzten Achsenbereich darstellen und dann die beiden grafisch zusammen mit (visuellen und / oder geschriebenen) Angaben zur Beziehung anordnen zwischen ihnen. Stellen Sie sich eine Karte der USA vor, auf der Alaska und Hawaii in unterschiedlichen Maßstäben eingezeichnet sind. (Dies funktioniert nicht mit allen Arten von Diagrammen, kann jedoch mit den Balkendiagrammen in Ihrer Abbildung effektiv sein.)
(3) Sie können den unterbrochenen Plot neben demselben Plot auf nicht unterbrochenen Achsen anzeigen.
(4) Wählen Sie für Ihr Balkendiagrammbeispiel eine geeignete (möglicherweise stark gedehnte) vertikale Achse und stellen Sie ein Schwenkdienstprogramm bereit. [Dies ist mehr ein Trick als eine wirklich nützliche Technik, IMHO, aber es könnte in einigen besonderen Fällen nützlich sein.]
(5) Wählen Sie ein anderes Schema aus, um die Daten anzuzeigen. Wählen Sie anstelle eines Balkendiagramms, das die Länge zur Darstellung von Werten verwendet, ein Diagramm aus, in dem die Symbolbereiche beispielsweise die Werte darstellen. [Offensichtlich sind hier Kompromisse beteiligt.]
Ihre Wahl der Technik hängt wahrscheinlich vom Zweck des Plots ab: Plots, die für die Datenexploration erstellt wurden, unterscheiden sich häufig von Plots für das allgemeine Publikum.
quelle
Vielleicht kann es als Gitter klassifiziert werden, aber ich werde es versuchen; Zeichnen Sie alle Balken, die in einem Bereich auf den höchsten Wert skaliert sind, und setzen Sie einen anderen Bereich mit dem Zoom auf die unteren. Ich habe diese Technik einmal im Falle eines Streudiagramms angewendet, und das Ergebnis war ziemlich gut.
quelle
Ich würde das Problem der Holzachsen vom Problem der Balkendiagramme trennen.
Balkendiagramme können niemals sinnvoll sein, wenn es keinen sinnvollen und festen Ursprung gibt, der die Rolle eines Steuerelements übernimmt (Grundlinie, Leerzeichen). Das hat aber nichts mit den Holzachsen zu tun.
Die einzige regelmäßige Verwendung, die ich für Balkendiagramme habe, sind Histogramme. Aber ich könnte mir vorstellen, dass sie gut dazu beitragen, den Unterschied zu diesem Ursprung zu zeigen (man sieht auch sofort, ob der Unterschied positiv oder negativ ist). Da die Balken einen Bereich darstellen, neige ich dazu, Balkendiagramme als eine sehr diskrete Version des Bereichs unter einer Kurve zu betrachten. Das heißt, die x-Achse sollte eine metrische Bedeutung haben (was bei der Zeit der Fall sein kann, bei Städten jedoch nicht).
Wenn ich mich fragen würde, welchen Ursprung ich für das Protokoll von etwas verwenden soll, das einen "natürlichen" Ursprung bei 0 hat, würde ich einen Schritt zurücktreten und ein wenig darüber nachdenken, was los ist. Sehr oft sind solche Probleme nur ein Hinweis darauf, dass das Protokoll hier keine sinnvolle Transformation darstellt.
Nun würde ein Balkendiagramm mit logarithmischen Achsen Zunahmen oder Abnahmen betonen, die in Vielfachen auftreten. Vernünftige Beispiele, die ich mir gerade vorstellen kann, haben alle eine lineare Beziehung zu einem interessierenden Wert. Aber vielleicht findet jemand anderes ein gutes Beispiel.
Daher denke ich, dass die Datenumwandlung in Bezug auf die Bedeutung der vorliegenden Daten sinnvoll sein sollte. Dies ist bei den oben erwähnten physikalisch-chemischen Einheiten der Fall (A ist proportional zu den Konzentrationen, und der pH-Wert hat beispielsweise einen linearen Zusammenhang mit der Spannung in einem pH-Meter). In der Tat ist es so sehr der Fall, dass die Protokolleinheit einen neuen Namen erhält und linear verwendet wird.
Last but not least komme ich aus der Schwingungsspektroskopie, wo häufig gebrochene Achsen verwendet werden. Und ich betrachte dies als eines der wenigen Beispiele, bei denen das Brechen der Achsen nicht täuscht. Wir haben jedoch keine Änderungen in der Größenordnung. Wir haben nur einen nicht informativen Bereich von 30 - 40% unseres x-Bereichs: Hier ein Beispiel: Für dieses Beispiel kann der Teil zwischen 1800 - 2800 / cm keine nützlichen Informationen enthalten.
Der nicht informative Spektralbereich wird daher entfernt (was auch die Spektralbereiche angibt, die wir tatsächlich für die chemometrische Modellierung verwenden):
Für die Interpretation der Daten benötigen wir jedoch genaue Ablesungen der x-Position. Aber im Allgemeinen brauchen wir keine Vielfachen, die die verschiedenen Bereiche abdecken (dh es gibt solche Beziehungen, aber die meisten Verbindungen sind komplizierter. Bsp .: Signal bei 3050 / cm, daher haben wir ungesättigte oder aromatische Substanzen. Aber kein starkes Signal bei 1000 / cm , also kein mono-, meta- oder 1,3,5-substituierter aromatischer Ring ...)
Daher ist es besser, x in größerem Maßstab darzustellen (tatsächlich verwenden wir oft millimeterförmige Hilfslinien oder beschriften die genauen Positionen). Also brechen wir die Achse und erhalten eine größere x-Skalierung:
Eigentlich ist es sehr ähnlich wie beim Facettieren:
aber die gebrochene Achse IMHO betont, dass die Skalierung der x-Achse in beiden Teilen gleich ist. Dh die Intervalle innerhalb der gezeichneten Regionen sind gleich.
Um kleine Intensitäten (y-Achse) hervorzuheben, verwenden wir vergrößerte Einfügungen:
[ ... Für Details siehe den vergrößerten (x 20) νCH-Bereich in blau .... ]
Und dies ist sicherlich auch mit dem Beispiel in den verknüpften Plots möglich.
quelle
Zwei Ideen, die angedeutet, aber nicht explizit beschrieben wurden, als ich mir die hervorragenden Antworten und Kommentare ansah, waren, dass Sie ein Balkendiagramm "in einer Weise verwenden, die mit der Beschriftung unvereinbar ist" und normalisierte / dimensionslose Daten.
Grundstückstyp:
Die Stern- / Spinnen- / Radarkarte (Link) (Link) eignet sich oft sehr gut, um mehrere verschiedene Dinge entlang mehrerer Koordinaten zu vergleichen. Es gibt eine Reihe von sehr nützlichen Darstellungen, die (leider) in Unternehmenspräsentationen selten vorkommen, wahrscheinlich, weil die Führung lieber Schlussfolgerungen zieht, um Entscheidungen zu treffen, als Informationen zu nutzen, um Verständnis zu erlangen und dann das Verständnis zu nutzen, um Entscheidungen zu treffen. In der Wirtschaft ist es manchmal sehr schwierig, einen Konsens zu erzielen, und so kann der Nur-Ergebnisse-Ansatz in einem Umfeld, in dem Konsens und Entscheidung an erster Stelle stehen, einen höheren Ertrag bringen. Dies informiert die Popularität des Balken- / Säulendiagramms. Bitte beachten Sie die Beispiele anderer Diagrammtypen, die zum Verständnis hilfreich sind (Link) .
Transformation:
Wenn Sie die Werte, die Sie darstellen, durch einen "charakteristischen" Wert teilen, können Sie die Skalierung transformieren, um die Lesbarkeit zu verbessern, ohne Informationen zu verlieren. Fluiddynamiker bevorzugen dimensionslose Zahlen aufgrund ihrer prädiktiven Nützlichkeit und ihrer Elastizität bei der Anwendung. Sie betrachten Dinge wie das Buckingham-Pi-Theorem als Quellen für dimensionslose Formen (Link) . Beliebte und nützliche dimensionslose Zahlen sind Reynolds-Zahl, Mach-Zahl, Biot-Zahl, Grashof-Zahl, Pi-Zahl, Raleigh-Zahl, Stokes-Zahl und Sherwood-Zahl. (Verknüpfung) Sie müssen kein Physiker sein, um dimensionslose Zahlen zu lieben, da sie in nicht-physikalischen Anwendungen nützlich sind. Messungen wie Dichte, Homogenität, Zirkularität und Koplanarität können Bilder, Pixelfelder oder multivariate Wahrscheinlichkeitsverteilungen definieren. Berücksichtigen Sie nicht nur einen Logarithmus oder einen relativen Abstand von einem bekannten Wert - Sie können auch in Betracht ziehen, die Zahlen zu invertieren und ihre Quadratwurzeln zu ziehen.
Viel Glück. Bitte lassen Sie uns wissen, wie sich die Dinge entwickeln.
quelle
Die Lösung mit unterbrochener Achse funktioniert am besten, wenn eine deutliche Unterbrechung in der gesamten Zeichnung vorliegt und die Ordinate so beschriftet ist, dass die Lücke offensichtlich ist. Dies hat den Vorteil, dass die Skalierung über die beiden Wertesätze erhalten bleibt. Paneldiagramme mit unterschiedlichen Maßstäben geben möglicherweise nicht die relative Variation innerhalb der niedrigen und hohen Gruppen wieder. Ich mag die Idee des Zoom-In-Diagramms, das ich für Streudiagramme programmiert habe, aber nicht für Balkendiagramme verwenden wollte.
quelle