Was sind Alternativen zu gebrochenen Achsen?

28

Benutzer sind häufig versucht, Achsenwerte zu unterbrechen, um Daten unterschiedlicher Größenordnungen in demselben Diagramm darzustellen (siehe hier ). Dies mag zwar praktisch sein, ist jedoch nicht immer die bevorzugte Art der Anzeige der Daten (kann bestenfalls irreführend sein). Was sind alternative Möglichkeiten zur Anzeige von Daten, die sich in mehreren Größenordnungen unterscheiden?

Ich kann mir zwei Möglichkeiten vorstellen, die Daten zu loggen oder Gitterdiagramme zu verwenden. Was sind andere Möglichkeiten?

Roman Luštrik
quelle
1
Diese Excel-Anleitungen sehen ziemlich
5
Können Sie sich vorstellen, wie ein Tutorial zu R für eine Person aussieht, die in ihrem Leben noch nie eine Codezeile gesehen hat? :)
Roman Luštrik
3
Ok, aber ich kann mir auch vorstellen, dass all diese Leute Dutzende von Taktpausen manuell in Excel zeichnen und glauben, dass dies eine einzige (und damit einfachste und schnellste) Möglichkeit ist. Oder Menschen, die stundenlang versuchen, die Formatierung in einem großen Word-Dokument zu vereinheitlichen.
1
"Vater, vergib ihnen, denn sie wissen nicht, was sie tun." kommt in den Sinn. :)
Roman Luštrik
3
Offizielle Band von stats.stackexchange.com: The Broken Axes.
Matt Parker

Antworten:

17

Ich bin sehr vorsichtig bei der Verwendung von logarithmischen Achsen in Balkendiagrammen . Das Problem ist, dass Sie einen Startpunkt der Achse wählen müssen, und dies ist fast immer willkürlich. Sie können festlegen, dass zwei Balken sehr unterschiedliche oder fast die gleiche Höhe haben, indem Sie lediglich den Mindestwert auf der Achse ändern. Diese drei Diagramme zeichnen alle die gleichen Daten auf: Alt-Text

Eine Alternative zu diskontinuierlichen Achsen, die noch niemand erwähnt hat, besteht darin, einfach eine Wertetabelle anzuzeigen. In vielen Fällen sind Tabellen leichter zu verstehen als Grafiken.

Harvey Motulsky
quelle
3
Diese Grafiken sehen auch deshalb sehr irreführend aus, weil Sie keine Fehlerbalken darauf haben. Wenn Sie Fehlerbalken hinzufügen, ist der Unterschied geringer. Oder Sie können Box-and-Whisker-Diagramme verwenden, mit denen diese Art von Problemen größtenteils vermieden wird.
Nico
5
IMHO ist der Ursprung ein Problem der Balkendiagramme und hat nichts mit dem Logarithmus zu tun. Mit Linearachsen können Sie den gleichen täuschenden Eindruck erzielen.
cbeleites unterstützt Monica am
@ Glaubwürdigkeiten. Ja, Sie können irreführende Balkendiagramme mit einer linearen Achse erstellen, indem Sie die Grundlinie ändern. Bei einer linearen Achse ist die natürliche Grundlinie jedoch Null. Bei logarithmischen Achsen gibt es in den meisten Kontexten keine natürliche Grundlinie.
Harvey Motulsky
@ HarveyMotulsky: Ich bitte nicht zustimmen. Es gibt eine ganze Datenklasse, die durch logarithmische Achsen gut beschrieben wird und eine natürliche Basis hat: multiplikative Änderungen / Verhältnisse. In Ihrem Beispiel ist das behandelte Signal möglicherweise das 15-fache des Steuersignals. Wenn diese Annahme für die Anwendung sinnvoll ist, haben Sie eine "natürliche" Grundlinie für das Protokoll. Wenn nicht, ist vielleicht eine andere Transformation sinnvoller?
cbeleites unterstützt Monica am
1
@cbeleites Ich stimme zu, dass es Sinn macht, die Variable auf einer logarithmischen Skala anzuzeigen, wenn die Variable ein Verhältnis ist, also 1,0 eine natürliche Grundlinie ist.
Harvey Motulsky
11

Einige zusätzliche Ideen:

(1) Sie brauchen sich nicht auf eine logarithmische Transformation zu beschränken. Durchsuchen Sie diese Site beispielsweise nach dem Tag "data-transformation". Einige Daten eignen sich gut für bestimmte Transformationen wie Root oder Logit. (Solche Transformationen - sogar Protokolle - sollten normalerweise vermieden werden, wenn Grafiken für ein nicht technisches Publikum veröffentlicht werden. Andererseits können sie hervorragende Werkzeuge zum Anzeigen von Mustern in Daten sein.)

(2) Sie können eine kartografische Standardtechnik zum Einfügen eines Diagrammdetails in oder neben Ihr Diagramm ausleihen. Insbesondere würden Sie die Extremwerte für sich in einem Diagramm und alle (oder die) übrigen Daten in einem anderen Diagramm mit einem begrenzten Achsenbereich darstellen und dann die beiden grafisch zusammen mit (visuellen und / oder geschriebenen) Angaben zur Beziehung anordnen zwischen ihnen. Stellen Sie sich eine Karte der USA vor, auf der Alaska und Hawaii in unterschiedlichen Maßstäben eingezeichnet sind. (Dies funktioniert nicht mit allen Arten von Diagrammen, kann jedoch mit den Balkendiagrammen in Ihrer Abbildung effektiv sein.)

(3) Sie können den unterbrochenen Plot neben demselben Plot auf nicht unterbrochenen Achsen anzeigen.

(4) Wählen Sie für Ihr Balkendiagrammbeispiel eine geeignete (möglicherweise stark gedehnte) vertikale Achse und stellen Sie ein Schwenkdienstprogramm bereit. [Dies ist mehr ein Trick als eine wirklich nützliche Technik, IMHO, aber es könnte in einigen besonderen Fällen nützlich sein.]

(5) Wählen Sie ein anderes Schema aus, um die Daten anzuzeigen. Wählen Sie anstelle eines Balkendiagramms, das die Länge zur Darstellung von Werten verwendet, ein Diagramm aus, in dem die Symbolbereiche beispielsweise die Werte darstellen. [Offensichtlich sind hier Kompromisse beteiligt.]

Ihre Wahl der Technik hängt wahrscheinlich vom Zweck des Plots ab: Plots, die für die Datenexploration erstellt wurden, unterscheiden sich häufig von Plots für das allgemeine Publikum.

whuber
quelle
8

Vielleicht kann es als Gitter klassifiziert werden, aber ich werde es versuchen; Zeichnen Sie alle Balken, die in einem Bereich auf den höchsten Wert skaliert sind, und setzen Sie einen anderen Bereich mit dem Zoom auf die unteren. Ich habe diese Technik einmal im Falle eines Streudiagramms angewendet, und das Ergebnis war ziemlich gut.


quelle
8

Ich würde das Problem der Holzachsen vom Problem der Balkendiagramme trennen.


A=lgI0lgII0

Balkendiagramme können niemals sinnvoll sein, wenn es keinen sinnvollen und festen Ursprung gibt, der die Rolle eines Steuerelements übernimmt (Grundlinie, Leerzeichen). Das hat aber nichts mit den Holzachsen zu tun.
Die einzige regelmäßige Verwendung, die ich für Balkendiagramme habe, sind Histogramme. Aber ich könnte mir vorstellen, dass sie gut dazu beitragen, den Unterschied zu diesem Ursprung zu zeigen (man sieht auch sofort, ob der Unterschied positiv oder negativ ist). Da die Balken einen Bereich darstellen, neige ich dazu, Balkendiagramme als eine sehr diskrete Version des Bereichs unter einer Kurve zu betrachten. Das heißt, die x-Achse sollte eine metrische Bedeutung haben (was bei der Zeit der Fall sein kann, bei Städten jedoch nicht).

Wenn ich mich fragen würde, welchen Ursprung ich für das Protokoll von etwas verwenden soll, das einen "natürlichen" Ursprung bei 0 hat, würde ich einen Schritt zurücktreten und ein wenig darüber nachdenken, was los ist. Sehr oft sind solche Probleme nur ein Hinweis darauf, dass das Protokoll hier keine sinnvolle Transformation darstellt.

Nun würde ein Balkendiagramm mit logarithmischen Achsen Zunahmen oder Abnahmen betonen, die in Vielfachen auftreten. Vernünftige Beispiele, die ich mir gerade vorstellen kann, haben alle eine lineare Beziehung zu einem interessierenden Wert. Aber vielleicht findet jemand anderes ein gutes Beispiel.

Daher denke ich, dass die Datenumwandlung in Bezug auf die Bedeutung der vorliegenden Daten sinnvoll sein sollte. Dies ist bei den oben erwähnten physikalisch-chemischen Einheiten der Fall (A ist proportional zu den Konzentrationen, und der pH-Wert hat beispielsweise einen linearen Zusammenhang mit der Spannung in einem pH-Meter). In der Tat ist es so sehr der Fall, dass die Protokolleinheit einen neuen Namen erhält und linear verwendet wird.

Last but not least komme ich aus der Schwingungsspektroskopie, wo häufig gebrochene Achsen verwendet werden. Und ich betrachte dies als eines der wenigen Beispiele, bei denen das Brechen der Achsen nicht täuscht. Wir haben jedoch keine Änderungen in der Größenordnung. Wir haben nur einen nicht informativen Bereich von 30 - 40% unseres x-Bereichs: Hier ein Beispiel: Spektrum Für dieses Beispiel kann der Teil zwischen 1800 - 2800 / cm keine nützlichen Informationen enthalten.
Der nicht informative Spektralbereich wird daher entfernt (was auch die Spektralbereiche angibt, die wir tatsächlich für die chemometrische Modellierung verwenden): Spektrum nicht informativer Teil entfernt

Für die Interpretation der Daten benötigen wir jedoch genaue Ablesungen der x-Position. Aber im Allgemeinen brauchen wir keine Vielfachen, die die verschiedenen Bereiche abdecken (dh es gibt solche Beziehungen, aber die meisten Verbindungen sind komplizierter. Bsp .: Signal bei 3050 / cm, daher haben wir ungesättigte oder aromatische Substanzen. Aber kein starkes Signal bei 1000 / cm , also kein mono-, meta- oder 1,3,5-substituierter aromatischer Ring ...)
Daher ist es besser, x in größerem Maßstab darzustellen (tatsächlich verwenden wir oft millimeterförmige Hilfslinien oder beschriften die genauen Positionen). Also brechen wir die Achse und erhalten eine größere x-Skalierung: Spektrum - gebrochene Achse

Eigentlich ist es sehr ähnlich wie beim Facettieren: facettierte Version
aber die gebrochene Achse IMHO betont, dass die Skalierung der x-Achse in beiden Teilen gleich ist. Dh die Intervalle innerhalb der gezeichneten Regionen sind gleich.

Um kleine Intensitäten (y-Achse) hervorzuheben, verwenden wir vergrößerte Einfügungen:
Bildbeschreibung hier eingeben
[ ... Für Details siehe den vergrößerten (x 20) νCH-Bereich in blau .... ]

Und dies ist sicherlich auch mit dem Beispiel in den verknüpften Plots möglich.

cbeleites unterstützt Monica
quelle
2

Zwei Ideen, die angedeutet, aber nicht explizit beschrieben wurden, als ich mir die hervorragenden Antworten und Kommentare ansah, waren, dass Sie ein Balkendiagramm "in einer Weise verwenden, die mit der Beschriftung unvereinbar ist" und normalisierte / dimensionslose Daten.

Grundstückstyp:

Die Stern- / Spinnen- / Radarkarte (Link) (Link) eignet sich oft sehr gut, um mehrere verschiedene Dinge entlang mehrerer Koordinaten zu vergleichen. Es gibt eine Reihe von sehr nützlichen Darstellungen, die (leider) in Unternehmenspräsentationen selten vorkommen, wahrscheinlich, weil die Führung lieber Schlussfolgerungen zieht, um Entscheidungen zu treffen, als Informationen zu nutzen, um Verständnis zu erlangen und dann das Verständnis zu nutzen, um Entscheidungen zu treffen. In der Wirtschaft ist es manchmal sehr schwierig, einen Konsens zu erzielen, und so kann der Nur-Ergebnisse-Ansatz in einem Umfeld, in dem Konsens und Entscheidung an erster Stelle stehen, einen höheren Ertrag bringen. Dies informiert die Popularität des Balken- / Säulendiagramms. Bitte beachten Sie die Beispiele anderer Diagrammtypen, die zum Verständnis hilfreich sind (Link) .

Transformation:

Wenn Sie die Werte, die Sie darstellen, durch einen "charakteristischen" Wert teilen, können Sie die Skalierung transformieren, um die Lesbarkeit zu verbessern, ohne Informationen zu verlieren. Fluiddynamiker bevorzugen dimensionslose Zahlen aufgrund ihrer prädiktiven Nützlichkeit und ihrer Elastizität bei der Anwendung. Sie betrachten Dinge wie das Buckingham-Pi-Theorem als Quellen für dimensionslose Formen (Link) . Beliebte und nützliche dimensionslose Zahlen sind Reynolds-Zahl, Mach-Zahl, Biot-Zahl, Grashof-Zahl, Pi-Zahl, Raleigh-Zahl, Stokes-Zahl und Sherwood-Zahl. (Verknüpfung) Sie müssen kein Physiker sein, um dimensionslose Zahlen zu lieben, da sie in nicht-physikalischen Anwendungen nützlich sind. Messungen wie Dichte, Homogenität, Zirkularität und Koplanarität können Bilder, Pixelfelder oder multivariate Wahrscheinlichkeitsverteilungen definieren. Berücksichtigen Sie nicht nur einen Logarithmus oder einen relativen Abstand von einem bekannten Wert - Sie können auch in Betracht ziehen, die Zahlen zu invertieren und ihre Quadratwurzeln zu ziehen.

Viel Glück. Bitte lassen Sie uns wissen, wie sich die Dinge entwickeln.

EngrStudent - Setzen Sie Monica wieder ein
quelle
1
Die meisten Behörden lehnen die Verwendung von Radarkarten nachdrücklich ab. Sie sind schwer zu interpretieren. Eine viel bessere Alternative ist ein Parallelkoordinatendiagramm .
Jon Peltier
@ JonPeltier - Ich stimme zu, aber Excel hatte (zu der Zeit, als ich geantwortet habe) keine saubere Möglichkeit, ein paralleles Koordinatendiagramm zu erstellen. Es ist also wahrscheinlich, dass sein Publikum große Schwierigkeiten haben wird, es zu verstehen.
EngrStudent - Wiedereinsetzung von Monica
1

Die Lösung mit unterbrochener Achse funktioniert am besten, wenn eine deutliche Unterbrechung in der gesamten Zeichnung vorliegt und die Ordinate so beschriftet ist, dass die Lücke offensichtlich ist. Dies hat den Vorteil, dass die Skalierung über die beiden Wertesätze erhalten bleibt. Paneldiagramme mit unterschiedlichen Maßstäben geben möglicherweise nicht die relative Variation innerhalb der niedrigen und hohen Gruppen wieder. Ich mag die Idee des Zoom-In-Diagramms, das ich für Streudiagramme programmiert habe, aber nicht für Balkendiagramme verwenden wollte.

user4983
quelle