Wie kann man bestimmen, ob die y-Achse eines Graphen bei Null beginnen soll oder nicht?

Eine gebräuchliche Methode, um "mit Daten zu lügen", ist die Verwendung einer Y-Achsen-Skala, die den Anschein erweckt, als wären Änderungen bedeutsamer als sie tatsächlich sind.

Wenn ich wissenschaftliche Veröffentlichungen oder Laborberichte von Studenten überprüfe, bin ich oft frustriert über diese "Sünde der Datenvisualisierung" (die meines Erachtens unbeabsichtigt begangen wird, aber dennoch zu einer irreführenden Darstellung führt.)

"Beginnen Sie die y-Achse immer bei Null" ist jedoch keine feste Regel. Zum Beispiel weist Edward Tufte darauf hin, dass in einer Zeitreihe die Grundlinie nicht unbedingt Null ist:

Verwenden Sie in einer Zeitreihe im Allgemeinen eine Basislinie, die die Daten und nicht den Nullpunkt anzeigt. Wenn der Nullpunkt beim Zeichnen der Daten vernünftigerweise auftritt, ist dies in Ordnung. Aber geben Sie nicht viel leeren vertikalen Raum aus, um den Nullpunkt zu erreichen, und verstecken Sie dabei, was in der Datenzeile selbst vor sich geht. (Das Buch Wie man mit Statistiken lügt, ist in diesem Punkt falsch.)

Schauen Sie sich zum Beispiel überall nach wichtigen wissenschaftlichen Forschungspublikationen um, wenn in Zeitreihen Nullpunkte fehlen. Die Wissenschaftler wollen ihre Daten zeigen, nicht Null.

Der Drang, die Daten zu kontextualisieren, ist gut, aber der Kontext kommt nicht aus dem leeren vertikalen Raum, der bis zu Null reicht, eine Zahl, die in vielen Datensätzen nicht einmal vorkommt. Zeigen Sie stattdessen für den Kontext mehr Daten horizontal an!

Ich möchte auf irreführende Darstellungen in den von mir besprochenen Artikeln hinweisen, aber ich möchte kein Purist auf der Null-Y-Achse sein.

Gibt es Richtlinien, die festlegen, wann die y-Achse bei Null gestartet werden soll und wann dies unnötig und / oder ungeeignet ist? (Vor allem im Rahmen der wissenschaftlichen Arbeit.)

data-visualization ff524
quelle

Ich denke, ob das Einschließen von (nicht das Einschließen von) 0 möglicherweise irreführend ist oder nicht, hängt entscheidend von der Geschichte ab, die erzählt wird.

gung - Wiedereinsetzung von Monica

In einem Vortrag kann der Ausdruck "Beachten Sie die stark unterdrückte Null" oder Ähnliches verwendet werden, um einer möglicherweise irreführenden Zahl Ehrlichkeit zu verleihen. Ich bin damit in gedruckten Materialien nicht so zufrieden, aber zur Not können Sie es auch dort verwenden.

dmckee

Um all dies zu vermeiden, verwende ich Boxplots, wann immer dies möglich ist. Es müssen keine Mittelwerte und Fehlerbalken berechnet werden und es sind wertvolle Informationen (z. B. Datenverteilung, Ausbreitung, Neigung, Reichweite) in einem Diagramm zusammengefasst. Außerdem zeigen Sie die Rohdaten.

Stefan

@ Stefan Box-Plots können ja hilfreich sein. Es ist jedoch seltsam, dass sogar einige Lehrbücher ANOVA erklären und dann Boxplots zeigen. Zu diesem Zweck sind Mittel, wenn nicht Fehlerbalken, sicherlich relevant und sollten informativ sein. Je nach Sorte zeigen viele Box-Plots die Rohdaten nur schlecht an, da sie sie nur zusammenfassen. Es gibt jedoch Verbesserungen, die helfen, z. B. Quantil-Box-Diagramme. Beachten Sie in diesem Zusammenhang jedoch, dass das Anzeigen von Mittelwerten und Fehlerbalken Sie in keiner Weise dazu verpflichtet, anzuzeigen, wenn dies außerhalb des Datenbereichs liegt.

y = 0

$y = 0$

Nick Cox

@ NickCox danke für deinen Kommentar! Ich bin damit einverstanden, dass es nach Abschluss der ANOVA sinnvoller ist, Mittel und Fehlerbalken anzuzeigen. Bevor ich jedoch Analysen durchführe, stelle ich fest, dass Boxplots informativer sind und Informationen darüber enthalten, wie Ihre Daten aussehen und ob die ausgewählte ANOVA geeignet ist oder nicht. "Lying with data" kann bereits auftreten, wenn z. B. parametrische Tests ausgewählt werden, die Daten jedoch nicht den erforderlichen Annahmen entsprechen. Für mich als Leser wissenschaftlicher Studien sind Boxplots daher immer eine gute Idee, um über die präsentierten Ergebnisse selbst zu entscheiden.

Stefan

Verwenden Sie keinen Platz in einem Diagramm, der das Verständnis nicht erleichtert. Platz wird benötigt, um die Daten anzuzeigen!
Verwenden Sie Ihr wissenschaftliches (technisches, medizinisches, soziales, geschäftliches, ...) Urteil sowie Ihr statistisches Urteil. (Wenn Sie nicht Kunde oder Kunde sind, sprechen Sie mit jemandem vor Ort, um eine Vorstellung davon zu bekommen, was interessant oder wichtig ist, vorzugsweise mit denjenigen, die die Analyse in Auftrag geben.)
$y$

Das sind drei einfache Regeln. (Nichts schließt gelegentlich Spannungen zwischen ihnen aus.)

Hier ist ein einfaches Beispiel, aber alle drei Punkte ergeben sich: Sie messen die Körpertemperatur eines Patienten in Celsius, in Fahrenheit oder sogar in Kelvin: Treffen Sie Ihre Wahl. Inwiefern ist es hilfreich oder sogar logisch, auf Null-Temperaturen zu bestehen? Wichtige, auch medizinisch oder physiologisch wichtige Informationen werden ansonsten verdeckt.

Hier ist eine wahre Geschichte aus einer Präsentation. Ein Forscher zeigte Daten zu Geschlechterverhältnissen für verschiedene Bundesstaaten und Gewerkschaftsgebiete in Indien. Die Grafik war ein Balkendiagramm, bei dem alle Balken bei Null beginnen. Alle Balken waren trotz einiger beträchtlicher Abweichungen nahezu gleich lang. Das war richtig, aber die interessante Geschichte war, dass Bereiche trotz Ähnlichkeiten unterschiedlich waren, und nicht, dass sie trotz Unterschieden ähnlich waren. Ich schlug vor, dass die Parität zwischen Männern und Frauen (1 oder 100 Frauen / 100 Männer) ein viel natürlicheres Referenzniveau darstellt. (Ich wäre auch offen dafür, ein allgemeines Niveau wie das nationale Mittel als Referenz zu verwenden.) Sogar einige statistische Personen, die diese kleine Geschichte gehört haben, haben manchmal geantwortet: "Nein, Balken sollten immer bei Null beginnen." Für mich ist das in einem solchen Fall nicht besser als ein irrelevantes Dogma.

$y$ $^\circ$ $y$

Eine häufige Art von Diagramm, insbesondere in einigen biologischen und medizinischen Wissenschaften, zeigt Mittelwerte oder andere Zusammenfassungen durch dicke Balken, die bei Null beginnen, und Standardfehler- oder auf Standardabweichungen basierende Intervalle, die auf Unsicherheit durch dünne Balken hindeuten. Solche Detonator- oder Dynamit-Diagramme, wie sie von denjenigen, die dies missbilligen, genannt wurden, können teilweise aufgrund eines Sprichworts populär sein, dass immer Null angezeigt werden sollte. Der Nettoeffekt besteht darin, Vergleiche mit Null hervorzuheben, denen häufig das Interesse oder der Nutzen fehlt.

Einige Leute möchten Null anzeigen, aber auch eine Skalenunterbrechung hinzufügen, um zu zeigen, dass die Skala unterbrochen ist. Modewechsel und technologische Veränderungen. Vor Jahrzehnten, als Forscher ihre eigenen Grafiken zeichneten oder die Aufgabe an Techniker delegierten, war es einfacher, dies von Hand zu verlangen. Heutzutage unterstützen Grafikprogramme Skalenbrüche oft nicht, was meiner Meinung nach kein Verlust ist. Selbst wenn dies der Fall ist, ist dies eine winzige Ergänzung, die einen mäßigen Bruchteil der Grafikfläche verschwenden kann.

$x$

Es gibt natürlich eine nullte Regel, die zusätzlich zu den drei genannten gilt.

Was auch immer du tust, sei sehr klar. Beschriften Sie Ihre Äxte konsistent und informativ. Dann vertrauen Sie darauf, dass aufmerksame Leser sehen, was Sie getan haben.

In diesem Punkt stimme ich Edward Tufte sehr zu, und Darrell Huff kann ich nicht zustimmen.

EDIT 9. Mai 2016:

Verwenden Sie stattdessen logische und aussagekräftige Baselines, anstatt immer zu versuchen, eine 0-Basislinie in alle Ihre Diagramme aufzunehmen

Kairo, A. 2016. Die Kunst der Wahrheit: Daten, Diagramme und Karten für die Kommunikation. San Francisco, CA: New Riders, S.136.

Nick Cox
quelle

Im Übrigen: Ich denke, die Menschen halten sich dogmatischer an "Start bei Null", wenn die Daten durch Balken dargestellt werden, da Balken Bereiche anzeigen und Bereiche irreführend sind, wenn sie nicht bei Null beginnen. Auf einem Cleveland-Punktdiagramm - das ohnehin oft eine geeignetere Visualisierung ist - scheint es kein so zwingendes Argument zu geben, bei Null anzufangen, und die Menschen scheinen eher bereit zu sein, flexibel zu sein, wo sie anfangen.

Silverfish

Gute Antwort. Ich habe diese Frage im Zusammenhang mit der Durchsicht eines Papiers gestellt, in dem durchweg unangemessene Achsenbereiche verwendet wurden (wobei unbedeutende Abweichungen in den Daten hervorgehoben wurden). Bei dieser Antwort wurde mir klar, dass ich wirklich frustriert war , dass ich die Daten nicht richtig (statistisch und technisch) verstanden und interpretiert hatte - eine sehr viel konstruktivere Sache , die ich in einem Review kommentieren sollte, als mich über den Achsenbereich zu beschweren.

ff524

Die Regel, dass die Achse bei Null beginnen soll, ist nur für stetige Variablen sinnvoll, die verhältnismäßig sind. Daher hat Null eine echte Bedeutung. Ein Gewicht von 0 ist kein Gewicht. Aber Temperaturen in C oder F verwenden willkürliche Werte für Null, so dass es keinen Sinn macht, darüber nachzudenken, die Achse dort zu starten.

Harvey Motulsky

^{\circ}

$^\circ$

Nett, aber ich möchte darauf hinweisen, dass das "Urteil" vom Publikum abhängt (Publikum ist immer wichtig!). Das Fachpublikum liest die Achse und versteht die Implikationen. Ein bestimmter Teil der Laienpopulation wird die Achsenbeschriftungen mit Bestimmtheit ignorieren und unter möglicherweise falschen Annahmen über den Maßstab Schlussfolgerungen aus der Form des Diagramms ziehen. Wenn die Grafik für ein Laienpublikum gedacht ist, müssen Sie dies in Ihr Urteil einbeziehen.

dmckee

Wie kann man bestimmen, ob die y-Achse eines Graphen bei Null beginnen soll oder nicht?

Antworten: