Eine gebräuchliche Methode, um "mit Daten zu lügen", ist die Verwendung einer Y-Achsen-Skala, die den Anschein erweckt, als wären Änderungen bedeutsamer als sie tatsächlich sind.
Wenn ich wissenschaftliche Veröffentlichungen oder Laborberichte von Studenten überprüfe, bin ich oft frustriert über diese "Sünde der Datenvisualisierung" (die meines Erachtens unbeabsichtigt begangen wird, aber dennoch zu einer irreführenden Darstellung führt.)
"Beginnen Sie die y-Achse immer bei Null" ist jedoch keine feste Regel. Zum Beispiel weist Edward Tufte darauf hin, dass in einer Zeitreihe die Grundlinie nicht unbedingt Null ist:
Verwenden Sie in einer Zeitreihe im Allgemeinen eine Basislinie, die die Daten und nicht den Nullpunkt anzeigt. Wenn der Nullpunkt beim Zeichnen der Daten vernünftigerweise auftritt, ist dies in Ordnung. Aber geben Sie nicht viel leeren vertikalen Raum aus, um den Nullpunkt zu erreichen, und verstecken Sie dabei, was in der Datenzeile selbst vor sich geht. (Das Buch Wie man mit Statistiken lügt, ist in diesem Punkt falsch.)
Schauen Sie sich zum Beispiel überall nach wichtigen wissenschaftlichen Forschungspublikationen um, wenn in Zeitreihen Nullpunkte fehlen. Die Wissenschaftler wollen ihre Daten zeigen, nicht Null.
Der Drang, die Daten zu kontextualisieren, ist gut, aber der Kontext kommt nicht aus dem leeren vertikalen Raum, der bis zu Null reicht, eine Zahl, die in vielen Datensätzen nicht einmal vorkommt. Zeigen Sie stattdessen für den Kontext mehr Daten horizontal an!
Ich möchte auf irreführende Darstellungen in den von mir besprochenen Artikeln hinweisen, aber ich möchte kein Purist auf der Null-Y-Achse sein.
Gibt es Richtlinien, die festlegen, wann die y-Achse bei Null gestartet werden soll und wann dies unnötig und / oder ungeeignet ist? (Vor allem im Rahmen der wissenschaftlichen Arbeit.)
quelle
Antworten:
Verwenden Sie keinen Platz in einem Diagramm, der das Verständnis nicht erleichtert. Platz wird benötigt, um die Daten anzuzeigen!
Verwenden Sie Ihr wissenschaftliches (technisches, medizinisches, soziales, geschäftliches, ...) Urteil sowie Ihr statistisches Urteil. (Wenn Sie nicht Kunde oder Kunde sind, sprechen Sie mit jemandem vor Ort, um eine Vorstellung davon zu bekommen, was interessant oder wichtig ist, vorzugsweise mit denjenigen, die die Analyse in Auftrag geben.)
Das sind drei einfache Regeln. (Nichts schließt gelegentlich Spannungen zwischen ihnen aus.)
Hier ist ein einfaches Beispiel, aber alle drei Punkte ergeben sich: Sie messen die Körpertemperatur eines Patienten in Celsius, in Fahrenheit oder sogar in Kelvin: Treffen Sie Ihre Wahl. Inwiefern ist es hilfreich oder sogar logisch, auf Null-Temperaturen zu bestehen? Wichtige, auch medizinisch oder physiologisch wichtige Informationen werden ansonsten verdeckt.
Hier ist eine wahre Geschichte aus einer Präsentation. Ein Forscher zeigte Daten zu Geschlechterverhältnissen für verschiedene Bundesstaaten und Gewerkschaftsgebiete in Indien. Die Grafik war ein Balkendiagramm, bei dem alle Balken bei Null beginnen. Alle Balken waren trotz einiger beträchtlicher Abweichungen nahezu gleich lang. Das war richtig, aber die interessante Geschichte war, dass Bereiche trotz Ähnlichkeiten unterschiedlich waren, und nicht, dass sie trotz Unterschieden ähnlich waren. Ich schlug vor, dass die Parität zwischen Männern und Frauen (1 oder 100 Frauen / 100 Männer) ein viel natürlicheres Referenzniveau darstellt. (Ich wäre auch offen dafür, ein allgemeines Niveau wie das nationale Mittel als Referenz zu verwenden.) Sogar einige statistische Personen, die diese kleine Geschichte gehört haben, haben manchmal geantwortet: "Nein, Balken sollten immer bei Null beginnen." Für mich ist das in einem solchen Fall nicht besser als ein irrelevantes Dogma.
Eine häufige Art von Diagramm, insbesondere in einigen biologischen und medizinischen Wissenschaften, zeigt Mittelwerte oder andere Zusammenfassungen durch dicke Balken, die bei Null beginnen, und Standardfehler- oder auf Standardabweichungen basierende Intervalle, die auf Unsicherheit durch dünne Balken hindeuten. Solche Detonator- oder Dynamit-Diagramme, wie sie von denjenigen, die dies missbilligen, genannt wurden, können teilweise aufgrund eines Sprichworts populär sein, dass immer Null angezeigt werden sollte. Der Nettoeffekt besteht darin, Vergleiche mit Null hervorzuheben, denen häufig das Interesse oder der Nutzen fehlt.
Einige Leute möchten Null anzeigen, aber auch eine Skalenunterbrechung hinzufügen, um zu zeigen, dass die Skala unterbrochen ist. Modewechsel und technologische Veränderungen. Vor Jahrzehnten, als Forscher ihre eigenen Grafiken zeichneten oder die Aufgabe an Techniker delegierten, war es einfacher, dies von Hand zu verlangen. Heutzutage unterstützen Grafikprogramme Skalenbrüche oft nicht, was meiner Meinung nach kein Verlust ist. Selbst wenn dies der Fall ist, ist dies eine winzige Ergänzung, die einen mäßigen Bruchteil der Grafikfläche verschwenden kann.
Es gibt natürlich eine nullte Regel, die zusätzlich zu den drei genannten gilt.
In diesem Punkt stimme ich Edward Tufte sehr zu, und Darrell Huff kann ich nicht zustimmen.
EDIT 9. Mai 2016:
Kairo, A. 2016. Die Kunst der Wahrheit: Daten, Diagramme und Karten für die Kommunikation. San Francisco, CA: New Riders, S.136.
quelle