"Wann Boxplot und wann Barplot verwenden?"

14

Sowohl Box-and-Whisker- Plot als auch Balkendiagramm sind geeignete Grafiken für ANOVA gemäß The R Book (Crawley, 2013), aber welche sind geeigneter ? Ich nehme an, es hängt von der Situation ab ... kann mir jemand helfen?

Ladislav Naďo
quelle
5
" Obwohl ein Problem durch mehrere alternative Tests gelöst werden könnte - es gibt immer nur einen Test, der am besten geeignet ist " - würde ich diesem Satz widersprechen; Ich denke nicht, dass es immer wahr ist.
Glen_b -Reinstate Monica
5
Ich stimme hier mit @Glen_b überein und schlage vor, dass auch diese Formulierung den entscheidenden Punkt verfehlt. Die Ermittlung des am besten geeigneten Tests hängt nur minimal davon ab, ob der genaue Erstellungsprozess für die Daten bekannt ist. Häufig gibt es mehrere mögliche Tests mit unterschiedlichen Vor- und Nachteilen.
Nick Cox
1
Ich glaube nicht, dass ich in einer kurzen Charakterisierung des guten statistischen Denkens überhaupt Tests erwähnen würde (Hypothese oder Signifikanz) ... Ich denke jedoch, dass dies ein Nebenproblem ist. Ihre Frage ist klar genug, ohne es.
Nick Cox

Antworten:

18

Speziell zur grafischen Darstellung von ANOVA:

  • Ein Box-Plot oder ein Balkendiagramm ist für ANOVA viel besser als nichts grafisch, aber wie häufig dargestellt, sind beide indirekt oder unvollständig als grafische Zusammenfassung.

  • Bei ANOVA geht es um Vergleiche von Mitteln in einem Kontext von Variationen einer oder mehrerer Arten, sodass die am besten geeignete Grafik sowohl die Mittelwerte als auch die Rohdaten auf ein Minimum beschränkt. Gruppenstandardabweichungen (SDs) oder verwandte Mengen würden keinen Schaden anrichten.

  • =+-1,5 IQR. Eine solche Konvention kann hilfreich sein, um grobe Ausreißer aufzuzeigen, die für die ANOVA problematisch sein können, aber weder Mediane noch Quartile spielen bei der ANOVA eine Rolle, und es ist nicht anzunehmen, ob es sich um einen Punkt handelt, der überprüft werden soll, ob die Mediane die ungefähren Mittelwerte darstellen. Erfahrene Datenanalysten sehen z. B. ausgeprägte Ausreißer und / oder Verteilungsasymmetrien als Zeichen für ein Problem, das Maßnahmen erfordert, z. B. die Transformation der Daten oder die Notwendigkeit eines verallgemeinerten linearen Modells mit einer Nichtidentitätsverknüpfungsfunktion. Trotzdem ist es überraschend, wie viele Lehrbücher und andere Berichte Box-Plots zeigen, wenn eine ANOVA präsentiert wird, aber erwähnen Sie nicht die Elefanten, die nicht im Raum sind, die Mittel, die nicht gezeichnet werden.

  • Umgekehrt fasst die in diesem Zusammenhang gebräuchlichste Art von Balkendiagrammen Daten anhand von SDs oder Standardfehlern zusammen, lässt jedoch die Anzeige einzelner Datenpunkte aus. So können beispielsweise Ausreißer oder ausgeprägte Asymmetrien nur aus außerbetrieblichen Mitteln oder überhöhten Schwankungen innerhalb einzelner Gruppen abgeleitet werden.

Im Allgemeinen gibt es viele Vorschläge, welche Arten von Diagrammen nützlich sind, aber wenig Einigkeit darüber, welche am besten sind. Ich würde als Kriterien vorschlagen, dass eine gute Grafik zeigt

  • Das vollständige Variationsmuster der Daten, zumindest als Hintergrund oder Kontext

  • Relevante Zusammenfassungen der Daten, insbesondere derjenigen, die für das zu unterhaltende Modell oder die zu berücksichtigenden Deskriptoren relevant sind

  • Hinweise auf mögliche Probleme mit den Daten, die die getroffenen Annahmen in Frage stellen.

Es gibt verschiedene Designs, die bei der ANOVA helfen, z. B. Punkt- oder Streifendiagramme mit zusätzlichen Mitteln und SEs.

Dieser Artikel von John Tukey erklärt den Unterschied zwischen Propagandagraphen und analytischen Graphen , der hier relevant ist. Zu viele grafische Darstellungen von ANOVA sind Propagandagraphen (siehe! Die Gruppen sind sehr unterschiedlich) ohne viel Analyse (und was können wir sonst noch über die Daten oder die Einschränkungen der Technik in dieser Anwendung lernen?).

Nick Cox
quelle
Wie wäre es also mit Geigenplots mit, im Idealfall mit Mittelwert, SD und Ausreißern?
Ziggystar
Geigenpläne können hilfreich sein. Persönlich bevorzuge ich etwas, das näher an den Rohdaten liegt, damit ich auch Modalität und Granularität erkennen kann.
Nick Cox
8

Bitte verwechseln Sie nicht Balkendiagramme (ein Balken zeigt die jeweils interessierende Menge an) und Dynamit-Diagramme (ein Balken zeigt den Durchschnitt jeder Gruppe plus Fehlerbalken). Dynamit-Diagramme sind NIE akzeptabel, da sie die Verteilung der Daten ohne Grund verbergen.

Ja, mir ist klar, dass dies bei weitem die häufigste Art der Handlung ist. Es ist ein großes Problem, das die (geringe) Bedeutung widerspiegelt, die Forscher der Form ihrer Daten beimessen. Wenn Sie ein Detektiv wären, der nach einer Mordwaffe sucht, wäre es besser, wenn ein Zeuge Ihnen sagt, 1) nur den Ort und die Größe der Waffe? oder 2) die Lage, Größe und Form?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf

Livid
quelle
Haben Sie andere Ressourcen, warum Dynamit-Parzellen nicht ideal sind?
mguzmann
@mguzmann Sorry, ich nicht. Ich habe mich auch gefragt, wer auf die Idee gekommen ist, wie sie im Laufe der Zeit angenommen wurde, und konnte dazu nichts finden. Ich stelle mir vor, dass es sich aus der Meldung von Mittelwerttabellen +/- Fehler in den Tagen vor Computern entwickelt hat. Ich habe Arbeiten aus den 1930er Jahren gesehen, die es schaffen, Tabellen des gesamten Datensatzes zu veröffentlichen, daher bin ich mir nicht sicher, ob die Praxis jemals wirklich gerechtfertigt war. Zum Beispiel: Hedrich AW. Monatliche Schätzungen der für Masern "anfälligen" Kinderpopulation, 1900–1931, Baltimore, Maryland. Am J Hyg 1933; 17: 613 & ndash; 636.
Livid