Angenommen, wir sehen uns diese Box-and-Whisker-Handlung an:
Ich denke, zwischen Donnerstag und Freitag sind sich die meisten einig, dass es einen signifikanten Unterschied in der Schlafenszeit zu geben scheint. Ist das aber eine statistisch gültige Vermutung? Können wir signifikante Unterschiede feststellen, da sich keiner der Bereiche des inneren Quartils zwischen Donnerstag und Freitag überschneidet? Was ist mit der Tatsache, dass sich die oberen und unteren Whisker von Donnerstag bzw. Freitag überlappen? Beeinflusst das unsere Analyse?
Normalerweise wäre das Begleiten eines solchen Diagramms eine Art ANOVA, aber ich bin nur neugierig, wie viel wir über Unterschiede zwischen Gruppen sagen können, wenn wir uns nur ein Boxplot ansehen .
anova
data-visualization
boxplot
Blacksite
quelle
quelle
Antworten:
Nein, das kannst du nicht. Wenn Sie die Stichprobengröße und viel Erfahrung hätten, könnten Sie möglicherweise raten - und die Genauigkeit Ihrer Vermutung würde (zusätzlich zur Effektgröße) von der Stichprobengröße abhängen. Wenn N = 1.000.000 pro Gruppe, viel Bedeutung. Wenn N = 10 pro Gruppe, nicht so sehr. Bei 100 pro Gruppe ist es schwieriger zu erraten.
Ich würde argumentieren, dass das eine gute Sache ist. Die Sache mit einem Box-Plot ist nicht , die statistische Signifikanz zu erraten, sondern zu schauen, was los ist, und zu versuchen, darüber nachzudenken. Hmm. Am Wochenende mehr schlafen. Das ist interessant, aber nicht wirklich überraschend. Wir könnten Stunden Schlaf als Funktion des Wochenendes oder nicht modellieren. Oder wir könnten versuchen zu sehen, ob dieses Muster unterschiedlich ist. Vielleicht haben Rentner dieses Muster nicht? Was ist mit Schichtarbeitern? Leute, die an den Wochenenden arbeiten? Menschen, die 7 Tage die Woche arbeiten?
Wie mein Lieblingsprofessor in der Graduiertenschule (Herman Friedman) sagte: "Hör auf, dich mit der Forschung zu beschäftigen!"
quelle
Ja, du kannst. Zumindest in ungefährem Sinne.
Ich skizziere, wie unten (und in der Tat gibt es eine Beziehung zu "Box-Überlappung", wie Sie vorschlagen) zusammen mit einigen Einschränkungen und Einschränkungen. Aber zuerst wollen wir ein paar Vorbereitungen für Hintergrund und Kontext diskutieren. (Ich denke, eine angemessene Antwort sollte sich hier nicht auf die Einzelheiten des Beispiels konzentrieren - obwohl dies vielleicht nebenbei erwähnt werden sollte -, sondern auf das zentrale Problem der Verwendung von Boxplots, um zu beurteilen, ob offensichtliche Unterschiede leicht als zufällige Variation erklärt werden können oder nicht .)
Wenn Sie Zugriff auf die Daten haben, können Sie gekerbte Boxplots zeichnen, die für diese Art des visuellen Vergleichs ausgelegt sind.
Es gibt eine Diskussion über gekerbt boxplot Berechnungen hier . Wenn sich die Kerbintervalle nicht überlappen, unterscheiden sich die beiden zu vergleichenden Gruppen bei 5% ungefähr. Die Berechnungen basieren auf normalen Berechnungen, sind jedoch ziemlich robust und funktionieren in einer Reihe von Verteilungen recht gut. (Wenn es als formaler Test behandelt wird, ist die Leistung im Normalfall nicht so hoch, aber es sollte für eine Vielzahl von mehr oder weniger "typischen" Fällen mit schwerem Schwanz ziemlich gut funktionieren.)
Wenn man bedenkt, wie gekerbte Boxplots funktionieren, kann man eine schnelle Faustregel erkennen, die funktioniert, wenn Sie nur eine Anzeige wie die in der Frage haben. Wenn die Stichprobengröße 10 beträgt und der Median nahe der Mitte der Box liegt, sind die Kerben in einem gekerbten Boxplot ungefähr so breit wie die Box, sodass sich die Kerbenenden und die Box ungefähr an derselben Stelle befinden.
Betrachten Sie Ihr Grundstück:
Beachten Sie, dass wir anhand des Erscheinungsbilds des Diagramms in der Frage erkennen können, dass die Stichprobengröße mindestens 5 betragen muss. Wenn sie kleiner als 5 wären, hätten die Boxplots mit einzelnen Stichproben deutliche Hinweise darauf, dass sie von einer niedrigeren Stichprobengröße stammen (z. B. Mediane als Totpunkt jeder Box oder der Whisker mit der Länge 0, wenn es einen Ausreißer gab).
Wenn sich die Kästchen (die die Quartile markieren) nicht überlappen und die Stichprobengröße mindestens 10 beträgt, sollten die beiden verglichenen Gruppen unterschiedliche Mediane bei 5% aufweisen (als einzelner paarweiser Vergleich betrachtet).
[Beachten Sie, dass dies die Anzahl der Vergleiche nicht berücksichtigt. Wenn Sie also mehrere Vergleiche durchführen, ist Ihr Gesamtfehler vom Typ I größer. Es ist eher für eine Sichtprüfung als für formelle Tests gedacht. Dennoch können die beteiligten Ideen an einen formaleren Ansatz angepasst werden, einschließlich der Anpassung für mehrere Vergleiche.]
Nachdem Sie angesprochen haben, ob Sie können , wäre es vernünftig zu überlegen, ob Sie sollten . Vielleicht nicht; Das Problem des potenziellen P-Hacking ist real, aber wenn Sie dies verwenden, um herauszufinden, ob Sie beispielsweise neue Daten zum Forschungsproblem sammeln möchten und alles, was Sie haben, ist ein Boxplot in einem Papier - sagen wir - es kann sein Sehr nützlich, um beurteilen zu können, ob mehr vorhanden ist, als durch Abweichungen aufgrund von Rauschen leicht zu erklären ist. Aber dieses Thema eingehend zu betrachten, würde wirklich eine andere Frage beantworten.
quelle