Derzeit erstelle ich ein Boxplot. Ich bin neu auf dem Gebiet der Statistik und insbesondere der Boxplots. Finden Sie das Bild wie folgt:
Auf der y-Achse finden Sie die Anzahl der Nachrichten. Ich habe Probleme zu verstehen, was ich dort sehe. Der Plot wird von Matlab automatisch erstellt. Wie ich weiß, sollte ein Boxplot vier Quartile enthalten. Ich sehe dort nur drei. Wahrscheinlich geschah dies aufgrund des Wertes des Medians (es ist die grüne Linie). Aber ich weiß nicht, was das bedeutet, wenn ein Quartil fehlt. Ist hier jemand, der das erklären und mir einige Details sagen kann, was Sie aus der Handlung lesen können?
descriptive-statistics
boxplot
chris000r
quelle
quelle
Antworten:
Der Median ist wahrscheinlich identisch mit dem ersten Quartil, weshalb sie sich überlappen. Dies ist in der Regel der Fall, wenn der Datensatz einen großen Anteil identischer, niedriger Werte enthält. Hier ist ein Beispiel, das dieses Muster reproduziert:
Eine grundlegende Einführung zur Interpretation von Boxplots finden Sie hier . Wie Nick Cox weiter unten ausführt, ist die Diskussion über sogenannte Ausreißer fehlerhaft und sollte ignoriert werden. Ausreißer sollten nur gelöscht werden, wenn ein sehr wichtiger Grund dafür vorliegt, z. B. ein eindeutiger Datenaufzeichnungsfehler.
Beachten Sie auch, dass ein Boxplot keine gute Möglichkeit ist, viele Datensätze anzuzeigen. Ich stimme Stephan Kolassas Empfehlung eines Bienenwarmplots für kleine Datensätze und eines Violinplots / Kerndichtediagramms für größere Datensätze zu.
quelle
Die "Box" in einem Boxplot erstreckt sich vom ersten bis zum dritten Quartil, dh vom 25. bis zum 75. Perzentil. Visuell bedeutet dies, dass Ihr 25. Perzentil ungefähr 6 Nachrichten und Ihr 75. Perzentil ungefähr 8 Nachrichten umfasst.
Zusätzlich geben Boxplots den Median (dh das zweite Quartil oder das 50. Perzentil) unter Verwendung einer horizontalen Linie an.
Natürlich kann der Median mit einem Quartil zusammenfallen. Gute Implementierungen verwenden daher eine andere Farbe oder einen anderen Linientyp für die Mittellinie. Im vorliegenden Fall sehen wir, dass die untere horizontale Linie grün ist. Es ist offensichtlich über der ersten Quartillinie aufgetragen . Dies ist also nicht nur das erste Quartil, sondern gleichzeitig der Median. Daher liegt Ihr Median auch bei 6.
Sie sollten dies anhand Ihrer Daten überprüfen können, indem Sie die Quartile und den Median berechnen.
quelle