Ist es in Ordnung, einem Histogramm eine vertikale Linie hinzuzufügen, um den Mittelwert zu visualisieren?
Es scheint mir in Ordnung zu sein, aber ich habe das noch nie in Lehrbüchern und Ähnlichem gesehen, also frage ich mich, ob es eine Art Konvention gibt, das nicht zu tun?
Die Grafik ist für eine Hausarbeit gedacht. Ich möchte nur sicherstellen, dass ich nicht versehentlich gegen eine wichtige unausgesprochene Statistikregel verstoße. :)
Antworten:
Natürlich, warum nicht?
Hier ist ein Beispiel (eines von Dutzenden, das ich mit einer einfachen Google-Suche gefunden habe):
(Bildquelle ist das Mess Usability Blog, hier .)
Ich habe Mittelwerte, Mittelwerte plus oder minus einer Standardabweichung, verschiedene Quantile (wie Median, Quartile, 10. und 90. Perzentile) auf verschiedene Arten angezeigt.
Anstatt eine Linie quer über das Diagramm zu ziehen, können Sie Informationen am unteren Rand markieren - wie folgt:
Es gibt ein Beispiel (ein von vielen zu finden) mit einem boxplot über die Oberseite statt am Boden, hier .
Manchmal markieren Leute in den Daten:
(Ich habe die Datenpositionen leicht verwackelt, weil die Werte auf ganze Zahlen gerundet wurden und Sie die relative Dichte nicht gut sehen konnten.)
Es gibt ein Beispiel dieser Art in Stata auf dieser Seite (siehe das dritte hier ).
Histogramme sind besser mit ein paar zusätzlichen Informationen - sie können von sich aus irreführend sein
Sie müssen nur darauf achten, zu erklären, woraus Ihr Grundstück besteht! (Sie möchten zunächst einen besseren Titel und eine bessere Bezeichnung auf der x-Achse als hier. Außerdem eine Erklärung in einer Bildunterschrift, in der erläutert wird, was Sie darauf markiert haben.)
-
Eine letzte Handlung:
-
Meine Grundstücke werden in R erstellt.
Bearbeiten:
Wie vermutet,
abline(v=mean...
wurde @gung verwendet, um die Mittellinie über den Plotrug
zu zeichnen, und wurde verwendet, um die Datenwerte zu zeichnen (obwohl ich tatsächlich verwendet habe,rug(jitter(...
weil die Daten auf ganze Zahlen gerundet wurden).Hier ist eine Möglichkeit, das Boxplot zwischen dem Histogramm und der Achse zu erstellen:
Ich werde nicht auflisten, wofür alles da ist, aber Sie können die Argumente in help (
?boxplot
) überprüfen , um herauszufinden, wozu sie dienen, und selbst damit spielen.Es ist jedoch keine generelle Lösung - ich kann nicht garantieren, dass es immer so gut funktioniert wie hier (beachten Sie, dass ich die Optionen
at
undboxwex
* bereits geändert habe ). Wenn Sie keine intelligente Funktion schreiben, die sich um alles kümmert, müssen Sie darauf achten, was alles tut, um sicherzustellen, dass es das tut, was Sie wollen.Hier erfahren Sie, wie Sie die von mir verwendeten Daten erstellen (ich habe versucht zu zeigen, wie Theil-Regression tatsächlich mit mehreren einflussreichen Ausreißern umgehen kann). Es waren zufällig Daten, mit denen ich spielte, als ich diese Frage zum ersten Mal beantwortete.
* - ein angemessener Wert für
at
ist etwa das -0,5-fache des Wertes vonboxwex
; Das wäre eine gute Voreinstellung, wenn Sie eine Funktion schreiben würden, um dies zu tun.boxwex
müsste in einer Weise skaliert werden, die sich auf die y-Skala (Höhe) des Boxplots bezieht; Ich würde vorschlagen, dass das 0,04- bis 0,05-fache der oberen y-Grenze oft in Ordnung ist.Code für das marginale Stripchart:
quelle
abline(v=mean(Davis2[,2]))
&rug(Davis2[,2])
Ich würde raten, aber wie haben Sie den Boxplot dort eingeklemmt?boxplot
Funktion zu verwenden. Zwischenboxplot
undboxp
können Sie einige ziemlich raffinierte Dinge mit wenig Aufwand tun.at
undboxwex
so weiter ... aber bestenfalls mache ich nur ein paar solcher Plots pro Jahr, und es dauert jedes Mal ein paar Sekunden, um? Boxplot einzugeben und die richtigen Optionen einzustellen. Ich dachte, es ist einfacher, nur darauf zu achten, was ich tue.Natürlich kannst du. Achten Sie einfach darauf, deutlich zu kennzeichnen / anzugeben, was die Linie bedeutet, und vermeiden Sie, dass der Plot zu "beschäftigt" wird.
Nichts ist schlimmer als ein Diagramm, das zu viele Informationen enthält, um leicht verständlich zu sein. Die Tabelle ist eine häufig übersehene Methode, um Zusammenfassungsstatistiken übersichtlich und präzise anzuzeigen.
quelle
Vorherige Antworten bringen hervorragende Punkte, aber hier ist eine Grundvoraussetzung, die hinzugefügt werden muss.
Der Mittelwert ist der Schwerpunkt einer Verteilung und damit der Drehpunkt eines Histogramms. Hier würde sich die Verteilung ausgleichen. Es gibt also eine wechselseitige Beziehung: Der Mittelwert kann Ihnen nicht nur beim Überlegen eines Histogramms helfen, sondern auch beim Überlegen des Mittelwerts. Dies ist vielleicht noch hilfreicher, wenn eine Verteilung schief ist und der Mittelwert der Verteilung nicht unbedingt in der Mitte liegt.
quelle
Ich sehe kein Problem damit, sehe dies , das und das als Beispiele.
quelle