Ist es angebracht, den Mittelwert in ein Histogramm aufzunehmen?

13

Ist es in Ordnung, einem Histogramm eine vertikale Linie hinzuzufügen, um den Mittelwert zu visualisieren?

Es scheint mir in Ordnung zu sein, aber ich habe das noch nie in Lehrbüchern und Ähnlichem gesehen, also frage ich mich, ob es eine Art Konvention gibt, das nicht zu tun?

Die Grafik ist für eine Hausarbeit gedacht. Ich möchte nur sicherstellen, dass ich nicht versehentlich gegen eine wichtige unausgesprochene Statistikregel verstoße. :)

Gast
quelle
Warum nicht. Nur um einen Kommentar hinzuzufügen. Der Mittelwert ist ein zusammenfassender Wert wie das Histogramm. Sie können den bereitgestellten Informationsgrad variieren, indem Sie beispielsweise die Bucket-Größe des Histogramms ändern. In der Regel liefert das Histogramm jedoch mehr Informationen als nur den Mittelwert. Sie können den Mittelwert tatsächlich anhand eines Histogramms approximieren. Ich denke, das ist der Grund, warum sie normalerweise nicht zusammen bereitgestellt werden.
Simone
Manchmal sieht man Histogramme mit einer überlagerten Verteilung (z. B. nach meiner Erfahrung die Normalverteilung, die mit dem Stichprobenmittelwert und der Standardabweichung aufgetragen wurde). Dies entspricht dem Zeichnen einer vertikalen Linie (die angibt, wo die Stichprobe liegt) Mittelwert ist mit der Spitze der Kurve.)
James Stanley

Antworten:

30

Natürlich, warum nicht?

Histogramm mit Mittelwert

Hier ist ein Beispiel (eines von Dutzenden, das ich mit einer einfachen Google-Suche gefunden habe):

hist mit Mittelwert und Median

(Bildquelle ist das Mess Usability Blog, hier .)

Ich habe Mittelwerte, Mittelwerte plus oder minus einer Standardabweichung, verschiedene Quantile (wie Median, Quartile, 10. und 90. Perzentile) auf verschiedene Arten angezeigt.

Anstatt eine Linie quer über das Diagramm zu ziehen, können Sie Informationen am unteren Rand markieren - wie folgt:

Histogramm mit Rand-Boxplot

Es gibt ein Beispiel (ein von vielen zu finden) mit einem boxplot über die Oberseite statt am Boden, hier .

Manchmal markieren Leute in den Daten:

Histogramm Rugplot mit Jitter
(Ich habe die Datenpositionen leicht verwackelt, weil die Werte auf ganze Zahlen gerundet wurden und Sie die relative Dichte nicht gut sehen konnten.)

Es gibt ein Beispiel dieser Art in Stata auf dieser Seite (siehe das dritte hier ).

Histogramme sind besser mit ein paar zusätzlichen Informationen - sie können von sich aus irreführend sein

Sie müssen nur darauf achten, zu erklären, woraus Ihr Grundstück besteht! (Sie möchten zunächst einen besseren Titel und eine bessere Bezeichnung auf der x-Achse als hier. Außerdem eine Erklärung in einer Bildunterschrift, in der erläutert wird, was Sie darauf markiert haben.)

-

Eine letzte Handlung:

Histogramm mit Stripchart

-

Meine Grundstücke werden in R erstellt.

Bearbeiten:

Wie vermutet, abline(v=mean...wurde @gung verwendet, um die Mittellinie über den Plot rugzu zeichnen, und wurde verwendet, um die Datenwerte zu zeichnen (obwohl ich tatsächlich verwendet habe, rug(jitter(...weil die Daten auf ganze Zahlen gerundet wurden).

Hier ist eine Möglichkeit, das Boxplot zwischen dem Histogramm und der Achse zu erstellen:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Ich werde nicht auflisten, wofür alles da ist, aber Sie können die Argumente in help ( ?boxplot) überprüfen , um herauszufinden, wozu sie dienen, und selbst damit spielen.

Es ist jedoch keine generelle Lösung - ich kann nicht garantieren, dass es immer so gut funktioniert wie hier (beachten Sie, dass ich die Optionen atund boxwex* bereits geändert habe ). Wenn Sie keine intelligente Funktion schreiben, die sich um alles kümmert, müssen Sie darauf achten, was alles tut, um sicherzustellen, dass es das tut, was Sie wollen.

Hier erfahren Sie, wie Sie die von mir verwendeten Daten erstellen (ich habe versucht zu zeigen, wie Theil-Regression tatsächlich mit mehreren einflussreichen Ausreißern umgehen kann). Es waren zufällig Daten, mit denen ich spielte, als ich diese Frage zum ersten Mal beantwortete.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - ein angemessener Wert für atist etwa das -0,5-fache des Wertes von boxwex; Das wäre eine gute Voreinstellung, wenn Sie eine Funktion schreiben würden, um dies zu tun. boxwexmüsste in einer Weise skaliert werden, die sich auf die y-Skala (Höhe) des Boxplots bezieht; Ich würde vorschlagen, dass das 0,04- bis 0,05-fache der oberen y-Grenze oft in Ordnung ist.

Code für das marginale Stripchart:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')
Glen_b - Setzen Sie Monica wieder ein
quelle
+1, das sind nette; Möchtest du den Code hinzufügen? abline(v=mean(Davis2[,2]))& rug(Davis2[,2])Ich würde raten, aber wie haben Sie den Boxplot dort eingeklemmt?
gung - Wiedereinsetzung von Monica
1
@gung In der Bearbeitung finden Sie kurze Details, einschließlich eines reproduzierbaren Beispiels ähnlich dem mit dem Boxplot. Es macht wirklich nichts schlauer, als mehrere der Argumente für die boxplotFunktion zu verwenden. Zwischen boxplotund boxpkönnen Sie einige ziemlich raffinierte Dinge mit wenig Aufwand tun.
Glen_b -Reinstate Monica
Weisheit für die Ewigkeit: "Wenn Sie keine intelligente Funktion schreiben, die sich um alles kümmert, müssen Sie darauf achten, was alles tut, um sicherzustellen, dass es das tut, was Sie wollen" ;-).
gung - Wiedereinsetzung von Monica
Ja. Ich habe sogar darüber nachgedacht, etwas Kluges zu schreiben, um es einzustellen, atund boxwexso weiter ... aber bestenfalls mache ich nur ein paar solcher Plots pro Jahr, und es dauert jedes Mal ein paar Sekunden, um? Boxplot einzugeben und die richtigen Optionen einzustellen. Ich dachte, es ist einfacher, nur darauf zu achten, was ich tue.
Glen_b -Reinstate Monica
@gung Ich habe den Code bearbeitet, um die von mir verwendeten Davis2-Daten zu erstellen. Ich hoffe, das hilft.
Glen_b -Reinstate Monica
3

Natürlich kannst du. Achten Sie einfach darauf, deutlich zu kennzeichnen / anzugeben, was die Linie bedeutet, und vermeiden Sie, dass der Plot zu "beschäftigt" wird.

Nichts ist schlimmer als ein Diagramm, das zu viele Informationen enthält, um leicht verständlich zu sein. Die Tabelle ist eine häufig übersehene Methode, um Zusammenfassungsstatistiken übersichtlich und präzise anzuzeigen.

TLJ
quelle
2

Vorherige Antworten bringen hervorragende Punkte, aber hier ist eine Grundvoraussetzung, die hinzugefügt werden muss.

Der Mittelwert ist der Schwerpunkt einer Verteilung und damit der Drehpunkt eines Histogramms. Hier würde sich die Verteilung ausgleichen. Es gibt also eine wechselseitige Beziehung: Der Mittelwert kann Ihnen nicht nur beim Überlegen eines Histogramms helfen, sondern auch beim Überlegen des Mittelwerts. Dies ist vielleicht noch hilfreicher, wenn eine Verteilung schief ist und der Mittelwert der Verteilung nicht unbedingt in der Mitte liegt.

Nick Cox
quelle
1

Ich sehe kein Problem damit, sehe dies , das und das als Beispiele.

RS18
quelle