Nehmen wir an, ich habe zwei Verteilungen, die ich im Detail vergleichen möchte, dh auf eine Weise, die Form, Skalierung und Verschiebung leicht sichtbar macht. Eine gute Möglichkeit, dies zu tun, besteht darin, für jede Verteilung ein Histogramm zu zeichnen, sie auf die gleiche X-Skala zu setzen und untereinander zu stapeln.
Wie sollte dabei das Binning erfolgen? Sollten beide Histogramme die gleichen Bin-Grenzen verwenden, auch wenn eine Verteilung sehr viel stärker verteilt ist als die andere, wie in Abbildung 1 unten dargestellt? Sollte das Binning vor dem Zoomen für jedes Histogramm separat durchgeführt werden, wie in Abbildung 2 unten dargestellt? Gibt es überhaupt eine gute Faustregel?
data-visualization
histogram
pdf
binning
dsimcha
quelle
quelle
Antworten:
Ich denke, Sie müssen die gleichen Behälter verwenden. Ansonsten spielt der Verstand Ihnen einen Streich. Normal (0,2) wirkt in Bild 2 im Vergleich zu Normal (0,1) stärker verteilt als in Bild 1. Mit Statistik nichts zu tun. Es sieht einfach so aus, als ob Normal (0,1) eine "Diät" gemacht hat.
-Ralph Winters
Mittelpunkt- und Histogramm-Endpunkte können auch die Wahrnehmung der Dispersion verändern. Beachten Sie, dass in diesem Applet eine maximale Behälterauswahl einen Bereich von> 1,5 - ~ 5 impliziert, während eine minimale Behälterauswahl einen Bereich von <1 -> 5,5 impliziert
http://www.stat.sc.edu/~west/javahtml/Histogram.html
quelle
Ein anderer Ansatz wäre, die verschiedenen Verteilungen auf dem gleichen Plot zu zeichnen und so etwas wie den
alpha
Parameter inggplot2
zu verwenden, um die Überdruckprobleme zu beheben. Die Nützlichkeit dieser Methode hängt von den Unterschieden oder Ähnlichkeiten in Ihrer Verteilung ab, da sie mit denselben Behältern gezeichnet werden. Eine andere Alternative wäre, geglättete Dichtekurven für jede Verteilung anzuzeigen. Hier ist ein Beispiel für diese Optionen und die anderen Optionen, die im Thread erläutert werden:quelle
Es geht also darum, die gleiche Behältergröße oder die gleiche Anzahl von Behältern beizubehalten? Ich sehe Argumente für beide Seiten. Eine Problemumgehung wäre, zuerst die Werte zu standardisieren . Dann könnte man beides pflegen.
quelle