Haben zwei Verteilungen mit identischen 5-Zahlen-Zusammenfassungen immer die gleiche Form?

8

Ich weiß, dass wenn ich zwei Verteilungen mit dem gleichen Mittelwert und der gleichen Varianz unterschiedliche Formen haben kann, weil ich ein N (x, s) und ein U (x, s) haben kann.

Aber was ist, wenn ihre Min, Q1, Median, Q3 und Max identisch sind?

Können die Verteilungen dann anders aussehen oder müssen sie dieselbe Form annehmen?

Meine einzige Logik dahinter ist, wenn sie genau dieselbe 5-Zahlen-Zusammenfassung haben, müssen sie genau dieselbe Verteilungsform annehmen.

Marcin
quelle
1
Die Antwort auf diese Frage liegt in gewisser Hinsicht auf der Hand - wenn wir eine Verteilung vollständig charakterisieren könnten, indem wir einfach fünf Zahlen darüber zitieren, wären all diese Prüfungen zu Wahrscheinlichkeitsverteilungen viel einfacher! Es wirft jedoch den interessanten Punkt auf, wie viele Informationen fehlen, wenn wir die fünfstellige Zusammenfassung zitieren oder die Daten grafisch in einem Boxplot darstellen.
Silverfish
2
Beachten Sie jedoch, dass normalerweise nicht für die gleichmäßige Verteilung mit dem Mittelwert x und der Standardabweichung s verwendet wird , sondern für die gleichmäßige Verteilung des Intervalls, das bei x beginnt und bei s endet . Auch die Notation N ( x , s ) wird selten für die Normalverteilung verwendet (obwohl ich einige Lehrbücher gesehen habe, die dies tun); Es ist viel üblicher, dass der zweite Parameter eher die Varianz als die Standardabweichung darstellt. U.(x,s)xsxsN.(x,s)
Silverfish

Antworten:

17

Nur weil die Zusammenfassung mit fünf Zahlen identisch ist, bedeutet dies nicht, dass die Verteilung identisch ist. Dies zeigt Ihnen, wie viele Informationen verloren gehen, wenn wir Daten grafisch in einem Boxplot darstellen!

Der vielleicht einfachste Weg, um das Problem zu erkennen, besteht darin, dass die Zusammenfassung mit fünf Zahlen nichts über die Verteilung der Werte zwischen dem minimalen und dem unteren Quartil oder zwischen dem unteren Quartil und dem Median usw. aussagt. Sie wissen, dass die Häufigkeit zwischen minimalem und unterem Quartil mit der Häufigkeit zwischen unterem Quartil und Median übereinstimmen muss (mit den offensichtlichen Ausnahmen, z. B. wenn Daten auf einem Quartil liegen oder schlimmer noch, wenn zwei Quartile gebunden sind), wissen es aber nicht Welche Werte der Variablen werden diesen Frequenzen zugewiesen? Wir können eine Situation wie diese haben:

Unterschiedliche Verteilungen mit derselben fünfstelligen Zusammenfassung und demselben Boxplot

X.Y.Y.X.RY.

EDIT: Wie @Glen_b sagt, wird dies noch deutlicher, wenn man sich die kumulativen Verteilungen ansieht. Ich habe Gitterlinien hinzugefügt, um die Position der Quartile anzuzeigen, die für die beiden Verteilungen gleich sind, sodass sich ihre empirischen CDFs überschneiden.

Empirische CDFs von zwei Distributionen mit derselben Zusammenfassung mit fünf Zahlen

R-Code

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 
Silberfisch
quelle
1
+1 Ihr Beispiel ist großartig, weil man zunächst denken könnte: Nun, sicherlich kann eine Verteilung nicht vollständig durch fünf Zahlen beschrieben werden, da es sich um ein unendlichdimensionales Objekt handelt, aber sicherlich alle Verteilungen mit demselben Mittelwert / Median / Quartile / etc. sind zumindest sehr ähnlich! Nun, nein, das sind sie nicht. Ihre PDFs zeigen es übrigens viel auffälliger als die CDFs.
Amöbe
1
@amoeba Danke, visuell ist das Histogramm viel auffälliger. Ich denke, die CDF zeigt deutlicher, was los ist, in dem Sinne, wie wir es verallgemeinern könnten.
Silverfish
π
@ Alexis Ich denke, ich meinte "eine [willkürliche] Verteilung" in diesem Kommentar, keine Verteilung aus einer bestimmten parametrischen Familie ...
Amöbe
@amoeba Das ist fair. Vor allem, weil es rhetorisch war. Trotzdem sollten wir vorsichtig sein, wenn wir "Unendlichkeit" herumwerfen ... Ich denke, wenn jemand wirklich auf Unendlichkeit als Teil seines Systems besteht, gibt es wahrscheinlich irgendwo Arbitrage in einem Ungleichgewicht. :)
Alexis
15

Dies wird am deutlichsten unter Berücksichtigung der (kumulativen) Verteilungsfunktion beantwortet.

Wenn Sie das Minimum, das Maximum und die drei Quartile angeben, werden genau 5 Punkte auf dem cdf angegeben. Das cdf zwischen diesen Punkten kann jedoch eine monotone, nicht abnehmende Funktion dazwischen sein, die diese Punkte noch durchläuft:

Geben Sie hier die Bildbeschreibung ein

In der Zeichnung teilen sich sowohl die rote als auch die schwarze CDF das gleiche Minimum, Maximum und Quartil, weisen jedoch deutlich unterschiedliche Verteilungen auf. Es kann eindeutig eine beliebige Anzahl anderer CDFs angegeben werden, die ebenfalls dieselben fünf Punkte durchlaufen.

Alles, was wir getan haben, ist, unsere Verteilungsfunktion auf vier Felder zu beschränken:

Geben Sie hier die Bildbeschreibung ein

(solange es auch weiterhin die anderen Bedingungen für eine CDF erfüllt). Das ist keine allzu große Einschränkung.

Der gleiche Begriff kann auf Stichprobenmengen angewendet werden - zwei verschiedene empirische CDFs können dennoch dieselbe Zusammenfassung mit fünf Zahlen haben.

Glen_b -Reinstate Monica
quelle
3

[0,3]]{0,1,2,3}}

Ein verwandtes Beispiel ist das bekannte Anscombe-Quartett, in dem 4 Datensätze mit 6 identischen Stichprobeneigenschaften (obwohl sie sich von den von Ihnen erwähnten unterscheiden) völlig anders aussehen. Siehe: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

Sven
quelle