Ich weiß, dass wenn ich zwei Verteilungen mit dem gleichen Mittelwert und der gleichen Varianz unterschiedliche Formen haben kann, weil ich ein N (x, s) und ein U (x, s) haben kann.
Aber was ist, wenn ihre Min, Q1, Median, Q3 und Max identisch sind?
Können die Verteilungen dann anders aussehen oder müssen sie dieselbe Form annehmen?
Meine einzige Logik dahinter ist, wenn sie genau dieselbe 5-Zahlen-Zusammenfassung haben, müssen sie genau dieselbe Verteilungsform annehmen.
Antworten:
Nur weil die Zusammenfassung mit fünf Zahlen identisch ist, bedeutet dies nicht, dass die Verteilung identisch ist. Dies zeigt Ihnen, wie viele Informationen verloren gehen, wenn wir Daten grafisch in einem Boxplot darstellen!
Der vielleicht einfachste Weg, um das Problem zu erkennen, besteht darin, dass die Zusammenfassung mit fünf Zahlen nichts über die Verteilung der Werte zwischen dem minimalen und dem unteren Quartil oder zwischen dem unteren Quartil und dem Median usw. aussagt. Sie wissen, dass die Häufigkeit zwischen minimalem und unterem Quartil mit der Häufigkeit zwischen unterem Quartil und Median übereinstimmen muss (mit den offensichtlichen Ausnahmen, z. B. wenn Daten auf einem Quartil liegen oder schlimmer noch, wenn zwei Quartile gebunden sind), wissen es aber nicht Welche Werte der Variablen werden diesen Frequenzen zugewiesen? Wir können eine Situation wie diese haben:
R
EDIT: Wie @Glen_b sagt, wird dies noch deutlicher, wenn man sich die kumulativen Verteilungen ansieht. Ich habe Gitterlinien hinzugefügt, um die Position der Quartile anzuzeigen, die für die beiden Verteilungen gleich sind, sodass sich ihre empirischen CDFs überschneiden.
R-Code
quelle
Dies wird am deutlichsten unter Berücksichtigung der (kumulativen) Verteilungsfunktion beantwortet.
Wenn Sie das Minimum, das Maximum und die drei Quartile angeben, werden genau 5 Punkte auf dem cdf angegeben. Das cdf zwischen diesen Punkten kann jedoch eine monotone, nicht abnehmende Funktion dazwischen sein, die diese Punkte noch durchläuft:
In der Zeichnung teilen sich sowohl die rote als auch die schwarze CDF das gleiche Minimum, Maximum und Quartil, weisen jedoch deutlich unterschiedliche Verteilungen auf. Es kann eindeutig eine beliebige Anzahl anderer CDFs angegeben werden, die ebenfalls dieselben fünf Punkte durchlaufen.
Alles, was wir getan haben, ist, unsere Verteilungsfunktion auf vier Felder zu beschränken:
(solange es auch weiterhin die anderen Bedingungen für eine CDF erfüllt). Das ist keine allzu große Einschränkung.
Der gleiche Begriff kann auf Stichprobenmengen angewendet werden - zwei verschiedene empirische CDFs können dennoch dieselbe Zusammenfassung mit fünf Zahlen haben.
quelle
Ein verwandtes Beispiel ist das bekannte Anscombe-Quartett, in dem 4 Datensätze mit 6 identischen Stichprobeneigenschaften (obwohl sie sich von den von Ihnen erwähnten unterscheiden) völlig anders aussehen. Siehe: http://en.wikipedia.org/wiki/Anscombe%27s_quartet
quelle