Wikipedia berichtet, dass nach der Freedman- und Diaconis-Regel die optimale Anzahl von Behältern in einem Histogramm wachsen sollte
Dabei ist die Stichprobengröße.
Wenn Sie sich jedoch die nclass.FD
Funktion in R ansehen , die diese Regel implementiert, zumindest mit Gaußschen Daten, und wenn , scheint die Anzahl der Bins schneller zu wachsen als , näher an (tatsächlich schlägt die beste Anpassung ). Was ist der Grund für diesen Unterschied?n 1 / 3 n 1 - √ m≈n0,4
Edit: mehr Infos:
Die Linie ist die OLS-Linie mit einem Schnittpunkt von 0,429 und einer Steigung von 0,4. In jedem Fall wurden die Daten ( x
) aus einem Standard-Gaußschen generiert und in die eingespeist nclass.FD
. Das Diagramm zeigt die Größe (Länge) des Vektors gegenüber der optimalen Anzahl von Klassen, die von der nclass.FD
Funktion zurückgegeben werden.
Zitat aus Wikipedia:
Ein guter Grund, warum die Anzahl der Bins proportional zu ist der folgende: Angenommen, die Daten werden als n unabhängige Realisierungen einer begrenzten Wahrscheinlichkeitsverteilung mit glatter Dichte erhalten. Dann bleibt das Histogramm gleichermaßen »robust«, da n gegen unendlich tendiert. Wenn die »Breite« der Verteilung ist (z. B. die Standardabweichung oder der Interquartilbereich), liegt die Anzahl der Einheiten in einem Bin (die Häufigkeit) in der Größenordnung von und der relative Standardfehler in der Größenordnung . Im Vergleich zum nächsten Bin liegt die relative Änderung der Frequenz in der Größenordnung von vorausgesetzt, die Ableitung der Dichte ist ungleich Null. Diese beiden sind in derselben Reihenfolge, wenn s n h / s √ h/shs/n 1 / 3 kn 1 / 3ist von der Ordnung , so dass von der Ordnung .
Die Freedman-Diaconis-Regel lautet:
quelle
Antworten:
Der Grund liegt in der Tatsache, dass erwartet wird, dass die Histogrammfunktion alle Daten enthält, sodass sie den Bereich der Daten umfassen muss.
Die Freedman-Diaconis-Regel gibt eine Formel für die Breite der Behälter an.
Die Funktion gibt eine Formel für die Anzahl der Fächer an.
Die Beziehung zwischen der Anzahl der Fächer und der Breite der Fächer wird durch den Bereich der Daten beeinflusst.
Mit Gaußschen Daten nimmt der erwartete Bereich mit .n
Hier ist die Funktion:
diff(range(x))
ist der Bereich der Daten.Wie wir sehen, wird der Datenbereich durch die FD-Formel für die Behälterbreite geteilt (und aufgerundet), um die Anzahl der Behälter zu erhalten.
Es scheint, ich hätte klarer sein können, daher hier eine detailliertere Erklärung:n−1/3 n n1/3
Die tatsächliche Freedman-Diaconis-Regel ist keine Regel für die Anzahl der Behälter, sondern für die Behälterbreite. Nach ihrer Analyse sollte die Behälterbreite proportional zu . Da die Gesamtbreite des Histogramms eng mit dem Probenbereich zusammenhängen muss (sie kann aufgrund der Aufrundung auf schöne Zahlen etwas breiter sein) und sich der erwartete Bereich mit ändert , ist die Anzahl der Bins nicht ganz umgekehrt proportional zu Behälterbreite, muss aber schneller zunehmen. Die Anzahl der Fächer sollte also nicht so groß wie , sondern etwas schneller, da die Reichweite dadurch erreicht wird. n n 1 / 3
Betrachtet man die Daten aus Tippetts Tabellen von 1925 [1], so scheint der erwartete Bereich in normalen Standardproben mit ziemlich langsam zu wachsen - sogar langsamer als :log ( n )n log(n)
(In der Tat weist Amöbe in den Kommentaren unten darauf hin, dass es proportional - oder fast proportional - zu , was langsamer wächst, als Ihre Analyse in der Frage vermuten lässt. Dies lässt mich fragen, ob es das gibt Es ist ein anderes Problem aufgetreten, aber ich habe nicht untersucht, ob dieser Bereichseffekt Ihre Daten vollständig erklärt.)log(n)−−−−−√
Ein kurzer Blick auf Tippetts Zahlen (die bis zu n = 1000 reichen) legt nahe, dass der erwartete Bereich in einem Gaußschen Wert in über sehr nahe an der , aber es scheint für Werte in diesem Bereich nicht wirklich proportional zu sein. 10≤n≤1000log(n)−−−−−√ 10≤n≤1000
[1]: LHC Tippett (1925). "Über die extremen Individuen und die Bandbreite der Proben, die einer normalen Bevölkerung entnommen wurden". Biometrika 17 (3/4): 364–387
quelle