Diese Frage beschreibt den grundlegenden Unterschied zwischen einem einheitlichen und einem ungleichmäßigen Histogramm. In dieser Frage wird die Faustregel für die Auswahl der Anzahl der Fächer eines einheitlichen Histogramms erörtert, mit der (in gewissem Sinne) der Grad optimiert wird, in dem das Histogramm die Verteilung darstellt, aus der die Datenproben entnommen wurden.
Ich kann anscheinend nicht die gleiche Art von "Optimalitäts" -Diskussion über einheitliche und ungleichmäßige Histogramme finden. Ich habe eine gruppierte nichtparametrische Verteilung mit weit entfernten Ausreißern, sodass ein ungleichmäßiges Histogramm intuitiv sinnvoller ist. Aber ich würde gerne eine genauere Analyse der folgenden zwei Fragen sehen:
- Wann ist ein Histogramm mit einheitlichen Behältern besser als ein Histogramm mit nicht einheitlichen Behältern?
- Was ist eine gute Anzahl von Behältern für ein ungleichmäßiges Histogramm?
Für ein ungleichmäßiges Histogramm werde ich als der einfachste Fall angesehen, in dem wir Proben aus einer unbekannten Verteilung entnehmen , die resultierenden Werte ordnen und sie in Bins aufteilen, so dass jeder Bin davon hat Samples (unter der Annahme, dass für eine große ganze Zahl ). Die Bereiche werden gebildet, indem der Mittelpunkt zwischen dem der Werte in Bin i und dem \ min der Werte in Bin i + 1 genommen wird . Hier und hier finden Sie Links, die diese Art von ungleichmäßigen Histogrammen beschreiben.n k k
quelle
Antworten:
Dies erfordert eine Art Identifizierung dessen, was wir optimieren möchten. Viele Leute versuchen, den durchschnittlichen integrierten mittleren quadratischen Fehler zu optimieren, aber in vielen Fällen denke ich, dass dies den Punkt eines Histogramms etwas verfehlt. es oft (für mein Auge) "glättet"; Für ein Erkundungswerkzeug wie ein Histogramm kann ich viel mehr Rauheit tolerieren, da die Rauheit selbst mir ein Gefühl dafür gibt, inwieweit ich mit dem Auge "glätten" sollte. Ich neige dazu, die übliche Anzahl von Behältern nach solchen Regeln mindestens zu verdoppeln, manchmal sogar viel mehr. Ich stimme Andrew Gelman in dieser Hinsicht eher zu . in der Tat, wenn mein Interesse wirklich eine gute AIMSE bekommen würde, sollte ich wahrscheinlich sowieso kein Histogramm in Betracht ziehen.
Wir brauchen also ein Kriterium.
Lassen Sie mich zunächst einige der Optionen von Histogrammen mit ungleicher Fläche diskutieren:
Es gibt einige Ansätze, die in Bereichen mit geringerer Dichte mehr Glättung (weniger, breitere Bins) bewirken und engere Bins haben, in denen die Dichte höher ist - wie z. B. Histogramme mit "gleicher Fläche" oder "gleicher Anzahl". Ihre bearbeitete Frage scheint die Möglichkeit der gleichen Anzahl zu berücksichtigen.
Die
histogram
Funktion in Rslattice
Paket kann ungefähr gleich große Balken erzeugen:Diese Neigung rechts neben dem ganz linken Behälter ist noch deutlicher, wenn Sie die vierte Wurzel ziehen. Bei gleich breiten Behältern kann man es nur sehen, wenn man 15 bis 20 Mal so viele Behälter verwendet, und dann sieht der rechte Schwanz schrecklich aus.
Es gibt ein gleich Zählungs Histogramm hier , mit R-Code, das Probe-Quantile verwendet die Pausen zu finden.
Zum Beispiel, auf den gleichen Daten wie oben, hier sind 6 Behälter mit (hoffentlich) jeweils 8 Beobachtungen:
Diese Lebenslauffrage verweist auf ein Papier von Denby und Mallows, dessen Version hier heruntergeladen werden kann und das einen Kompromiss zwischen Behältern gleicher Breite und Behältern gleicher Fläche beschreibt.
Es werden auch die Fragen behandelt, die Sie zu einem gewissen Grad hatten.
Sie könnten das Problem vielleicht als eine Möglichkeit betrachten, die Brüche in einem stückweise konstanten Poisson-Prozess zu identifizieren. Das würde dazu führen, dass so funktioniert . Es gibt auch die damit verbundene Möglichkeit, Algorithmen vom Typ Clustering / Klassifizierung anhand von (sagen wir) Poisson-Zählungen zu betrachten, von denen einige Algorithmen eine Reihe von Bins ergeben würden. Clustering wurde in 2D-Histogrammen (tatsächlich Bilder ) verwendet, um Regionen zu identifizieren, die relativ homogen sind.
- -
Wenn wir ein Histogramm mit gleicher Anzahl und ein zu optimierendes Kriterium hätten, könnten wir einen Bereich von Zählungen pro Bin ausprobieren und das Kriterium auf irgendeine Weise bewerten. Das hier erwähnte Wand-Papier [ Papier oder Arbeitspapier pdf ] und einige seiner Verweise (z. B. auf die Papiere von Sheather et al.) Umreißen die Schätzung der "Plug-in" -Behälterbreite auf der Grundlage von Kernel-Glättungsideen zur Optimierung von AIMSE. Im Großen und Ganzen sollte ein solcher Ansatz an diese Situation angepasst werden können, obwohl ich mich nicht daran erinnere, dass er dies getan hat.
quelle