Histogramm mit einheitlichen und ungleichmäßigen Behältern

10

Diese Frage beschreibt den grundlegenden Unterschied zwischen einem einheitlichen und einem ungleichmäßigen Histogramm. In dieser Frage wird die Faustregel für die Auswahl der Anzahl der Fächer eines einheitlichen Histogramms erörtert, mit der (in gewissem Sinne) der Grad optimiert wird, in dem das Histogramm die Verteilung darstellt, aus der die Datenproben entnommen wurden.

Ich kann anscheinend nicht die gleiche Art von "Optimalitäts" -Diskussion über einheitliche und ungleichmäßige Histogramme finden. Ich habe eine gruppierte nichtparametrische Verteilung mit weit entfernten Ausreißern, sodass ein ungleichmäßiges Histogramm intuitiv sinnvoller ist. Aber ich würde gerne eine genauere Analyse der folgenden zwei Fragen sehen:

  1. Wann ist ein Histogramm mit einheitlichen Behältern besser als ein Histogramm mit nicht einheitlichen Behältern?
  2. Was ist eine gute Anzahl von Behältern für ein ungleichmäßiges Histogramm?

Für ein ungleichmäßiges Histogramm werde ich als der einfachste Fall angesehen, in dem wir Proben aus einer unbekannten Verteilung entnehmen , die resultierenden Werte ordnen und sie in Bins aufteilen, so dass jeder Bin davon hat Samples (unter der Annahme, dass für eine große ganze Zahl ). Die Bereiche werden gebildet, indem der Mittelpunkt zwischen dem der Werte in Bin i und dem \ min der Werte in Bin i + 1 genommen wird . Hier und hier finden Sie Links, die diese Art von ungleichmäßigen Histogrammen beschreiben.n k knnkknnckcmaximini+1

Alan Turing
quelle
Es gibt nicht annähernd genug Informationen, um zu antworten (2). Was sind die Bedingungen für die Ungleichmäßigkeit? Können Sie einen Behälter auswählen, den Sie mögen, oder gibt es eine Einschränkung? Was möchten Sie optimieren? zB möchten Sie einen minimalen mittleren integrierten quadratischen Fehler zwischen und ? Oder etwas anderes? ff^
Glen_b -Rate State Monica
@Glen_b Ich beschreibe etwas detaillierter die Art des Histogramms, das ich im Fall eines ungleichmäßigen Behälters betrachte.
Alan Turing
Überprüfen Sie Ihre Bearbeitung. Meinten Sie "n = cm" statt "cn"? Es gibt auch einen späteren Tippfehler.
Glen_b -Rate State Monica
Versuchen Sie , so etwas wie zu vermitteln , dies ?
Glen_b -Rate State Monica
Siehe auch diese Diskussion über einen Kompromiss zwischen diesem und dem üblichen Histogramm
Glen_b -Rate State Monica

Antworten:

7

Wann ist ein Histogramm mit einheitlichen Behältern besser als ein Histogramm mit nicht einheitlichen Behältern?

Dies erfordert eine Art Identifizierung dessen, was wir optimieren möchten. Viele Leute versuchen, den durchschnittlichen integrierten mittleren quadratischen Fehler zu optimieren, aber in vielen Fällen denke ich, dass dies den Punkt eines Histogramms etwas verfehlt. es oft (für mein Auge) "glättet"; Für ein Erkundungswerkzeug wie ein Histogramm kann ich viel mehr Rauheit tolerieren, da die Rauheit selbst mir ein Gefühl dafür gibt, inwieweit ich mit dem Auge "glätten" sollte. Ich neige dazu, die übliche Anzahl von Behältern nach solchen Regeln mindestens zu verdoppeln, manchmal sogar viel mehr. Ich stimme Andrew Gelman in dieser Hinsicht eher zu . in der Tat, wenn mein Interesse wirklich eine gute AIMSE bekommen würde, sollte ich wahrscheinlich sowieso kein Histogramm in Betracht ziehen.

Wir brauchen also ein Kriterium.

Lassen Sie mich zunächst einige der Optionen von Histogrammen mit ungleicher Fläche diskutieren:

Es gibt einige Ansätze, die in Bereichen mit geringerer Dichte mehr Glättung (weniger, breitere Bins) bewirken und engere Bins haben, in denen die Dichte höher ist - wie z. B. Histogramme mit "gleicher Fläche" oder "gleicher Anzahl". Ihre bearbeitete Frage scheint die Möglichkeit der gleichen Anzahl zu berücksichtigen.

Die histogramFunktion in Rs latticePaket kann ungefähr gleich große Balken erzeugen:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

Vergleich von gleicher Breite und gleicher Fläche

Diese Neigung rechts neben dem ganz linken Behälter ist noch deutlicher, wenn Sie die vierte Wurzel ziehen. Bei gleich breiten Behältern kann man es nur sehen, wenn man 15 bis 20 Mal so viele Behälter verwendet, und dann sieht der rechte Schwanz schrecklich aus.

Es gibt ein gleich Zählungs Histogramm hier , mit R-Code, das Probe-Quantile verwendet die Pausen zu finden.

Zum Beispiel, auf den gleichen Daten wie oben, hier sind 6 Behälter mit (hoffentlich) jeweils 8 Beobachtungen:

gleichwertiges Histogramm

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Diese Lebenslauffrage verweist auf ein Papier von Denby und Mallows, dessen Version hier heruntergeladen werden kann und das einen Kompromiss zwischen Behältern gleicher Breite und Behältern gleicher Fläche beschreibt.

Es werden auch die Fragen behandelt, die Sie zu einem gewissen Grad hatten.

Sie könnten das Problem vielleicht als eine Möglichkeit betrachten, die Brüche in einem stückweise konstanten Poisson-Prozess zu identifizieren. Das würde dazu führen, dass so funktioniert . Es gibt auch die damit verbundene Möglichkeit, Algorithmen vom Typ Clustering / Klassifizierung anhand von (sagen wir) Poisson-Zählungen zu betrachten, von denen einige Algorithmen eine Reihe von Bins ergeben würden. Clustering wurde in 2D-Histogrammen (tatsächlich Bilder ) verwendet, um Regionen zu identifizieren, die relativ homogen sind.

- -

Wenn wir ein Histogramm mit gleicher Anzahl und ein zu optimierendes Kriterium hätten, könnten wir einen Bereich von Zählungen pro Bin ausprobieren und das Kriterium auf irgendeine Weise bewerten. Das hier erwähnte Wand-Papier [ Papier oder Arbeitspapier pdf ] und einige seiner Verweise (z. B. auf die Papiere von Sheather et al.) Umreißen die Schätzung der "Plug-in" -Behälterbreite auf der Grundlage von Kernel-Glättungsideen zur Optimierung von AIMSE. Im Großen und Ganzen sollte ein solcher Ansatz an diese Situation angepasst werden können, obwohl ich mich nicht daran erinnere, dass er dies getan hat.

Glen_b - Monica neu starten
quelle