Kann die 'Bin-Größe' in einem Histogramm als Regelmäßigkeitsbeschränkung angesehen werden?

8

Wenn Sie sich ein Histogramm als Schätzung der Dichtefunktion vorstellen, ist es sinnvoll, sich die Behältergröße als einen Parameter vorzustellen, der die lokale Struktur dieser Funktion einschränkt?

Gibt es auch eine bessere Möglichkeit, diese Argumentation zu artikulieren?

Baba
quelle
Ich denke, Sie könnten sich die Schätzung der
Kerneldichte

Antworten:

6

Ja, dies ist eine vernünftige Art, darüber nachzudenken (vorausgesetzt, das Histogramm wird normalisiert, um ein korrektes PDF zu erhalten). Die Behälterbreite schränkt die Glätte der Dichteschätzung ein (lose gesprochen, da Histogramme diskontinuierliche Funktionen sind). Es steuert, inwieweit eine feinere Struktur modelliert werden kann und inwieweit zufällige Schwankungen der Daten die Schätzung beeinflussen. Es spielt eine ähnliche Rolle wie die Kernbreite bei der Schätzung der Kerneldichte und Hyperparameter, die die Blattgröße in Entscheidungsbäumen steuern.

Um etwas genauer zu sein, ist die Bin-Breite ein Hyperparameter, der den Kompromiss zwischen Bias-Varianz steuert. Durch Verringern der Behälterbreite wird die Vorspannung verringert, da eine feinere Darstellung möglich ist. Histogramme mit schmaleren Behältern bilden eine umfangreichere Klasse von Funktionen, die die wahre / zugrunde liegende Verteilung besser approximieren können. Dies erhöht jedoch die Varianz, da weniger Datenpunkte für die Schätzung der Höhe der einzelnen Bins verfügbar sind. Histogramme mit engeren Bins reagieren empfindlicher auf zufällige Schwankungen der Daten und variieren stärker über Datensätze, die aus derselben zugrunde liegenden Verteilung stammen. Eine gute Behälterbreite gleicht diese gegensätzlichen Effekte aus, um eine Dichteschätzung zu erhalten, die besser zur zugrunde liegenden Verteilung passt.

Weitere Einzelheiten finden Sie unter:

Scott (1979) . Auf optimalen und datenbasierten Histogrammen.

Shalizi (2009) . Schätzen von Verteilungen und Dichten [Kursnotizen]

user20160
quelle
1

Kernel-Dichteschätzer werden häufig als "kontinuierliche" Version eines Histogramms rationalisiert. In vielen Büchern zur nichtparametrischen Kernelschätzung werden auch Histogramme behandelt. Siehe z. B. Kapitel 2 in Racine, Jeffrey S. " Nichtparametrische Ökonometrie: Eine Grundierung ." Foundations and Trends® in Econometrics 3.1 (2008): 1-88.

Otto Kässi
quelle
0

Es ist vernünftig, denn was Sie tun, indem Sie Proben in Behälter legen, ist eine Annäherung an die Daten. Nach meiner Erfahrung können diese Fächer je nach Ziel und verfügbaren Daten drastisch variieren und einen großen Einfluss darauf haben, wie die Daten weiter verarbeitet werden. In einigen Fällen benötigen Sie möglicherweise nicht viele Fächer oder es fehlen Daten, sodass Sie die allgemeine Kurve weiterhin sehen können. Auf der anderen Seite können Sie, wenn die Annäherung zu stark ist, einige Details wie lokale Minuten und Höchstwerte oder die Struktur übersehen. Zum Beispiel können Sie die folgende Funktion übernehmen: Geben Sie hier die Bildbeschreibung ein

Und vergleichen Sie die Hist für 100 und 8 BinsGeben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Es gibt einen deutlichen Unterschied zwischen der Strukturkomplexität. Wenn wir über die Dichtefunktion sprechen, sollten Sie natürlich die zweite Option für eine glattere Kurve ohne solche Extremwerte wie auf dem ersten Bild wählen.
Normalerweise bevorzuge ich die Verwendung der Freedman-Diaconis-Regel als Faustregel, um die Standardeinstellung zu wählen Anzahl der Fächer und stimmen Sie es dann unter Berücksichtigung der Aufgabe ab.

Linguinho
quelle