Unterschied zwischen Histogramm und PDF?

18

Wenn wir die Verteilung kontinuierlicher Daten sichtbar sehen wollen, welches zwischen Histogramm und PDF sollte verwendet werden?

Was sind die formelmäßigen Unterschiede zwischen Histogramm und PDF?

csgillespie
quelle
Können Sie bitte klarstellen, ob es sich bei dieser Frage um Daten handelt (deren Verteilung durch ein Histogramm dargestellt werden könnte) oder um theoretische Konstrukte (z. B. ein PDF, das eine Wahrscheinlichkeitsverteilung beschreibt).
Whuber
4
Aber woher kommt das PDF? Ein PDF beschreibt per Definition eine theoretische Wahrscheinlichkeitsverteilung. Meinen Sie vielleicht die EDF (empirische Verteilungsfunktion)?
Whuber

Antworten:

22

So klären Sie den Dirks-Punkt:

Angenommen, Ihre Daten sind ein Beispiel für eine Normalverteilung. Sie könnten das folgende Diagramm erstellen:

Alt-Text

Die rote Linie ist die empirische Dichteschätzung, die blaue Linie ist das theoretische PDF der zugrunde liegenden Normalverteilung. Beachten Sie, dass das Histogramm hier in Dichten und nicht in Frequenzen ausgedrückt wird. Dies geschieht zu Darstellungszwecken, im Allgemeinen werden Frequenzen in Histogrammen verwendet.

Um Ihre Frage zu beantworten: Sie verwenden die empirische Verteilung (dh das Histogramm), wenn Sie Ihre Stichprobe beschreiben möchten, und das PDF, wenn Sie die hypothetische zugrunde liegende Verteilung beschreiben möchten.

Der Plot wird durch folgenden Code in R generiert:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
quelle
Was ist der Unterschied zwischen Frequenz und Dichte?
Lakshay
2
@ Lakshay Frequenz zählen. Alle summierten Frequenzen entsprechen der Anzahl der Beobachtungen. Die Dichte ist die Abkürzung für PDF (Wahrscheinlichkeitsdichtefunktion), die als Proxy für die Wahrscheinlichkeit eines bestimmten Werts dient. Die Fläche unter dem PDF summiert sich auf 1.
Joris Meys
13

Ein Histogramm ist eine Altersschätzung einer Dichte vor dem Computer. Eine Dichteschätzung ist eine Alternative.

Heutzutage verwenden wir beide und es gibt eine umfangreiche Literatur darüber, welche Standardeinstellungen verwendet werden sollten.

Ein pdf hingegen ist ein Ausdruck in geschlossener Form für eine bestimmte Distribution. Dies unterscheidet sich von der Beschreibung Ihres Datensatzes mit einer geschätzten Dichte oder einem geschätzten Histogramm.

Dirk Eddelbüttel
quelle
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

Hier gibt es keine feste Regel. Wenn Sie die Bevölkerungsdichte kennen, ist ein PDF besser. Andererseits beschäftigen wir uns häufig mit Stichproben, und ein Histogramm kann einige Informationen enthalten, die eine geschätzte Dichte überdeckt. Andrew Gelman macht zum Beispiel Folgendes geltend:

Variationen im Histogramm

Ein Hauptvorteil eines Histogramms besteht darin, dass es als Diagramm der Rohdaten die Keime seiner eigenen Fehlerbewertung enthält. Oder anders ausgedrückt: Die Unregelmäßigkeit eines leicht unterglätteten Histogramms ist nützlich, da die Variabilität der Stichproben visuell angezeigt wird. Wenn Sie sich die Histogramme in meinen Büchern und veröffentlichten Artikeln ansehen, verwende ich deshalb so gut wie immer viele Behälter. Ich mag auch fast nie jene Schätzungen der Kerneldichte, die Menschen manchmal verwenden, um eindimensionale Verteilungen anzuzeigen. Ich möchte lieber das Histogramm sehen und wissen, wo sich die Daten befinden.

ars
quelle
3
Ich muss zugeben, ich verstehe nie ganz, warum Gelman die Verwendung eines Histogramms mit geringer Behälterbreite befürwortet. warum nicht Stripchart-Plot oder Rohdaten mit überlagerten Kernel-Dichteschätzungen verwenden, die die empirische Verteilung der beobachteten Daten viel besser vermitteln?
Chl
2
@chl: Es gibt natürlich auch andere gute Visualisierungsmethoden, um ein Gefühl für die Variabilität der Stichproben zu bekommen. Aber auf den engeren Vergleich von Histogramm und PDF, der hier zur Diskussion steht, halte ich seinen Standpunkt für richtig.
ars
1
das ist ein netter link, ebenso wie die dort diskutierten papiere. Aber gilt dieser Ansatz für Simulationen. In welchem ​​Fall versuchen wir tatsächlich, eine Dichte zu schätzen?
David LeBauer
1

Relatives Frequenzhistogramm ( diskret )

  • Die 'y'-Achse ist die normalisierte Anzahl
  • Die y-Achse ist die diskrete Wahrscheinlichkeit für diesen bestimmten Behälter / Bereich
  • Normalisierte Zählungen summieren sich zu 1

Dichtehistogramm ( diskret )

  • Die 'y'-Achse ist der Dichtewert (' normalisierte Anzahl 'geteilt durch' Behälterbreite ')
  • Barbereiche summieren sich zu 1

Wahrscheinlichkeitsdichtefunktion PDF ( kontinuierlich )

  • PDF ist eine fortlaufende Version eines Histogramms, da Histogrammfächer diskret sind
  • Die Gesamtfläche unter der Kurve wird zu 1 integriert

Diese Verweise waren hilfreich :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Kontinuierliche_Wahrscheinlichkeitsverteilung von der oben genannten Site

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
quelle