"Die Gesamtfläche unter einer Wahrscheinlichkeitsdichtefunktion ist 1" - relativ zu was?

20

Konzeptionell verstehe ich die Bedeutung des Ausdrucks "die Gesamtfläche unter einem PDF ist 1". Es sollte bedeuten, dass die Wahrscheinlichkeit, dass sich das Ergebnis im gesamten Intervall der Möglichkeiten befindet, 100% beträgt.

Aber ich kann es vom "geometrischen" Standpunkt aus nicht wirklich verstehen. Wenn zum Beispiel in einem PDF die x-Achse die Länge darstellt, würde die Gesamtfläche unter der Kurve dann nicht größer, wenn x nicht in km, sondern in mm gemessen würde?

Ich versuche immer, mir vorzustellen, wie der Bereich unter der Kurve aussehen würde, wenn die Funktion auf eine gerade Linie abgeflacht wäre. Wäre die Höhe (Position auf der y-Achse) dieser Linie für jedes PDF gleich, oder hätte sie einen Wert, der vom Intervall auf der x-Achse abhängt, für das die Funktion definiert ist?

TheChymera
quelle
Sie könnten den Maßstab der x Achse von km auf mm ändern , aber was würde das bedeuten? Sie hätten immer noch genau dasselbe Bild und sechs weitere Nullen für Einheiten auf der x Achse. Sie können zoomen oder zoomen, wenn Sie möchten, aber das würde das Bild nicht ändern. Wenn die PDF-Kurve eine gerade horizontale Linie ist (was eine gleichmäßige Verteilung impliziert), hängt ihre Position auf der y Achse nicht von den Einheiten der x Achse ab, sondern nur von der Länge des Intervalls auf der x Achse. Ich bin mir nicht sicher, wie hilfreich es für Sie ist, aber für mich erleichtert das Vergrößern und Verkleinern das Verständnis.
Richard Hardy
2
Das scheint zu stimmen. Dafür wird eine (zugegebenermaßen komische) Lupe verwendet, die in horizontaler Richtung um 1000 vergrößert und gleichzeitig in vertikaler Richtung proportional schrumpft. Das Wesen des Bildes ändert sich jedoch nicht, wenn Sie nur den Maßstab ändern.
Richard Hardy
2
Diese Frage scheint mir die gleiche zu sein, die ich (auf andere Weise) gestellt und unter stats.stackexchange.com/questions/4220/… beantwortet habe .
whuber
1
@amoeba, ja, während sich viele gezwungen fühlen, für die längere Antwort zu stimmen, um die Anstrengungen zu würdigen, die sie unternommen haben (was ich übrigens auch getan habe), hat Aksakal meine Frage viel klarer und prägnanter beantwortet. Um fair zu sein, würde ich sagen, dass die Antwort von Silverfish auch geholfen hat und in Kürze eintrifft.
TheChymera
2
@amoeba Eine völlig andere Richtung der Antwort könnte darin bestehen, sich auf die Tatsache zu konzentrieren, dass PDF-Dateien Derivate von CDFs sind. Der Bereich unter der PDF-Datei ist also einfach der Grenzwert der CDF, der eindeutig eins ist, unabhängig von den verwendeten Einheiten. Ich war versucht, einen kurzen Abschnitt darüber einzubeziehen, hatte aber das Gefühl, dass meine Antwort bereits lang genug war (und außerdem schien der Schlüssel für das Thema des OP das Thema der Einheiten zu sein, um das sich der CDF-Ansatz eher dreht).
Silberfischchen

Antworten:

14

Die Wahrscheinlichkeitsdichtefunktion wird in Prozent pro Maßeinheit Ihrer x-Achse gemessen. Sagen wir mal an einem bestimmten Punkt x0 Ihre PDF bis 1000. Dies bedeutet , dass die Wahrscheinlichkeit gleich x0<x<x0+dx ist 1000dx wobeidx in Metern ist. Wenn Sie die Einheiten in Zentimeter ändern, sollte sich die Wahrscheinlichkeit nicht für dasselbe Intervall ändern, sondern dasselbe Intervall hat 100 Zentimeter mehr als Meter, also1000dx=PDF(x0)100dx und lösen wirPDF(x0)=PDF(x0)100 . Es gibt 100-mal weniger Wahrscheinlichkeitseinheiten (Prozentsätze) pro Zentimeter als pro Meter.

Aksakal
quelle
46

Es kann hilfreich sein, zu erkennen, dass die vertikale Achse als Wahrscheinlichkeitsdichte gemessen wird . Wenn also die horizontale Achse in km gemessen wird, wird die vertikale Achse als Wahrscheinlichkeitsdichte "pro km" gemessen. Nehmen wir an, wir zeichnen ein rechteckiges Element in ein solches Raster, das 5 km breit und 0,1 pro km hoch ist (was Sie vielleicht vorziehen, als "km - 1 " zu schreiben ). Die Fläche dieses Rechtecks ​​beträgt 5 km x 0,1 km - 1 = 0,5. Die Einheiten fallen aus und wir haben nur noch eine halbe Wahrscheinlichkeit.11

Wenn Sie die horizontalen Einheiten in "Meter" ändern, müssen Sie die vertikalen Einheiten in "pro Meter" ändern. Das Rechteck wäre jetzt 5000 Meter breit und hätte eine Dichte (Höhe) von 0,0001 pro Meter. Du hast immer noch eine halbe Wahrscheinlichkeit. Es könnte Sie stören, wie seltsam diese beiden Diagramme auf der Seite im Vergleich zueinander aussehen (muss eines nicht viel breiter und kürzer sein als das andere?), Aber wenn Sie die Diagramme physisch zeichnen, können Sie alles verwenden Skalieren Sie wie. Schauen Sie unten, um zu sehen, wie wenig Verrücktheit involviert sein muss.

Es kann hilfreich sein, Histogramme zu betrachten, bevor Sie mit Wahrscheinlichkeitsdichtekurven fortfahren. In vielerlei Hinsicht sind sie analog. Die vertikale Achse eines Histogramms ist die Frequenzdichte [pro Einheit],x und Flächen stellen Frequenzen dar, da sich horizontale und vertikale Einheiten bei der Multiplikation aufheben. Die PDF-Kurve ist eine Art kontinuierliche Version eines Histogramms mit einer Gesamtfrequenz von eins.

Eine noch engere Analogie ist ein relatives Frequenzhistogramm - wir sagen, ein solches Histogramm wurde "normalisiert", so dass Flächenelemente jetzt Proportionen Ihres ursprünglichen Datensatzes und keine Rohfrequenzen mehr darstellen und die Gesamtfläche aller Balken eins ist. Die Höhen sind nun relative Frequenzdichten [pro Einheit]x . Wenn ein relatives Frequenzhistogramm einen Balken hat, der entlang x verläuftxWerte von 20 km bis 25 km (die Breite des Balkens beträgt also 5 km) und eine relative Frequenzdichte von 0,1 pro km, dann enthält dieser Balken einen Anteil von 0,5 der Daten. Dies entspricht genau der Vorstellung, dass ein zufällig ausgewählter Artikel aus Ihrem Datensatz mit einer Wahrscheinlichkeit von 50% in dieser Leiste liegt. Das bisherige Argument zur Auswirkung von Einheitenänderungen gilt weiterhin: Vergleichen Sie für diese beiden Diagramme die Anteile der Daten im Bereich von 20 km bis 25 km mit denen im Bereich von 20.000 m bis 25.000 m. Sie können auch rechnerisch bestätigen, dass die Flächen aller Balken in beiden Fällen eins ergeben.

Relative Frequenzhistogramme mit unterschiedlichen Einheiten

Was könnte ich mit meiner Behauptung gemeint haben, dass das PDF eine "Art fortlaufende Version eines Histogramms" ist? Nehmen wir einen kleinen Streifen unter einer Wahrscheinlichkeitsdichtekurve entlang Werten im Intervall [ x , x + δ x ] , damit der Streifen δ x breit ist und die Höhe der Kurve eine annähernd konstante f ( x ) ist . Wir können einen Balken dieser Höhe zeichnen, dessen Fläche f ( x )x[x,x+δx]δxf(x) repräsentiert die ungefähre Wahrscheinlichkeit, in diesem Streifen zu liegen.f(x)δx

Wie können wir die Fläche unter der Kurve zwischen und x = b finden ? Wir könnten dieses Intervall in kleine Streifen unterteilen und die Summe der Flächen der Balken nehmen, f ( x )x=ax=b , was der ungefähren Wahrscheinlichkeit entsprechen würde, in dem Intervall [ a , b ] zu liegen . Wir sehen, dass die Kurve und die Balken nicht genau ausgerichtet sind, so dass es einen Fehler in unserer Annäherung gibt. Indem wir δ x für jeden Balken kleiner und kleiner machen, füllen wir das Intervall mit mehr und schmaleren Balken, derenf ( x )f(x)δx[a,b]δx liefert eine bessere Schätzung der Fläche.f(x)δx

Um die Fläche genau zu berechnen, anstatt anzunehmen, dass über jeden Streifen konstant ist, wird das Integral b a f ( x ) d x ausgewertet , und dies entspricht der tatsächlichen Wahrscheinlichkeit, in dem Intervall [ a , b ] zu liegen. . Das Integrieren über die gesamte Kurve ergibt eine Gesamtfläche (dh eine Gesamtwahrscheinlichkeit) von eins, aus dem gleichen Grund, dass das Summieren der Flächen aller Balken eines relativen Frequenzhistogramms eine Gesamtfläche (dh einen Gesamtanteil) von eins ergibt. Integration ist selbst eine Art kontinuierliche Version der Summe.f(x)abf(x)dx[a,b]

Bildbeschreibung hier eingeben

R-Code für Grundstücke

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
Silberfisch
quelle
Sie haben es mit den ersten beiden Zeilen genagelt, aber der Rest ist genauso gut.
PatrickT
2
f(x)=F(x)
1
@Silverfish: Dies ist das erste Mal, dass ich jemanden gesehen habe, der den Begriff "Penny Drops" auf Englisch verwendet!
Mehrdad
1
Die erste Grafik sieht aus, als würde jemand den Vogel
umdrehen
1
@Aksakal Ooof. Das habe ich nicht bemerkt. Ich darf nicht vergessen, dieses Beispiel im Unterricht ohne einige Modifikationen zu verwenden. (Auf der gleichen Linie gibt es, wenn ein Problem an der Tafel gelöst wird, bestimmte Zahlen wie 69, die ich zu vermeiden versuche. Erfahrung ist schwer zu gewinnen.)
Silverfish
7

Sie haben bereits zwei Antworten erhalten, eine ausgezeichnete von Silverfish . Ich bin jedoch der Meinung, dass eine Illustration hier nützlich sein könnte, da Sie nach der Geometrie gefragt und sich diese Funktionen "vorgestellt" haben.

Beginnen wir mit einem einfachen Beispiel für die Bernoulli-Verteilung :

f(x)={pob x=1,1-pob x=0.

enter image description here

Da die Werte dort diskret sind keine „Kurve“ , aber nur zwei Punkte, aber die Idee ist ähnlich: Wenn Sie wissen möchten , Gesamtwahrscheinlichkeit (Fläche unter der Kurve) , müssen Sie Wahrscheinlichkeiten beider möglichen Ergebnisse zusammenzufassen:

p+(1-p)=1

Da ist nur p und 1-p in dieser Gleichung haben wir nur zwei mögliche Punktergebnisse mit einer gegebenen Wahrscheinlichkeit.

Gleiches gilt für die Poisson-Verteilung , bei der es sich auch um eine diskrete Wahrscheinlichkeitsverteilung handelt. Da es mehr als zwei Werte gibt, können Sie sich vorstellen, dass es eine Linie gibt, die die Punkte verbindet. Um jedoch die Gesamtwahrscheinlichkeit zu berechnen, müssten Sie alle Wahrscheinlichkeiten von zusammenfassenx's. Die Poisson-Verteilung wird häufig zur Beschreibung der Zähldaten verwendet, sodass Sie sich diese als solche vorstellen könnenx ist eine Reihe von bestimmten Ereignissen und f(x)ist eine Wahrscheinlichkeit für dieses Ergebnis. Sie können sich vorstellen, dass jeder Punkt in der folgenden Grafik tatsächlich die Höhe eines Stapels ist, der aus einigen Ergebnissen besteht:x1 ist ein Stapel von allen "x1"Ergebnisse, die man beobachtet , usw. Die Gesamt‚Fläche unter der Kurve‘würde (oder ein aufsummiert hier alle Stapel sein meta -stack aller Ergebnisse) , aber da wir summieren keine Zahlen von Auftritten , sondern Wahrscheinlichkeiten, sie Summe bis zu1. Sie sollten es also nicht als Summe von Zählungen betrachten#{xich}=Nsondern als Summe der Wahrscheinlichkeiten: #{xich}/N=1 woher N ist eine Gesamtzahl aller möglichen Ergebnisse.

enter image description here

Betrachten wir nun eine Normalverteilung , die eigentlich eine kontinuierliche Verteilung ist - wir haben also keine "Punkte" seit den Werten vonx sind stetig, dh es gibt unendlich viele Werte von x. Wenn es also Punkte gäbe, könnten Sie sie nicht sehen, egal wie sehr Sie "zoomen" würden, da es immer eine unendliche Anzahl kleinerer Punkte zwischen den einzelnen Punkten geben könnte. Aus diesem Grund haben wir hier tatsächlich eine Kurve - Sie können sich vorstellen, dass sie aus unendlich vielen "Punkten" besteht. Sie könnten sich fragen: Wie berechnet man eine Summe von unendlich vielen Wahrscheinlichkeiten? Auf dem Diagramm unter der roten Kurve befindet sich eine normale PDF-Datei und die schwarzen Kästchen sind Histogramme einiger Werte aus der Verteilung. Das Histogrammdiagramm hat unsere Verteilung auf die endliche Anzahl von "Kästen" mit einer bestimmten Breite vereinfachtund wenn Sie die Höhen der Kästchen multipliziert mit ihrer Breite aufsummieren, erhalten Sie eine Fläche unter der Kurve - oder Fläche aller Kästchen. Wir verwenden hier eher Bereiche als Punkte, da jede Box eine Zusammenfassung einer unendlichen Anzahl von "Punkten" ist, die in der Box gepackt wurden.

enter image description here

Um die Gesamtfläche zu erhalten, nehmen wir die Höhen (d. H f(x)) und Breiten (zB erstes Kästchen hat Breite: -2.5--3=0,5, genau wie alle anderen Boxen). In der tatsächlichen Figur sind die Höhen der Kästen aufgetragen:

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

wenn Sie sie mit multiplizieren 0,5 (width) addieren sie sich zu 1. Hier kann man nichts zählen, da es unendlich viele mögliche Punkte gibt, die die Kurve bilden. Andererseits muss, da es sich um Wahrscheinlichkeiten handelt, die Wahrscheinlichkeit aller möglichen Ergebnisse sein1.

In diesem Fall verwenden wir "Wahrscheinlichkeit pro Einheit" und die Einheit kann eine beliebige Breite Ihrer Wahl haben. Betrachten Sie "alle möglichen Ergebnisse" auf der kontinuierlichen Skala als eine Linie, die in die Teile unterteilt werden könnte, und jeder Teil könnte in einige kleinere Teile bis zu unendlich kleinen Teilen unterteilt werden. Die Gesamtwahrscheinlichkeit dieser Linie ist1. Wenn es flach wäre, als Sie sich vorstellen könnten, ist es die Gesamtlänge1und indem Sie es teilen, erhalten Sie Wahrscheinlichkeiten der Teile. Wenn die Linie nicht flach ist, wird die Wahrscheinlichkeit pro Teil durch die Funktion beschriebenf(x). So the units actually doesn't matter since there is infinite number of possible "points" it is probability per unit, where unit is always the same: a fraction of "total" length.

This approach illustrates in a simplified way a little bit more complicated issue - taking integrals. In continuous case you use integrals for calculating the area under the curve. Integral of the area of the curve between points a and b (3 and 3 on out plot) is:

abf(x)dx

where f(x) is height and dx is width and you could think of as for continuous variables. For learning more on integrals and calculus you could check the Khan Academy lectures.

You asked also about the "flat" (uniform) distribution:

enter image description here

First notice that this is not a valid uniform distribution since it should have parameters such that <a<b<, so to integrate to 1. If you think of it, it is continuous and since it is flat, it is some kind of box with a width from to . If you wanted to calculate area of such box, you would be multiplying the height by width. Unfortunately, while the width is infinitely wide, for it to integrate to 1 the height would have to be some ε that is enormously small... So this is a complicated case and you could imagine it rather in abstract terms. Notice that, as Ilmari Karonen noticed in the comment, this is rather an abstract idea that is not really possible in practice (see the comment below). If using such distribution as a prior, it would be an improper prior.

Notice that in the continuous case probability density function gives you density estimates rather then probabilities, so heights (or their sum) could exceed 1 (see here for more).

Tim
quelle
1
For the flat (i.e. uniform) distribution on an infinite line, "complicated" really means "impossible": a uniform distribution on set of infinite measure is not a valid probability distribution, precisely because it can't be scaled to integrate to 1. It's sometimes useful to pretend that it is one, but taking this too far quickly leads to paradoxes. (E.g. let X and Y be independent and uniformly distributed on (,); what is the probability that |X|<|Y|?)
Ilmari Karonen
You are right, "complicated" is too informal. I'll make corrections later on.
Tim
0

The following key idea was mentioned in a comment, but not in an existing answer...

One way of intuiting about the properties of a PDF is to consider that the PDF and the CDF are related by integration (calculus) -- and that the CDF has a monotonic output representing a probability value between 0 and 1.

The unitless integrated total area under the PDF curve is not affected by X-axis units.

To put it simply...

Area = Width x Height

If the X-axis gets larger, numerically, due to a change in units, then the Y-axis must become smaller by a corresponding linear factor.

nobar
quelle