Konzeptionell verstehe ich die Bedeutung des Ausdrucks "die Gesamtfläche unter einem PDF ist 1". Es sollte bedeuten, dass die Wahrscheinlichkeit, dass sich das Ergebnis im gesamten Intervall der Möglichkeiten befindet, 100% beträgt.
Aber ich kann es vom "geometrischen" Standpunkt aus nicht wirklich verstehen. Wenn zum Beispiel in einem PDF die x-Achse die Länge darstellt, würde die Gesamtfläche unter der Kurve dann nicht größer, wenn x nicht in km, sondern in mm gemessen würde?
Ich versuche immer, mir vorzustellen, wie der Bereich unter der Kurve aussehen würde, wenn die Funktion auf eine gerade Linie abgeflacht wäre. Wäre die Höhe (Position auf der y-Achse) dieser Linie für jedes PDF gleich, oder hätte sie einen Wert, der vom Intervall auf der x-Achse abhängt, für das die Funktion definiert ist?
quelle
Antworten:
Die Wahrscheinlichkeitsdichtefunktion wird in Prozent pro Maßeinheit Ihrer x-Achse gemessen. Sagen wir mal an einem bestimmten Punktx0 Ihre PDF bis 1000. Dies bedeutet , dass die Wahrscheinlichkeit gleich x0<x<x0+dx ist 1000dx wobeidx in Metern ist. Wenn Sie die Einheiten in Zentimeter ändern, sollte sich die Wahrscheinlichkeit nicht für dasselbe Intervall ändern, sondern dasselbe Intervall hat 100 Zentimeter mehr als Meter, also1000dx = PDF′(x′0)⋅100dx′ und lösen wirPDF′(x′0)=PDF(x0)100 . Es gibt 100-mal weniger Wahrscheinlichkeitseinheiten (Prozentsätze) pro Zentimeter als pro Meter.
quelle
Es kann hilfreich sein, zu erkennen, dass die vertikale Achse als Wahrscheinlichkeitsdichte gemessen wird . Wenn also die horizontale Achse in km gemessen wird, wird die vertikale Achse als Wahrscheinlichkeitsdichte "pro km" gemessen. Nehmen wir an, wir zeichnen ein rechteckiges Element in ein solches Raster, das 5 km breit und 0,1 pro km hoch ist (was Sie vielleicht vorziehen, als "km - 1 " zu schreiben ). Die Fläche dieses Rechtecks beträgt 5 km x 0,1 km - 1 = 0,5. Die Einheiten fallen aus und wir haben nur noch eine halbe Wahrscheinlichkeit.- 1 - 1
Wenn Sie die horizontalen Einheiten in "Meter" ändern, müssen Sie die vertikalen Einheiten in "pro Meter" ändern. Das Rechteck wäre jetzt 5000 Meter breit und hätte eine Dichte (Höhe) von 0,0001 pro Meter. Du hast immer noch eine halbe Wahrscheinlichkeit. Es könnte Sie stören, wie seltsam diese beiden Diagramme auf der Seite im Vergleich zueinander aussehen (muss eines nicht viel breiter und kürzer sein als das andere?), Aber wenn Sie die Diagramme physisch zeichnen, können Sie alles verwenden Skalieren Sie wie. Schauen Sie unten, um zu sehen, wie wenig Verrücktheit involviert sein muss.
Es kann hilfreich sein, Histogramme zu betrachten, bevor Sie mit Wahrscheinlichkeitsdichtekurven fortfahren. In vielerlei Hinsicht sind sie analog. Die vertikale Achse eines Histogramms ist die Frequenzdichte [pro Einheit],x und Flächen stellen Frequenzen dar, da sich horizontale und vertikale Einheiten bei der Multiplikation aufheben. Die PDF-Kurve ist eine Art kontinuierliche Version eines Histogramms mit einer Gesamtfrequenz von eins.
Eine noch engere Analogie ist ein relatives Frequenzhistogramm - wir sagen, ein solches Histogramm wurde "normalisiert", so dass Flächenelemente jetzt Proportionen Ihres ursprünglichen Datensatzes und keine Rohfrequenzen mehr darstellen und die Gesamtfläche aller Balken eins ist. Die Höhen sind nun relative Frequenzdichten [pro Einheit]x . Wenn ein relatives Frequenzhistogramm einen Balken hat, der entlang x verläuftx Werte von 20 km bis 25 km (die Breite des Balkens beträgt also 5 km) und eine relative Frequenzdichte von 0,1 pro km, dann enthält dieser Balken einen Anteil von 0,5 der Daten. Dies entspricht genau der Vorstellung, dass ein zufällig ausgewählter Artikel aus Ihrem Datensatz mit einer Wahrscheinlichkeit von 50% in dieser Leiste liegt. Das bisherige Argument zur Auswirkung von Einheitenänderungen gilt weiterhin: Vergleichen Sie für diese beiden Diagramme die Anteile der Daten im Bereich von 20 km bis 25 km mit denen im Bereich von 20.000 m bis 25.000 m. Sie können auch rechnerisch bestätigen, dass die Flächen aller Balken in beiden Fällen eins ergeben.
Was könnte ich mit meiner Behauptung gemeint haben, dass das PDF eine "Art fortlaufende Version eines Histogramms" ist? Nehmen wir einen kleinen Streifen unter einer Wahrscheinlichkeitsdichtekurve entlang Werten im Intervall [ x , x + δ x ] , damit der Streifen δ x breit ist und die Höhe der Kurve eine annähernd konstante f ( x ) ist . Wir können einen Balken dieser Höhe zeichnen, dessen Fläche f ( x )x [x,x+δx] δx f(x) repräsentiert die ungefähre Wahrscheinlichkeit, in diesem Streifen zu liegen.f(x)δx
Wie können wir die Fläche unter der Kurve zwischen und x = b finden ? Wir könnten dieses Intervall in kleine Streifen unterteilen und die Summe der Flächen der Balken nehmen, ∑ f ( x )x=a x=b , was der ungefähren Wahrscheinlichkeit entsprechen würde, in dem Intervall [ a , b ] zu liegen . Wir sehen, dass die Kurve und die Balken nicht genau ausgerichtet sind, so dass es einen Fehler in unserer Annäherung gibt. Indem wir δ x für jeden Balken kleiner und kleiner machen, füllen wir das Intervall mit mehr und schmaleren Balken, deren ∑ f ( x )∑f(x)δx [a,b] δx liefert eine bessere Schätzung der Fläche.∑f(x)δx
Um die Fläche genau zu berechnen, anstatt anzunehmen, dass über jeden Streifen konstant ist, wird das Integral ∫ b a f ( x ) d x ausgewertet , und dies entspricht der tatsächlichen Wahrscheinlichkeit, in dem Intervall [ a , b ] zu liegen. . Das Integrieren über die gesamte Kurve ergibt eine Gesamtfläche (dh eine Gesamtwahrscheinlichkeit) von eins, aus dem gleichen Grund, dass das Summieren der Flächen aller Balken eines relativen Frequenzhistogramms eine Gesamtfläche (dh einen Gesamtanteil) von eins ergibt. Integration ist selbst eine Art kontinuierliche Version der Summe.f(x) ∫baf(x)dx [a,b]
R-Code für Grundstücke
quelle
Sie haben bereits zwei Antworten erhalten, eine ausgezeichnete von Silverfish . Ich bin jedoch der Meinung, dass eine Illustration hier nützlich sein könnte, da Sie nach der Geometrie gefragt und sich diese Funktionen "vorgestellt" haben.
Beginnen wir mit einem einfachen Beispiel für die Bernoulli-Verteilung :
Da die Werte dort diskret sind keine „Kurve“ , aber nur zwei Punkte, aber die Idee ist ähnlich: Wenn Sie wissen möchten , Gesamtwahrscheinlichkeit (Fläche unter der Kurve) , müssen Sie Wahrscheinlichkeiten beider möglichen Ergebnisse zusammenzufassen:
Da ist nurp und 1 - p in dieser Gleichung haben wir nur zwei mögliche Punktergebnisse mit einer gegebenen Wahrscheinlichkeit.
Gleiches gilt für die Poisson-Verteilung , bei der es sich auch um eine diskrete Wahrscheinlichkeitsverteilung handelt. Da es mehr als zwei Werte gibt, können Sie sich vorstellen, dass es eine Linie gibt, die die Punkte verbindet. Um jedoch die Gesamtwahrscheinlichkeit zu berechnen, müssten Sie alle Wahrscheinlichkeiten von zusammenfassenx 's. Die Poisson-Verteilung wird häufig zur Beschreibung der Zähldaten verwendet, sodass Sie sich diese als solche vorstellen könnenx ist eine Reihe von bestimmten Ereignissen und f( x ) ist eine Wahrscheinlichkeit für dieses Ergebnis. Sie können sich vorstellen, dass jeder Punkt in der folgenden Grafik tatsächlich die Höhe eines Stapels ist, der aus einigen Ergebnissen besteht:x1 ist ein Stapel von allen "x1 "Ergebnisse, die man beobachtet , usw. Die Gesamt‚Fläche unter der Kurve‘würde (oder ein aufsummiert hier alle Stapel sein meta -stack aller Ergebnisse) , aber da wir summieren keine Zahlen von Auftritten , sondern Wahrscheinlichkeiten, sie Summe bis zu1 . Sie sollten es also nicht als Summe von Zählungen betrachten∑ # { xich} = N sondern als Summe der Wahrscheinlichkeiten: ∑ # { xich} / N= 1 woher N ist eine Gesamtzahl aller möglichen Ergebnisse.
Betrachten wir nun eine Normalverteilung , die eigentlich eine kontinuierliche Verteilung ist - wir haben also keine "Punkte" seit den Werten vonx sind stetig, dh es gibt unendlich viele Werte von x . Wenn es also Punkte gäbe, könnten Sie sie nicht sehen, egal wie sehr Sie "zoomen" würden, da es immer eine unendliche Anzahl kleinerer Punkte zwischen den einzelnen Punkten geben könnte. Aus diesem Grund haben wir hier tatsächlich eine Kurve - Sie können sich vorstellen, dass sie aus unendlich vielen "Punkten" besteht. Sie könnten sich fragen: Wie berechnet man eine Summe von unendlich vielen Wahrscheinlichkeiten? Auf dem Diagramm unter der roten Kurve befindet sich eine normale PDF-Datei und die schwarzen Kästchen sind Histogramme einiger Werte aus der Verteilung. Das Histogrammdiagramm hat unsere Verteilung auf die endliche Anzahl von "Kästen" mit einer bestimmten Breite vereinfachtund wenn Sie die Höhen der Kästchen multipliziert mit ihrer Breite aufsummieren, erhalten Sie eine Fläche unter der Kurve - oder Fläche aller Kästchen. Wir verwenden hier eher Bereiche als Punkte, da jede Box eine Zusammenfassung einer unendlichen Anzahl von "Punkten" ist, die in der Box gepackt wurden.
Um die Gesamtfläche zu erhalten, nehmen wir die Höhen (d. Hf( x ) ) und Breiten (zB erstes Kästchen hat Breite: - 2.5 - - 3 = 0,5 , genau wie alle anderen Boxen). In der tatsächlichen Figur sind die Höhen der Kästen aufgetragen:
0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002
wenn Sie sie mit multiplizieren0,5 (width) addieren sie sich zu 1 . Hier kann man nichts zählen, da es unendlich viele mögliche Punkte gibt, die die Kurve bilden. Andererseits muss, da es sich um Wahrscheinlichkeiten handelt, die Wahrscheinlichkeit aller möglichen Ergebnisse sein1 .
In diesem Fall verwenden wir "Wahrscheinlichkeit pro Einheit" und die Einheit kann eine beliebige Breite Ihrer Wahl haben. Betrachten Sie "alle möglichen Ergebnisse" auf der kontinuierlichen Skala als eine Linie, die in die Teile unterteilt werden könnte, und jeder Teil könnte in einige kleinere Teile bis zu unendlich kleinen Teilen unterteilt werden. Die Gesamtwahrscheinlichkeit dieser Linie ist1 . Wenn es flach wäre, als Sie sich vorstellen könnten, ist es die Gesamtlänge1 und indem Sie es teilen, erhalten Sie Wahrscheinlichkeiten der Teile. Wenn die Linie nicht flach ist, wird die Wahrscheinlichkeit pro Teil durch die Funktion beschriebenf( x ) . So the units actually doesn't matter since there is infinite number of possible "points" it is probability per unit, where unit is always the same: a fraction of "total" length.
This approach illustrates in a simplified way a little bit more complicated issue - taking integrals. In continuous case you use integrals for calculating the area under the curve. Integral of the area of the curve between pointsa and b (−3 and 3 on out plot) is:
wheref(x) is height and dx is width and you could think of ∫ as ∑ for continuous variables. For learning more on integrals and calculus you could check the Khan Academy lectures.
You asked also about the "flat" (uniform) distribution:
First notice that this is not a valid uniform distribution since it should have parameters such that−∞<a<b<∞ , so to integrate to 1 . If you think of it, it is continuous and since it is flat, it is some kind of box with a width from −∞ to ∞ . If you wanted to calculate area of such box, you would be multiplying the height by width. Unfortunately, while the width is infinitely wide, for it to integrate to 1 the height would have to be some ε that is enormously small... So this is a complicated case and you could imagine it rather in abstract terms. Notice that, as Ilmari Karonen noticed in the comment, this is rather an abstract idea that is not really possible in practice (see the comment below). If using such distribution as a prior, it would be an improper prior.
Notice that in the continuous case probability density function gives you density estimates rather then probabilities, so heights (or their sum) could exceed1 (see here for more).
quelle
The following key idea was mentioned in a comment, but not in an existing answer...
One way of intuiting about the properties of a PDF is to consider that the PDF and the CDF are related by integration (calculus) -- and that the CDF has a monotonic output representing a probability value between 0 and 1.
The unitless integrated total area under the PDF curve is not affected by X-axis units.
To put it simply...
If the X-axis gets larger, numerically, due to a change in units, then the Y-axis must become smaller by a corresponding linear factor.
quelle