Bedeutung der Wahrscheinlichkeitsnotationen

27

Was ist der Bedeutungsunterschied zwischen der Notation und P ( z | d , w ), die üblicherweise in vielen Büchern und Veröffentlichungen verwendet werden?P(z;d,w)P(z|d,w)

Lerner
quelle
13
f (x; θ) ist dasselbe wie f (x | θ), was einfach bedeutet, dass θ ein fester Parameter ist und die Funktion f eine Funktion von x ist. f (x, Θ), OTOH, ist ein Element einer Familie (Menge) von Funktionen, wobei die Elemente mit Θ indiziert sind. Eine subtile Unterscheidung vielleicht, aber eine wichtige, insb. wenn es Zeit ist, einen unbekannten Parameter θ auf der Basis bekannter Daten x zu schätzen; zu diesem Zeitpunkt ändert sich & thgr; und x ist fest, was zu der "Wahrscheinlichkeitsfunktion" führt. Verwendung von "|" ist häufiger bei Statistikern, ";" unter Mathematikern.
Jbowman
Ja jbowman ist richtig Wir nennen es manchmal die gegebene Dichte von X Θ.
Michael R. Chernick
@jbowman warum nicht als Antwort posten? Meine einzige Frage ist - warum sollten sie beide verwenden, aber ich gehe davon aus, dass es etwas mit dem Kontext zu tun hat (das "|" wird mit "P" und das ";" mit " f " verwendet).
Abe
Gutes Denken, Abe; das ist es wahrscheinlich. Ich nehme an, f ist allgemeiner.
Jbowman

Antworten:

12

Ich glaube, der Ursprung davon ist das Wahrscheinlichkeitsparadigma (obwohl ich die tatsächliche historische Richtigkeit des Folgenden nicht überprüft habe, ist es ein vernünftiger Weg zu verstehen, wie es dazu kam).

Nehmen wir an, Sie hätten in einer Regression eine Verteilung: p (Y | x, beta) Das heißt: die Verteilung von Y, wenn Sie die x- und beta-Werte kennen (vorausgesetzt).

Wenn Sie die Beta-Werte schätzen möchten, möchten Sie die Wahrscheinlichkeit maximieren: L (beta; y, x) = p (Y | x, beta) Im Wesentlichen betrachten Sie jetzt den Ausdruck p (Y | x, beta) als eine Funktion der Beta, aber abgesehen davon gibt es keinen Unterschied (für mathematisch korrekte Ausdrücke, die Sie richtig ableiten können, ist dies eine Notwendigkeit - obwohl in der Praxis niemand stört).

In den Bayes'schen Einstellungen wird der Unterschied zwischen Parametern und anderen Variablen bald kleiner, sodass man anfängt, beide Notationen gemischt zu verwenden.

Im Wesentlichen gibt es also keinen tatsächlichen Unterschied: Beide geben die bedingte Verteilung des Objekts auf der linken Seite und die bedingte Verteilung des Objekts auf der rechten Seite an.

Nick Sabbe
quelle
23

ist die Dichte der Zufallsvariablen X am Punkt x , wobei θ der Parameter der Verteilung ist. f ( x , θ ) ist die gemeinsame Dichte von X und Θ an dem Punkt ( x , θ ) und nur dann sinnvollwenn Θ eine Zufallsvariable ist. f ( x | θ ) ist die bedingte Verteilung von X bei Θ und macht wiederum nur dann Sinn, wennf(x;θ)Xxθf(x,θ)XΘ(x,θ)Θf(x|θ)XΘ ist eine Zufallsvariable. Dies wird viel deutlicher, wenn Sie sich näher mit der Bayes'schen Analyse befassen.Θ

PeterR
quelle
Uhhhh ... ist die bedingte Verteilung von x bei gegebenem θ. Dies ist auch dann sinnvoll, wenn θ keine Zufallsvariable ist. Es ist so ziemlich die Standardnotation in der klassischen Statistik, wo θ keine Zufallsvariable ist. f(x|θ)xθθθ
Jbowman
Uhhhh .... wenn Sie das so interpretieren, dass P [Θ = θ] = 1 (links Θ ist eine Zufallsvariable, rechts θ ist eine Konstante), dann stimme ich zu. Sonst tue ich nicht ... wofür würde dann P [Θ = θ] im Nenner der Definition der bedingten Verteilung bedeuten?
PeterR
Nenner? Ich kann schreiben , wobei f eine Normalverteilung ohne Bezugnahme auf die Bayes-Regel ist. μ und σ sind fest. Andere auch, zum Beispiel ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
Jbowman
jbowman, wie lautet also die Definition von f (x | μ, σ) als bedingte Dichte, wenn μ und σ feste Zahlen sind (dh keine Zufallsvariablen)?
PeterR
1
Das Wort "bedingt", das der Notation f (X | Y) zugeordnet ist, ist definiert als "bedingt von einem zufälligen Ereignis, das auftritt". Wenn Sie es verwenden, um etwas anderes zu bedeuten, wie beispielsweise nur "gegeben", wie in "f (x) gegeben (spezifische Werte von) μ und σ", dann ist dies die Notation f (x; μ, σ). ist für. Da das OP nach der Bedeutung der Notation fragte, sollten wir die Notation in der Antwort genau angeben.
PeterR
18

f(x;θ) ist dasselbe wief(x|θ) , was einfach bedeutet, dassθ ein fester Parameter ist und die Funktionf eine Funktion vonx . f(x,Θ) , OTOH, ist ein Element einer Familie (oder Menge) von Funktionen, wobei die Elemente mitΘ indiziert sind. Eine subtile Unterscheidung vielleicht, aber eine wichtige, insb. wenn es Zeit ist, einen unbekannten Parameterθ auf der Basis bekannter Datenx zu schätzen; zu diesem Zeitpunktθ sich θ undxist festgelegt, was zu der "Wahrscheinlichkeitsfunktion" führt. Die Verwendung von ist unter Statistikern üblicher, während ;unter Mathematikern.

Bogenschütze
quelle
1
Wie wird mündlich gesprochen? Sagen Sie "f von x mit θ"? f(x;θ)
Stackoverflowuser2010
@ stackoverflowuser2010 - ja, genau so.
Jbowman
2
In einigen Coursera-Videos habe ich festgestellt, dass Stanford-Professor Andrew Ng das Semikolon als "parametrisiert von" verbalisiert. Siehe: class.coursera.org/ml-005/lecture/34 . Das Beispiel würde also als "f von x, parametrisiert durch Theta" gesprochen.
Stackoverflowuser2010
5
Das Sagen von "gegeben" oder "bedingt" unterscheidet sich (im Allgemeinen) stark von "parametrisiert". Ich würde es hassen, wenn jemand dies sah und dachte, die beiden wären gleichwertig. Die Angabe "parametrisiert" ist nur dann sinnvoll, wenn die zu bedingende Größe ein Parameter ist, der das PDF der Variablen im ersten Term indiziert. Für zwei Variablen (z. B. f (x; y)) wäre die Verwendung dieses Begriffs falsch.
ATJ
2
@ MikeWilliamson - Sicher, wählen Sie eine Notation, in der Sie wissen, was alles bedeutet, und bleiben Sie dabei! Auf diese Weise müssen Sie nicht herausfinden, was Sie meinten, als Sie das "|" verwendeten, wenn Sie zu etwas zurückgingen, das Sie zuvor getan haben, wie etwa 4 Stunden zuvor in meiner Erfahrung. Ich stimme zu, es ist ärgerlich, aber nach einer Weile beobachten Sie nur die erste Verwendung der Notation und merken sie sich für den Rest des Papiers / Buches; Die Unterscheidungen sind in der Regel sowieso nicht wichtig.
Bogenschütze
9

Obwohl dies nicht immer so war, wird heutzutage im Allgemeinen verwendet, wenn d , w keine Zufallsvariablen sind (was nicht bedeutet, dass sie bekannt sind, was notwendig ist). P ( z | d , w ) gibt die Konditionierung auf Werte von d , w an . Das Konditionieren ist eine Operation mit Zufallsvariablen, und als solche ist die Verwendung dieser Notation, wenn d , w keine Zufallsvariablen sind, verwirrend (und tragischerweise üblich).P(z;d,w)d,wP(z|d,w)d,wd,w

Wie @ Nick Sabbe hervorhebt, ist eine gebräuchliche Notation für die Stichprobenverteilung der beobachteten Daten y . Einige Frequentisten verwenden diese Notation, bestehen jedoch darauf, dass Θ keine Zufallsvariable ist, was ein Missbrauch der IMO ist. Aber sie haben dort kein Monopol; Ich habe auch Bayesianer gesehen, die am Ende der Bedingungen feste Hyperparameter angeheftet haben.p(y|X,Θ)yΘ

JMS
quelle
2
In Bezug auf Ihren zweiten Absatz ist darauf hinzuweisen, dass in typischen statistischen Situationen (z. B. Anpassung eines Regressionsmodells) auch nicht als Zufallsvariable betrachtet wird, sondern als eine Reihe bekannter Konstanten. X
gung - Wiedereinsetzung von Monica