Wie kann man die Wahrscheinlichkeit genau definieren?

30

Die Wahrscheinlichkeit kann auf verschiedene Arten definiert werden, zum Beispiel:

  • die Funktion LL von Θ × XΘ×X die Karten ( θ , x )(θ,x) zu L ( θ | x )L(θx) , das heißt L : Θ × XRL:Θ×XR .

  • die Zufallsfunktion L ( | X )L(X)

  • könnten wir auch bedenken , dass die Wahrscheinlichkeit , dass nur die „beobachtet“ Wahrscheinlichkeit L ( | x obs )L(xobs)

  • in der Praxis bringt die Wahrscheinlichkeit Information über θθ nur bis zu einer multiplikativen Konstante, daher könnten wir die Wahrscheinlichkeit eher als eine Äquivalenzklasse von Funktionen als als eine Funktion betrachten

Eine andere Frage , tritt bei Änderung der Parametrisierung Berücksichtigung wenn φ = θ 2ϕ=θ2 die neue Parametrisierung ist , wir im Allgemeinen bezeichnen die durch die Wahrscheinlichkeit auf und dies ist nicht die Auswertung der bisherigen Funktion bei aber bei . Dies ist eine missbräuchliche, aber nützliche Notation, die Anfängern Schwierigkeiten bereiten kann, wenn sie nicht betont wird.L(ϕx)L(ϕx)ϕϕL(x)L(x)θ2θ2ϕϕ

Was ist Ihre liebste rigorose Definition der Wahrscheinlichkeit?

Wie nennt man außerdem ? Normalerweise sage ich so etwas wie "die Wahrscheinlichkeit für wenn beobachtet wird".L(θx)L(θx)θθxx

BEARBEITEN: In Anbetracht einiger Kommentare unten ist mir klar, dass ich den Kontext hätte präzisieren sollen. Ich betrachte ein statistisches Modell, das durch eine parametrische Familie von Dichten in Bezug auf ein dominierendes Maß gegeben ist, wobei jedes definiert auf dem Beobachtungsfeld . Daher definieren wir und die Frage lautet: "Was ist L ?" (Bei der Frage geht es nicht um eine allgemeine Definition der Wahrscheinlichkeit.){f(θ),θΘ}{f(θ),θΘ}f(θ)f(θ)XXL(θx)=f(xθ)L(θx)=f(xθ)LL

Stéphane Laurent
quelle
2
(1) Da L ( θ | x ) d x = 1L(θ|x)dx=1 für alle θθ , glaube ich , auch die Konstante in LL definiert ist. (2) Wenn Sie sich Parameter wie ϕϕ und θθ lediglich als Koordinaten für eine Vielzahl von Verteilungen vorstellen, hat eine Änderung der Parametrisierung keine intrinsische mathematische Bedeutung. Es ist nur eine Änderung der Beschreibung. (3) Muttersprachler würden natürlicher "Wahrscheinlichkeit von θθ " sagen als "ein". (4) Die Klausel "wenn xx beobachtet wird" hat philosophische Schwierigkeiten, weil die meisten xxwird nie beobachtet. Warum nicht einfach "Wahrscheinlichkeit von θθ bei xx " sagen ?
whuber
1
@whuber: Für (1) glaube ich nicht, dass die Konstante gut definiert ist. Siehe ET Jaynes 'Buch, in dem er schreibt: "Eine Wahrscheinlichkeit ist keine Wahrscheinlichkeit, weil ihre Normalisierung willkürlich ist."
Neil G
3
Sie scheinen zwei Arten der Normalisierung zu verwechseln, Neil: Jaynes bezog sich auf die Normalisierung durch Integration über θθ , nicht über xx .
whuber
1
@whuber: Ich glaube nicht, dass ein Skalierungsfaktor für die Cramer-Rao-Grenze von Bedeutung ist, da die Änderung von kk der log-Wahrscheinlichkeit einen konstanten Betrag hinzufügt, der dann verschwindet, wenn die partielle Ableitung genommen wird.
Neil G
1
Ich stimme Neil zu, ich sehe keine Anwendung, bei der die Konstante eine Rolle spielt
Stéphane Laurent

Antworten:

13

Ihr dritter Punkt ist der, den ich am häufigsten als strenge Definition gesehen habe.

Die anderen sind auch interessant (+1). Insbesondere die erste ist ansprechend, da die Schwierigkeit besteht, dass die Stichprobengröße (noch) nicht definiert ist, und es schwieriger ist, die "von" -Einstellung zu definieren.

Für mich ist die fundamentale Intuition der Wahrscheinlichkeit, dass es sich um eine Funktion des Modells + seiner Parameter handelt, nicht um eine Funktion der Zufallsvariablen (auch ein wichtiger Punkt für Unterrichtszwecke). Ich würde mich also an die dritte Definition halten.

Die Ursache für den Missbrauch der Notation liegt darin, dass die Menge "von" der Wahrscheinlichkeit implizit ist, was für wohldefinierte Funktionen normalerweise nicht der Fall ist. Der konsequenteste Ansatz besteht darin, zu erkennen, dass sich die Wahrscheinlichkeit nach der Transformation auf ein anderes Modell bezieht. Es ist gleichbedeutend mit dem ersten, aber noch einem anderen Modell. Die Wahrscheinlichkeitsnotation sollte also anzeigen, auf welches Modell sie sich bezieht (durch Index oder anderes). Ich mache das natürlich nie, aber zum Unterrichten vielleicht.

Um mit meinen vorherigen Antworten übereinzustimmen, sage ich schließlich die "Wahrscheinlichkeit von θθ " in Ihrer letzten Formel.

gui11aume
quelle
Vielen Dank. Und was raten Sie zur Gleichheit bis hin zu einer multiplikativen Konstante?
Stéphane Laurent
Persönlich rufe ich es lieber bei Bedarf auf, als es in der Definition fest zu codieren. Und denken Sie, dass für die Modellauswahl / den Modellvergleich diese Gleichheit bis zu einer multiplikativen Konstante nicht gilt.
gui11aume
Okay. In Bezug auf den Namen könnten Sie sich vorstellen, dass Sie über die Wahrscheinlichkeiten L ( θ x 1 ) und L ( θ x 2 ) für zwei mögliche Beobachtungen diskutieren . In einem solchen Fall würden Sie sagen, „die Wahrscheinlichkeit von θ , wenn x 1 beobachtet“, oder „die Wahrscheinlichkeit von θ für die Beobachtung x 1 “, oder etwas anderes? L(θx1)L(θx2)θx1θx1
Stéphane Laurent
1
Wenn Sie neu parametrisieren Ihr Modell mit φ = θ 2 Sie tatsächlich die Wahrscheinlichkeit als eine Zusammensetzung von Funktionen berechnen L ( . | X ) g ( . ) , Wo g ( y ) = y 2 . In diesem Fall geht g von R nach R +, so dass die Menge der Definition (die als "von" -Satz bezeichnet wird) der Wahrscheinlichkeit nicht mehr dieselbe ist. Sie könnten die erste Funktion L 1 ( . | ) Aufrufenϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|) and the second L2(.|)L2(.|) because they are not the same functions.
gui11aume
1
How is the third definition rigorous? And what is the problem with the sample size not being defined? Since we say P(x1,x2,,xnθ)P(x1,x2,,xnθ), which naturally brings into existence a corresponding sigma algebra for the sample space ΩnΩn, why can't we have the parallel definition for likelihoods?
Neil G
8

I think I would call it something different. Likelihood is the probability density for the observed x given the value of the parameter θθ expressed as a function of θθ for the given xx. I don't share the view about the proportionality constant. I think that only comes into play because maximizing any monotonic function of the likelihood gives the same solution for θθ. So you can maximize cL(θx)cL(θx) for c>0c>0 or other monotonic functions such as log(L(θx))log(L(θx)) which is commonly done.

Michael R. Chernick
quelle
4
Not only the maximization: the up-to-proportionality also comes into play in the likelihood ratio notion, and in Bayes formula for Bayesian statistics
Stéphane Laurent
I thought someone might downvote my answer. But I think it is quite reasonable to define likelihood this way as a definitive probability without calling anything proprotional to it a likelihood. @StéphaneLaurent to your comment about priors, if the function is integrable it can be normalized to a density. The posterior is proportional to the likelihood times the prior. Since the posterior must be normalized by dividing by an integral we might as well specify the prior to be the distribution. It is only in an extended sense that this gets applied to improper priors.
Michael R. Chernick
1
I'm not quite sure why someone would downvote this answer. It seems you are trying to respond more to the OP's second and questions than the first. Perhaps that was not entirely clear to other readers. Cheers. :)
cardinal
@Michael I don't see the need to downvote this answer too. Concerning noninformative priors (this is another discussion and) I intend to open a new disucssion about this subject. I will not do it soon, because I am not easy with English, and this is more difficult for me to write "philosophy" than mathematics.
Stéphane Laurent
1
@Stephane: If you'd like, please consider posting your other question directly in French. We have several native French speakers on this site that likely would help translate any passages you're unsure about. This includes a moderator and also an editor of one of the very top English-language statistics journals. I look forward to the question.
cardinal
6

Here's an attempt at a rigorous mathematical definition:

Let X:ΩRnX:ΩRn be a random vector which admits a density f(x|θ0)f(x|θ0) with respect to some measure νν on RnRn, where for θΘθΘ, {f(x|θ):θΘ}{f(x|θ):θΘ} is a family of densities on RnRn with respect to νν. Then, for any xRnxRn we define the likelihood function L(θ|x)L(θ|x) to be f(x|θ)f(x|θ); for clarity, for each xx we have Lx:ΘRLx:ΘR. One can think of xx to be a particular potential xobsxobs and θ0θ0 to be the "true" value of θθ.

A couple of observations about this definition:

  1. The definition is robust enough to handle discrete, continuous, and other sorts of families of distributions for XX.
  2. We are defining the likelihood at the level of density functions instead of at the level of probability distributions/measures. The reason for this is that densities are not unique, and it turns out that this isn't a situation where one can pass to equivalence classes of densities and still be safe: different choices of densities lead to different MLE's in the continuous case. However, in most cases there is a natural choice of family of densities that are desirable theoretically.
  3. I like this definition because it incorporates the random variables we are working with into it and, by design since we have to assign them a distribution, we have also rigorously built in the notion of the "true but unknown" value of θθ, here denoted θ0θ0. For me, as a student, the challenge of being rigorous about likelihood was always how to reconcile the real world concepts of a "true" θθ and "observed" xobsxobs with the mathematics; this was often not helped by instructors claiming that these concepts weren't formal but then turning around and using them formally when proving things! So we deal with them formally in this definition.
  4. EDIT: Of course, we are free to consider the usual random elements L(θ|X)L(θ|X), S(θ|X)S(θ|X) and I(θ|X)I(θ|X) and under this definition with no real problems with rigor as long as you are careful (or even if you aren't if that level of rigor is not important to you).
guy
quelle
4
@Xi'an Let X1,...,XnX1,...,Xn be uniform on (0,θ)(0,θ). Consider two densities f1(x)=θ1I[0<x<θ]f1(x)=θ1I[0<x<θ] versus f2(x)=θ1I[0xθ]f2(x)=θ1I[0xθ]. Both f1f1 and f2f2 are valid densities for U(0,θ)U(0,θ), but under f2f2 the MLE exists and is equal to maxXimaxXi whereas under f1f1 we have jf1(xj|maxxi)=0jf1(xj|maxxi)=0 so that if you set ˆθ=maxXiθ^=maxXi you end up with a likelihood of 00, and in fact the MLE doesn't exist because supθjf1(x|θ)supθjf1(x|θ) is not attained for any θθ.
guy
1
@guy: thanks, I did not know about this interesting counter-example.
Xi'an
1
@guy You said that supθjf1(xj|θ)supθjf1(xj|θ) is not attained for any θθ. However, this supremum is attained at some point as I show below: L1(θ;x)=nj=1f1(xj|θ)=θnnj=1I(0<xj<θ)=θnI(0<M<θ),
L1(θ;x)=j=1nf1(xj|θ)=θnj=1nI(0<xj<θ)=θnI(0<M<θ),
where M=max{x1,,xn}M=max{x1,,xn}. I am assuming that xj>0xj>0 for all j=1,,nj=1,,n. It is simple to see that 1. L1(θ;x)=0L1(θ;x)=0, if 0<θM0<θM; 2. L1(θ;x)=θnL1(θ;x)=θn, if M<θ<M<θ<. Continuing...
Alexandre Patriota
1
@guy: continuing... That is, L1(θ;x)[0,Mn),
L1(θ;x)[0,Mn),
for all θ(0,)θ(0,). We do not have a maximum value but the supremum does exist and it is given by supθ(0,)L1(θ,x)=Mn
supθ(0,)L1(θ,x)=Mn
and the argument is M=argsupθ(0,)L1(θ;x).
M=argsupθ(0,)L1(θ;x).
Perhaps, the usual asymptotics are not applied here and some other tolls should be employed. But, the supremum of L1(θ;x)L1(θ;x) does exist or I missed some very basic concepts.
Alexandre Patriota
1
@AlexandrePatriota The supremum exists, obviously, but it is not attained by the function. I'm not sure what the notation argsupargsup is supposed to mean - there is no argument of L1(θ;x)L1(θ;x) which yields the supsup because L1(θ;M)=0L1(θ;M)=0. The MLE is defined as any ˆθθ^ which attains the supsup (typically) and no ˆθθ^ attains the supsup here. Obviously there are ways around it - the asymptotics we appeal to require that there exists a likelihood with such-and-such properties, and there does. It's just L2L2 rather than L1.
guy