Der Wikipedia-Eintrag zur Wahrscheinlichkeit ist nicht eindeutig

26

Ich habe eine einfache Frage bezüglich "bedingter Wahrscheinlichkeit" und "Wahrscheinlichkeit". (Ich habe diese Frage hier bereits untersucht , aber ohne Erfolg.)

Es beginnt auf der Wikipedia- Seite zur Wahrscheinlichkeit . Sie sagen das:

Die Wahrscheinlichkeit eines Satzes von Parameterwerten θ bei gegebenen Ergebnissen x ist gleich der Wahrscheinlichkeit dieser beobachteten Ergebnisse bei gegebenen Parameterwerten, d.h.

L(θx)=P(xθ)

Groß! Im Englischen lese ich dies als: "Die Wahrscheinlichkeit, dass Parameter gleich Theta sind, wenn Daten X = x (auf der linken Seite), ist gleich der Wahrscheinlichkeit, dass die Daten X gleich x sind, wenn die Parameter sind gleich Theta ". ( Fett ist meine Betonung ).

Mindestens 3 Zeilen später auf derselben Seite heißt es dann in dem Wikipedia-Eintrag:

Sei X eine Zufallsvariable mit einer diskreten Wahrscheinlichkeitsverteilung p Abhängigkeit von einem Parameter θ . Dann die Funktion

L(θx)=pθ(x)=Pθ(X=x),

als eine Funktion von θ ; betrachtet, wird die Wahrscheinlichkeitsfunktion (von θ ; angesichts des Ergebnisses x der Zufallsvariablen X ) genannt. Manchmal wird die Wahrscheinlichkeit des Wertes x von X für den Parameterwert thgr ;θ als P(X=xθ) ; ) ; oft als P(X=x;θ) , um zu betonen, dass dies von L ( θ x ) abweicht L(θx)Dies ist keine bedingte Wahrscheinlichkeit , da θ ein Parameter und keine Zufallsvariable ist.

( Fett ist meine Betonung ). Also, im ersten Zitat, sind wir buchstäblich über eine bedingte Wahrscheinlichkeit gesagt P(xθ) , aber unmittelbar danach, werden uns gesagt , dass dies tatsächlich nicht eine bedingte Wahrscheinlichkeit ist, und in der Tat sein soll wie folgt geschrieben P(X=x;θ) & le ;

Also, welches ist das? Bedeutet die Wahrscheinlichkeit tatsächlich eine bedingte Wahrscheinlichkeit bereits im ersten Zitat? Oder bedeutet es eine einfache Wahrscheinlichkeit, schon im zweiten Zitat?

BEARBEITEN:

Basierend auf all den hilfreichen und aufschlussreichen Antworten, die ich bisher erhalten habe, habe ich meine Frage zusammengefasst - und mein Verständnis so weit wie möglich:

  • Im Englischen sagen wir: "Die Wahrscheinlichkeit ist eine Funktion der Parameter, GIBT die beobachteten Daten." In der Mathematik schreiben wir es als: L(Θ=θX=x) .
  • Die Wahrscheinlichkeit ist keine Wahrscheinlichkeit.
  • Die Wahrscheinlichkeit ist keine Wahrscheinlichkeitsverteilung.
  • Die Wahrscheinlichkeit ist keine Wahrscheinlichkeitsmasse.
  • Die Wahrscheinlichkeit ist jedoch in Englisch : „ein Produkt der Wahrscheinlichkeitsverteilungen (continuous Fall ist ), oder ein Produkt der Wahrscheinlichkeitsmassen, (diskreter Fall ist ), bei denen , und parametrisiert durch Θ = θ “ . In der Mathematik schreiben wir es dann als solches: L ( Θ = θ X = x ) = f ( X = x ; Θ = θ ) (stetiger Fall, in dem f ein PDF ist) und als L ( Θ =X=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    (diskreter Fall, wo P eine Wahrscheinlichkeitsmasse ist). Die Erkenntnis hier ist, dass hierzu keinem Zeitpunkteine bedingte Wahrscheinlichkeit überhaupt ins Spiel kommt.L(Θ=θX=x)=P(X=x;Θ=θ)P
  • In Bayes - Theorem, haben wir: . Umgangssprachlich wird uns gesagt, dass "P(X=xΘ=θ)eine Wahrscheinlichkeit ist",dies ist jedoch nicht wahr, daΘeine tatsächliche Zufallsvariable sein könnte. Was wir jedoch richtig sagen können, ist daher, dass dieser TermP(X=xΘ=θ)einfach einer Wahrscheinlichkeit "ähnlich" ist. (?) [Da bin ich mir nicht sicher.]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

EDIT II:

Basierend auf @amoebas Antwort habe ich seinen letzten Kommentar gezeichnet. Ich denke, es ist ziemlich aufschlussreich und ich denke, es klärt die Hauptstreitigkeiten auf, die ich hatte. (Kommentare zum Bild).

Bildbeschreibung hier eingeben

EDIT III:

Ich habe @amoebas Kommentare jetzt auch auf den Bayesianischen Fall ausgeweitet:

Bildbeschreibung hier eingeben

Creatron
quelle
Sie haben bereits zwei nette Antworten erhalten, aber überprüfen Sie auch stats.stackexchange.com/q/112451/35989
Tim
@ Tim Ausgezeichneter Link, danke! Leider ist mir immer noch unklar, welche spezifischen Fragen ich hinsichtlich der Wahrscheinlichkeit und der bedingten Wahrscheinlichkeit (?) Habe , die es zu beschwören scheint. Hierüber bin ich mir noch unklar. : - /
Creatron
2
"Angesichts dessen" bedeutet nicht immer bedingte Wahrscheinlichkeit. Manchmal ist dieser Ausdruck nur ein Versuch, anzugeben, welche Symbole in einer Berechnung oder konzeptionell festgelegt werden sollen.
Whuber
2
Einige Leute verwenden tatsächlich eine solche typografische Konvention mit Semikolons. Es gibt viele, viele Konventionen: tiefgestellte, hochgestellte usw. Oft muss man aus dem Kontext oder den Textbeschreibungen herausfinden, was jemand bedeutet.
Whuber
4
Wenn eine Zufallsvariable ist (d. H. Ein Wert, von dem angenommen wird, dass er sich aus der Zufallsvariablen Θ ergibt ), ändert sich nichts in der Definition der Wahrscheinlichkeit. Es ist immer noch eine Wahrscheinlichkeit. Logischerweise ist dies nicht anders als zu sagen, dass ein blauer Schmetterling immer noch ein Schmetterling ist. Technisch wirft es Fragen zur gemeinsamen Verteilung von Θ und x auf . Offensichtlich muss diese gemeinsame Verteilung gut definiert sein und bestimmte "Regelmäßigkeitsbedingungen" aufweisen, bevor Sie die Wahrscheinlichkeit mit einer bedingten Wahrscheinlichkeit identifizieren können. θΘΘx
Whuber

Antworten:

18

Ich denke, das ist weitgehend unnötig, Haare zu spalten.

Die bedingte Wahrscheinlichkeit von x bei gegebenem y ist für zwei Zufallsvariablen X und Y definiert, die Werte x und y annehmen . Wir können aber auch über die Wahrscheinlichkeit P ( x θ ) von x bei θ sprechen, wobei θ keine Zufallsvariable, sondern ein Parameter ist.P(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

Beachten Sie, dass in beiden Fällen der gleiche Begriff „gegeben“ und die gleiche Notation verwendet werden können. Es ist nicht notwendig, verschiedene Notationen zu erfinden. Darüber hinaus kann es von Ihrer Philosophie abhängen, was als "Parameter" und was als "Zufallsvariable" bezeichnet wird, aber die Mathematik ändert sich nicht.P()

Das erste Zitat aus Wikipedia besagt per Definition , dass . Hier wird angenommen, dass θ ein Parameter ist. Das zweite Zitat sagt , dass L ( & thgr; | x ) ist nicht eine bedingte Wahrscheinlichkeit. Dies bedeutet, dass es sich bei x nicht um eine bedingte Wahrscheinlichkeit von θ handelt ; und in der Tat kann es nicht sein, weil θ hier als Parameter angenommen wird.L(θx)=P(xθ)θL(θx)θxθ

Im Zusammenhang mit dem Bayes - Theorem sowohlaals auchbsind Zufallsvariablen. Aber wir könnenP(ba) immer noch"Wahrscheinlichkeit" (vona) nennen, und jetzt ist es auch eineechtebedingte Wahrscheinlichkeit (vonb). Diese Terminologie ist in der Bayes'schen Statistik Standard. Niemand sagt, dass es etwas "Ähnliches" zur Wahrscheinlichkeit ist; Leute nennen es einfach die Wahrscheinlichkeit.

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

Anmerkung 1: Im letzten Absatz ist offensichtlich eine bedingte Wahrscheinlichkeit von b . Als Wahrscheinlichkeit L ( a b ) wird es als eine Funktion von a angesehen ; aber es ist keine Wahrscheinlichkeitsverteilung (oder bedingte Wahrscheinlichkeit) von a ! Sein Integral über a muss nicht gleich 1 sein . (Während sein Integral über b tut.)P(ba)bL(ab)aaa1b

Anmerkung 2: Manchmal ist Wahrscheinlichkeit auf eine willkürliche Proportionalitätskonstante definiert auf, wie durch @MichaelLew betont (weil die meisten der Zeit , die Menschen in Wahrscheinlichkeit interessiert sind Verhältnisse ). Dies kann nützlich sein, wird jedoch nicht immer durchgeführt und ist nicht unbedingt erforderlich.


Siehe auch Was ist der Unterschied zwischen "Wahrscheinlichkeit" und "Wahrscheinlichkeit"? und insbesondere @whubers Antwort dort.

Ich stimme der Antwort von @ Tim auch in diesem Thread voll und ganz zu (+1).

Amöbe sagt Reinstate Monica
quelle
1
Kann also eine Wahrscheinlichkeit tatsächlich gleich einer bedingten Wahrscheinlichkeit (gemäß dem letzten Absatz) sein, die richtig ist? Dies ist, was ich versuche, zu quadrieren. Zum Beispiel haben wir in einer der ersten Antworten: " Erstens kann die Wahrscheinlichkeit nicht generell gleich der Wahrscheinlichkeit der Daten bei gegebenem Parameterwert sein, da die Wahrscheinlichkeit nur bis zu einer Proportionalitätskonstante definiert ist . Fisher hat dies ausdrücklich erwähnt, als er erste formalisierte Wahrscheinlichkeit (Fisher, 1922). "Dies ist, was ich versuche zu quadrieren. Ist die Wahrscheinlichkeit - kann die Wahrscheinlichkeit - jemals gleich einer bedingten Wahrscheinlichkeit?
Creatron
@Creatron Ich habe meiner Antwort zwei Notizen hinzugefügt. Klären sie das?
Amöbe sagt Reinstate Monica
1
In Bezug auf Note1: Da ist eine bedingte Wahrscheinlichkeitsverteilung, und da L ( a | b ) kann nicht eine Wahrscheinlichkeitsverteilung sein, dann scheint es mir , dass die ‚richtige‘ Art und Weise wir die Gleichung schreiben kann Wahrscheinlichkeit in diesem Zusammenhang ist: L ( a | b ) P ( b | a ) und nicht als L ( a | b ) = P ( b | a )P(b|a) L(a|b) L(a|b)P(b|a)L(a|b)=P(b|a). (Ich weiß, dass es bei der Optimierung keinen Unterschied macht, aber ich versuche, die Richtigkeit der Wahrscheinlichkeit hier genau zu bestimmen). Ist mein Verständnis richtig? Vielen Dank für Ihre Geduld.
Creatron
1
@Creatron Ich denke, Sie verwirren hier mehrere unterschiedliche Probleme. Ich gehe davon aus, dass Sie von einer Einstellung des Bayes-Theorems sprechen (worauf sich meine Anmerkung 1 bezieht), bei der sowohl als auch b zufällige Ereignisse sind. Okay, also ist P ( b | a ) eine bedingte Wahrscheinlichkeitsverteilung von b bei gegebenem a . Aber L ( a | b ) soll als eine Funktion von a gesehen werden , nicht von b ! Und es ist nicht die Wahrscheinlichkeitsverteilung von aabP(b|a)baL(a|b)aba because it does not sum to one. This has nothing to do with the issue or proportionality (which is my Note 2). I think we can write L(a|b)=P(b|a).
amoeba says Reinstate Monica
1
Amoeba, thank you!! You have been instrumental in un-knotting those concepts for me, thank you so much!! :) I just "extended" the diagram to the Bayesian case, and would appreciate your feedback to make sure I have understood that correctly as well. I have also accepted your answer. Once again, massively gracious!
Creatron
10

Sie haben bereits zwei nette Antworten erhalten, aber da es für Sie immer noch unklar erscheint, lassen Sie mich eine liefern. Wahrscheinlichkeit ist definiert als

L(θ|X)=P(X|θ)=ifθ(xi)

so we have likelihood of some parameter value θ given the data X. It is equal to product of probability mass (discrete case), or density (continuous case) functions f of X parametrized by θ. Likelihood is a function of parameter given the data. Notice that θ is a parameter that we are optimizing, not a random variable, so it does not have any probabilities assigned to it. This is why Wikipedia states that using conditional probability notation may be ambiguous, since we are not conditioning on any random variable. On another hand, in Bayesian setting θ is a random variable and does have distribution, so we can work with it as with any other random variable and we can use Bayes theorem to calculate the posterior probabilities. Bayesian likelihood is still likelihood since it tells us about likelihood of data given the parameter, the only difference is that the parameter is considered as random variable.

If you know programming, you can think of likelihood function as of overloaded function in programming. Some programming languages allow you to have function that works differently when called using different parameter types. If you think of likelihood like this, then by default if takes as argument some parameter value and returns likelihood of data given this parameter. On another hand, you can use such function in Bayesian setting, where parameter is random variable, this leads to basically the same output, but that can be understood as conditional probability since we are conditioning on random variable. In both cases the function works the same, just you use it and understand it a little bit differently.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Moreover, you rather won't find Bayesians who write Bayes theorem as

P(θ|X)L(θ|X)P(θ)

...this would be very confusing. First, you would have θ|X on both sides of equation and it wouldn't have much sense. Second, we have posterior probability to know about probability of θ given data (i.e. the thing that you would like to know in likelihoodist framework, but you don't when θ is not a random variable). Third, since θ is a random variable, we have and write it as conditional probability. The L-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.

Tim
quelle
Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron
1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim
(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron
(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron
2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron
7

There are several aspects of the common descriptions of likelihood that are imprecise or omit detail in a way that engenders confusion. The Wikipedia entry is a good example.

First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). The reason for that seems to be the fact that there is no restraint on the integral (or sum) of a likelihood function, and the probability of observing data x within a statistical model given any value of the parameter(s) is strongly affected by the precision of the data values and of the granularity of specification of the parameter values.

Second, it is more helpful to think about the likelihood function than individual likelihoods. The likelihood function is a function of the model parameter value(s), as is obvious from a graph of a likelihood function. Such a graph also makes it easy to see that the likelihoods allow a ranking of the various values of the parameter(s) according to how well the model predicts the data when set to those parameter values. Exploration of likelihood functions makes the roles of the data and the parameter values much more clear, in my opinion, than can cogitation of the various formulas given in the original question.

The use a ratio of pairs of likelihoods within a likelihood function as the relative degree of support offered by the observed data for the parameter values (within the model) gets around the problem of unknown proportionality constants because those constants cancel in the ratio. It is important to note that the constants would not necessarily cancel in a ratio of likelihoods that come from separate likelihood functions (i.e. from different statistical models).

Finally, it is useful to be explicit about the role of the statistical model because likelihoods are determined by the statistical model as well as the data. If you choose a different model you get a different likelihood function, and you can get a different unknown proportionality constant.

Thus, to answer the original question, likelihoods are not a probability of any sort. They do not obey Kolmogorov's axioms of probability, and they play a different role in statistical support of inference from the roles played by the various types of probability.

  1. Fisher (1922) On the mathematical foundations of statistics http://rsta.royalsocietypublishing.org/content/222/594-604/309
Michael Lew
quelle
1
The first line in your post summarizes my frustration with this topic. At any rate, some questions based on your post, sir: 1) The bayesian formula is often written as P(a|b)=P(b|a)P(a)P(b), where (we are told) that P(b|a) is a 'likelihood', and that P(a) is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron
@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew
2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew
1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron
Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron
7

Wikipedia should have said that L(θ) is not a conditional probability of θ being in some specified set, nor a probability density of θ. Indeed, if there are infinitely many values of θ in the parameter space, you can have

θL(θ)=,
for example by having L(θ)=1 regardless of the value of θ, and if there is some standard measure dθ on the parameter space Θ, then in the same way one can have
ΘL(θ)dθ=.
An essential point that the article should emphasize is that L is the function
θP(xθ) and NOT xP(xθ).
Michael Hardy
quelle
2
+1 and thanks for the edit of my answer; I forgot that \mid exists.
amoeba says Reinstate Monica
@amoeba : Glad to help.
Michael Hardy
3

"I read this as: "The likelihood of parameters equaling theta, given data X = x, (the left-hand-side), is equal to the probability of the data X being equal to x, given that the parameters are equal to theta". (Bold is mine for emphasis)."

It's the probability of the set of observations given the parameter is theta. This is perhaps confusing because they write P(x|θ) but then L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.

Alex R.
quelle
Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron
This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Creatron
L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Alex R.
Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron
This makes more sense to me now. Thanks for your initial help, @Alex.
Creatron