Was bedeutet „Wahrscheinlichkeit wird nur bis zu einer multiplikativen Proportionalitätskonstante definiert“ in der Praxis?

19

Ich lese einen Artikel, in dem die Autoren von einer Diskussion über die Schätzung der maximalen Wahrscheinlichkeit zu Bayes 'Theorem führen, angeblich als Einführung für Anfänger.

Als Beispiel für die Wahrscheinlichkeit beginnen sie mit einer Binomialverteilung:

p(x|n,θ)=(nx)θx(1θ)nx

und loggen Sie dann beide Seiten

(θ|x,n)=xln(θ)+(nx)ln(1θ)

mit der Begründung, dass:

"Da die Wahrscheinlichkeit nur bis zu einer multiplikativen Proportionalitätskonstante (oder einer additiven Konstante für die logarithmische Wahrscheinlichkeit) definiert ist, können wir ... neu skalieren, indem wir den Binomialkoeffizienten fallen lassen und die logarithmische Wahrscheinlichkeit anstelle der Wahrscheinlichkeit schreiben."

Die Mathematik macht Sinn, aber ich kann nicht verstehen, was mit "die Wahrscheinlichkeit ist nur bis zu einer multiplikativen Proportionalitätskonstante definiert" gemeint ist und wie dies das Fallenlassen des Binomialkoeffizienten und den Übergang von zu ermöglicht .l ( θ | x , n )p(x|n,θ)(θ|x,n)

Eine ähnliche Terminologie ist auch in anderen Fragen ( hier und hier ) aufgetaucht , aber es ist immer noch nicht klar, wie wahrscheinlich es ist, dass Informationen definiert oder zu einer multiplikativen Konstante zusammengefasst werden. Kann man das mit Laien erklären?

kmm
quelle

Antworten:

18

Der Punkt ist, dass manchmal verschiedene Modelle (für die gleichen Daten) zu Wahrscheinlichkeitsfunktionen führen können, die sich durch eine multiplikative Konstante unterscheiden, aber der Informationsgehalt muss eindeutig gleich sein. Ein Beispiel:

Wir modellieren unabhängige Bernoulli-Experimente, die zu Daten mit jeweils einer Bernoulli-Verteilung mit dem (Wahrscheinlichkeits-) Parameter . Dies führt zu der Wahrscheinlichkeitsfunktion Oder wir können die Daten durch die binomial verteilte Variable , die eine Binomialverteilung hat, die zur Wahrscheinlichkeitsfunktion die in Abhängigkeit vom unbekannten Parameter proportional zur früheren Wahrscheinlichkeitsfunktion ist . Die beiden Wahrscheinlichkeitsfunktionen enthalten eindeutig die gleichen Informationen und sollten zu den gleichen Schlussfolgerungen führen!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)ny
p

Und tatsächlich werden sie per Definition als dieselbe Wahrscheinlichkeitsfunktion betrachtet.

Ein weiterer Gesichtspunkt: Beachten Sie, dass sich solche multiplikativen Konstanten einfach aufheben, wenn die Wahrscheinlichkeitsfunktionen im Bayes-Theorem verwendet werden, wie sie für die Bayes-Analyse benötigt werden! Sie sind also für die bayesianische Folgerung eindeutig irrelevant. Ebenso wird es abgebrochen, wenn die Wahrscheinlichkeitsverhältnisse berechnet werden, wie sie in optimalen Hypothesentests (Neyman-Pearson-Lemma) verwendet werden, und es wird keinen Einfluss auf den Wert der Maximum-Likelihood-Schätzer haben. Wir können also sehen, dass es in vielen Fällen von frequentistischer Folgerung keine Rolle spielt.

Wir können noch von einem anderen Standpunkt aus argumentieren. Die Bernoulli-Wahrscheinlichkeitsfunktion (im Folgenden wird der Begriff "Dichte" verwendet) ist in Wirklichkeit eine Dichte in Bezug auf das Zählmaß, dh das Maß für die nicht negativen ganzen Zahlen mit der Masse eins für jede nicht negative ganze Zahl. Aber wir hätten eine Dichte in Bezug auf ein anderes dominierendes Maß definieren können. In diesem Beispiel wird dies künstlich erscheinen (und ist es), aber in größeren Räumen (Funktionsräumen) ist es wirklich grundlegend! Verwenden wir zur Veranschaulichung die spezifische geometrische Verteilung mit , , und bald. Dann die Dichte der Bernoulli-Verteilung in Bezug aufλλ(0)=1/2n pλ(1)=1/4λ(2)=1/8λist gegeben durch was bedeutet, dass Mit diesem neuen, dominierenden Maß wird die Wahrscheinlichkeitsfunktion (mit der Schreibweise von oben) zu beachte den zusätzlichen Faktor . Wenn also das bei der Definition der Wahrscheinlichkeitsfunktion verwendete dominierende Maß geändert wird, entsteht eine neue multiplikative Konstante, die nicht von dem unbekannten Parameter abhängt

fλ(x)=px(1p)1x2x+1
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+npund ist eindeutig irrelevant. Auf diese Weise können Sie auch sehen, wie irrelevant multiplikative Konstanten sein müssen. Dieses Argument kann mit Radon-Nikodym-Derivaten verallgemeinert werden (das obige Argument ist ein Beispiel für.)

kjetil b halvorsen
quelle
"Der Informationsgehalt muss eindeutig derselbe sein" Dies gilt nur, wenn Sie an das Wahrscheinlichkeitsprinzip glauben!
jsk
Ja, vielleicht, aber ich habe gezeigt, wie es aus Bayes'schen Prinzipien folgt.
kjetil b halvorsen
@kjetilbhalvorsen Danke für die nachdenkliche Antwort! Eine Sache, über die ich immer noch verwirrt bin, ist, warum die Wahrscheinlichkeit der Bernoulli-Verteilung keinen Binomialkoeffizienten enthält. Ihre Antwort macht deutlich, warum es keine Rolle spielt, aber ich verstehe nicht, warum die Wahrscheinlichkeit überhaupt weggelassen wurde.
Jvans
@jvans: Weil der Binomialkoeffizient nicht vom unbekannten Parameter abhängt, kann er die Form der Wahrscheinlichkeitsfunktion nicht beeinflussen
kjetil b halvorsen
12

Dies bedeutet im Grunde, dass nur der relative Wert des PDF von Bedeutung ist. Zum Beispiel ist das normale (Gaußsche) Standard-PDF: , Ihr Buchsagendass sie verwenden könnteg(x)=e-x2/2statt, weil sie für die Waage mich nicht, dhc=1f(x)=12πex2/2g(x)=ex2/2 .c=12π

Dies geschieht, weil sie die Wahrscheinlichkeitsfunktion maximieren und und g ( x ) dasselbe Maximum haben. Daher maximal e - x 2 / 2 ist das gleiche wie der sein , f ( x ) . Sie kümmern sich also nicht um die Skalierung.cg(x)g(x)ex2/2f(x)

Aksakal
quelle
6

Ich kann nicht die Bedeutung des Angebots erklären, aber für Maximum-Likelihood - Schätzung, spielt es keine Rolle , ob wir das Maximum der Likelihood - Funktion zu finden , wählten (betrachtet als Funktion von θ oder dem Maximum von einem L ( x ; θ ) wobei a eine Konstante ist, weil wir nicht an dem Maximalwert von L ( x ; θ ) interessiert sind , sondern an dem Wert θ ML, bei dem dieses Maximum auftritt, und an beiden L ( xL(x;θ)θaL(x;θ)aL(x;θ)θML und a L ( x ; θ ) erreichen ihren Maximalwert bei demselben θ ML . Multiplikative Konstanten können also ignoriert werden. In ähnlicher Weise konnten keine monotone Funktion berücksichtigt wählen g ( ) (wie beispielsweise den Logarithmus) der Wahrscheinlichkeitsfunktion L ( x , θ ) , bestimmen die maximal g ( L ( x , θ ) ) , und schließenden Wert von θ MLL(x;θ)aL(x;θ)θMLg()L(x;θ)g(L(x;θ))θMLdavon. Für den Logarithmus wird die Multiplikationskonstante zur additiven Konstante ln ( a ), und auch diese kann beim Auffinden des Ortes des Maximums ignoriert werden: ln ( a ) + ln ( L ( x ; θ ) wird am maximiert gleicher Punkt wie ln ( L ( x ; θ ) .aln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

Wenn man sich einer Schätzung der nachträglichen Wahrscheinlichkeit (MAP) zuwendet, wird als Realisierung einer Zufallsvariablen Θ mit einer Priori- Dichtefunktion f Θ ( θ ) angesehen , die Daten x werden als Realisierung einer Zufallsvariablen X angesehen und die Wahrscheinlichkeit Funktion wird als der Wert der seinem bedingten Dichte f x | θ ( x | θ = θ ) von x konditionierte auf θ = θθΘfΘ(θ)xXfXΘ(xΘ=θ)XΘ=θ; wobei die bedingte Dichtefunktion bei ausgewertet wird . Die a posteriori - Dichte von Θ ist f Θ | X ( θ | x ) = f X | Θ ( x | Θ = θ ) f Θ ( θ )xΘ in dem wir den Zähler als dieVerbindungsdichtefX,Θ(x,θ)der Daten und des zu schätzenden Parameters erkennen. Der PunktθMAPwobei f& THgr;|X(θ|x)seinen Maximalwert erreichtist die MAPSchätzung vonθ, und die gleichen Argumente wie im Absatz verwendet, sehen wirdass wir ignorieren können[fX(x)]-1auf der rechten Seite von

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1 als multiplikative Konstante, so wie wir multiplikative Konstantensowohl in f XΘ ( xΘ = θ ) als auch in f Θ ( θ ) ignorieren können. In ähnlicher Weise können wir additive Konstanten ignorieren, wenn Log-Likelihoods verwendet werden.(1) fXΘ(xΘ=θ)fΘ(θ)
Dilip Sarwate
quelle
LaLa
5

f(x)kf(x)

Sergio
quelle
3
f(x)f(x)+2
Wie Alecos Papadopoulos in seiner Antwort schreibt, "ist die Wahrscheinlichkeit zunächst eine gemeinsame Wahrscheinlichkeitsdichtefunktion". Aufgrund der iid-Annahme für Zufallsstichproben ist die Gelenkfunktion ein Produkt einfacher Dichtefunktionen, sodass multiplikative Faktoren auftreten, Addenden jedoch nicht.
Sergio
1
Die gemeinsame Funktion ist genau dann ein solches Produkt, wenn die Daten unabhängig sind. MLE erstreckt sich jedoch auch auf abhängige Variablen, sodass das Produktargument nicht überzeugend erscheint.
whuber
1

argmax

Es kann ungewöhnliche Umstände geben, unter denen Sie die Wahrscheinlichkeit einer Obergrenze maximieren müssen, und Sie sollten sich "daran erinnern", Konstanten in die Berechnung ihres Werts einzubeziehen.

Möglicherweise führen Sie auch Modellauswahltests für nicht verschachtelte Modelle durch, wobei Sie den Wert der Wahrscheinlichkeit im Prozess verwenden. Da die Modelle nicht verschachtelt sind, weisen die beiden Wahrscheinlichkeiten unterschiedliche Konstanten auf.

Davon abgesehen der Satz

"Weil die Wahrscheinlichkeit nur bis zu einer multiplikativen Proportionalitätskonstante (oder einer additiven Konstante für die log-Wahrscheinlichkeit) definiert ist."

ist falsch , weil die Wahrscheinlichkeit zunächst eine gemeinsame Wahrscheinlichkeitsdichtefunktion ist , nicht nur eine "beliebige" Zielfunktion, die maximiert werden soll.

Alecos Papadopoulos
quelle
3
θθ
3
Ich denke, Sie müssen etwas vorsichtiger mit der Sprache umgehen. Die Wahrscheinlichkeit ist eine Funktion der Parameter für eine feste Probe, entspricht jedoch der Fugendichte über den Probenraum . Das ist,
L(θx)=f(xθ).
Dies wird zu integrieren 1 über den Probenraum, ist aber nicht unbedingt 1wenn über den Parameterraum integriert. Wenn Sie sagen, "die Wahrscheinlichkeit ist eine Dichte, die als Funktion der Parameter betrachtet wird", dann klingt dies so, als ob Sie "Dichte in Bezug auf die Parameter" meinen, was nicht der Fall ist.
Heropup
1
@heropup Ich habe bereits geschrieben, dass es nicht unbedingt zu einer Einheit über den Parameterraum integriert werden muss, und daher kann es nicht sofort als "Dichtefunktion" betrachtet werden, wenn es als "Funktion der Parameter" betrachtet wird.
Alecos Papadopoulos
1
Ja, ich weiß. Mein Punkt ist, dass der Satz "Die Wahrscheinlichkeitsfunktion ist eine Dichtefunktion, gesehen als Funktion der Parameter" selbst verwirrend ist. Genauer gesagt: "Die Wahrscheinlichkeitsfunktion ist eine Funktion der Parameter für eine feste Probe und entspricht (oder proportional) der Fugendichte über den Probenraum."
Heropup
1
@heropup Ihre gewünschte Aussage, dass "die Wahrscheinlichkeitsfunktion ... äquivalent (oder proportional) zur Fugendichte über den Probenraum ist", wäre in der Tat viel präziser, aber ebenso falsch. Die Wahrscheinlichkeitsfunktion ist weder äquivalent noch proportional zur Fugendichte, da der "Proportionalitätskoeffizient" keine Konstante ist (es sei denn, die vorherige Verteilung des unbekannten Parameters ist gleichmäßig über ein Intervall verteilt). Die Fugendichte beträgtL(xθ)f(θ) woher L ist die Wahrscheinlichkeit und f(θ)ist die vorherige Verteilung des Parameters.
Dilip Sarwate