Der Punkt ist, dass manchmal verschiedene Modelle (für die gleichen Daten) zu Wahrscheinlichkeitsfunktionen führen können, die sich durch eine multiplikative Konstante unterscheiden, aber der Informationsgehalt muss eindeutig gleich sein. Ein Beispiel:
Wir modellieren unabhängige Bernoulli-Experimente, die zu Daten mit jeweils einer Bernoulli-Verteilung mit dem (Wahrscheinlichkeits-) Parameter . Dies führt zu der Wahrscheinlichkeitsfunktion
Oder wir können die Daten durch die binomial verteilte Variable , die eine Binomialverteilung hat, die zur Wahrscheinlichkeitsfunktion
die in Abhängigkeit vom unbekannten Parameter proportional zur früheren Wahrscheinlichkeitsfunktion ist . Die beiden Wahrscheinlichkeitsfunktionen enthalten eindeutig die gleichen Informationen und sollten zu den gleichen Schlussfolgerungen führen!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
Und tatsächlich werden sie per Definition als dieselbe Wahrscheinlichkeitsfunktion betrachtet.
Ein weiterer Gesichtspunkt: Beachten Sie, dass sich solche multiplikativen Konstanten einfach aufheben, wenn die Wahrscheinlichkeitsfunktionen im Bayes-Theorem verwendet werden, wie sie für die Bayes-Analyse benötigt werden! Sie sind also für die bayesianische Folgerung eindeutig irrelevant. Ebenso wird es abgebrochen, wenn die Wahrscheinlichkeitsverhältnisse berechnet werden, wie sie in optimalen Hypothesentests (Neyman-Pearson-Lemma) verwendet werden, und es wird keinen Einfluss auf den Wert der Maximum-Likelihood-Schätzer haben. Wir können also sehen, dass es in vielen Fällen von frequentistischer Folgerung keine Rolle spielt.
Wir können noch von einem anderen Standpunkt aus argumentieren. Die Bernoulli-Wahrscheinlichkeitsfunktion (im Folgenden wird der Begriff "Dichte" verwendet) ist in Wirklichkeit eine Dichte in Bezug auf das Zählmaß, dh das Maß für die nicht negativen ganzen Zahlen mit der Masse eins für jede nicht negative ganze Zahl. Aber wir hätten eine Dichte in Bezug auf ein anderes dominierendes Maß definieren können. In diesem Beispiel wird dies künstlich erscheinen (und ist es), aber in größeren Räumen (Funktionsräumen) ist es wirklich grundlegend! Verwenden wir zur Veranschaulichung die spezifische geometrische Verteilung mit , , und bald. Dann die Dichte der Bernoulli-Verteilung in Bezug aufλλ(0)=1/2n pλ(1)=1/4λ(2)=1/8λist gegeben durch
was bedeutet, dass
Mit diesem neuen, dominierenden Maß wird die Wahrscheinlichkeitsfunktion (mit der Schreibweise von oben) zu
beachte den zusätzlichen Faktor . Wenn also das bei der Definition der Wahrscheinlichkeitsfunktion verwendete dominierende Maß geändert wird, entsteht eine neue multiplikative Konstante, die nicht von dem unbekannten Parameter abhängtfλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+npund ist eindeutig irrelevant. Auf diese Weise können Sie auch sehen, wie irrelevant multiplikative Konstanten sein müssen. Dieses Argument kann mit Radon-Nikodym-Derivaten verallgemeinert werden (das obige Argument ist ein Beispiel für.)
kjetil b halvorsen
quelle
Dies bedeutet im Grunde, dass nur der relative Wert des PDF von Bedeutung ist. Zum Beispiel ist das normale (Gaußsche) Standard-PDF: , Ihr Buchsagendass sie verwenden könnteg(x)=e-x2/2statt, weil sie für die Waage mich nicht, dhc=1f(x)=12π√e−x2/2 g(x)=e−x2/2 .c=12π√
Dies geschieht, weil sie die Wahrscheinlichkeitsfunktion maximieren und und g ( x ) dasselbe Maximum haben. Daher maximal e - x 2 / 2 ist das gleiche wie der sein , f ( x ) . Sie kümmern sich also nicht um die Skalierung.c⋅g(x) g(x) e−x2/2 f(x)
quelle
Ich kann nicht die Bedeutung des Angebots erklären, aber für Maximum-Likelihood - Schätzung, spielt es keine Rolle , ob wir das Maximum der Likelihood - Funktion zu finden , wählten (betrachtet als Funktion von θ oder dem Maximum von einem L ( x ; θ ) wobei a eine Konstante ist, weil wir nicht an dem Maximalwert von L ( x ; θ ) interessiert sind , sondern an dem Wert θ ML, bei dem dieses Maximum auftritt, und an beiden L ( xL(x;θ) θ aL(x;θ) a L(x;θ) θML
und a L ( x ; θ ) erreichen ihren Maximalwert bei demselben
θ ML . Multiplikative Konstanten können also ignoriert werden. In ähnlicher Weise konnten keine monotone Funktion berücksichtigt wählen g ( ⋅ )
(wie beispielsweise den Logarithmus) der Wahrscheinlichkeitsfunktion L ( x , θ ) , bestimmen die maximal g ( L ( x , θ ) ) , und schließenden Wert von
θ MLL(x;θ) aL(x;θ) θML g(⋅) L(x;θ) g(L(x;θ)) θML davon. Für den Logarithmus wird die Multiplikationskonstante
zur additiven Konstante ln ( a ), und auch diese kann beim Auffinden des Ortes des Maximums ignoriert werden:
ln ( a ) + ln ( L ( x ; θ )
wird am maximiert gleicher Punkt wie ln ( L ( x ; θ ) .a ln(a) ln(a)+ln(L(x;θ) ln(L(x;θ)
Wenn man sich einer Schätzung der nachträglichen Wahrscheinlichkeit (MAP) zuwendet, wird als Realisierung einer Zufallsvariablen Θ mit einer Priori- Dichtefunktion f Θ ( θ ) angesehen , die Daten x werden als Realisierung einer Zufallsvariablen X angesehen und die Wahrscheinlichkeit Funktion wird als der Wert der seinem bedingten Dichte f x | θ ( x | θ = θ ) von x konditionierte auf θ = θθ Θ fΘ(θ) x X fX∣Θ(x∣Θ=θ) X Θ=θ ; wobei die bedingte Dichtefunktion bei ausgewertet wird . Die a posteriori - Dichte von Θ ist
f Θ | X ( θ | x ) = f X | Θ ( x | Θ = θ ) f Θ ( θ )x Θ
in dem wir den Zähler als dieVerbindungsdichtefX,Θ(x,θ)der Daten und des zu schätzenden Parameters erkennen. Der PunktθMAPwobei
f& THgr;|X(θ|x)seinen Maximalwert erreichtist die MAPSchätzung vonθ, und die gleichen Argumente wie im Absatz verwendet, sehen wirdass wir ignorieren können[fX(x)]-1auf der rechten Seite von
quelle
quelle
Es kann ungewöhnliche Umstände geben, unter denen Sie die Wahrscheinlichkeit einer Obergrenze maximieren müssen, und Sie sollten sich "daran erinnern", Konstanten in die Berechnung ihres Werts einzubeziehen.
Möglicherweise führen Sie auch Modellauswahltests für nicht verschachtelte Modelle durch, wobei Sie den Wert der Wahrscheinlichkeit im Prozess verwenden. Da die Modelle nicht verschachtelt sind, weisen die beiden Wahrscheinlichkeiten unterschiedliche Konstanten auf.
Davon abgesehen der Satz
ist falsch , weil die Wahrscheinlichkeit zunächst eine gemeinsame Wahrscheinlichkeitsdichtefunktion ist , nicht nur eine "beliebige" Zielfunktion, die maximiert werden soll.
quelle