Erstens brauchen wir keine Wahrscheinlichkeitsmaße, nur Endlichkeit. So lassen M = ( Ω , F ) sein ein Messraum und lassen μ und v sein σ -finite Maßnahmen auf M .σM=(Ω,F)μνσM
Das Radon-Nikodym-Theorem besagt, dass wenn für alle A ∈ F , bezeichnet mit μ ≫ ν , dann existiert eine nicht negative Borel-Funktion f, so dass
ν ( A ) = ∫ A.μ(A)=0⟹ν(A)=0A∈Fμ≫νf
für alle A ∈ F.
ν(A)=∫Afdμ
A∈F .
So denke ich gerne darüber nach. Definieren wir zunächst für zwei beliebige Maße für μ ∼ ν , um μ ( A ) = zu bedeutenM.μ ∼ ν . Dies ist eine gültige Äquivalenzbeziehung und wir sagen, dass μ und ν in diesem Falläquivalentsind. Warum ist dies eine sinnvolle Äquivalenz für Maßnahmen? Kennzahlen sind nur Funktionen, aber ihre Domänen sind schwierig zu visualisieren. Was ist, wenn zwei gewöhnliche Funktionen f , g : R → R diese Eigenschaft haben, dh f ( x ) = 0μ ( A ) = 0⟺ν( A ) = 0μνf, g: R → R. & le; Nun, definiere
h ( x ) = { f ( x ) / g ( x ) g ( x ) ≠ 0 π e o.w.
und beachtendass überall auf der Unterstützung von g haben wir g h = f , und außerhalb des Trägers von g g h = 0 ⋅ & pgr; e = 0 = f (da ff( x ) = 0⟺G( x ) = 0
h(x)={f(x)/g(x)πeg(x)≠0o.w.
ggh=fg gh=0⋅πe=0=ff und
Aktie Träger) so
hgh lässt uns
in
f neu skalieren . Wie @whuber weist darauf hin, ist der Schlüssel Idee hier nicht
0 / 0 ist irgendwie „sicher“ zu tun oder zu ignorieren, sondern dann , wenn
g = 0 , dann spielt es keine Rolle , welche
h ist so können wir es nur willkürlich definieren (wie sein
π e , die hier keine besondere Bedeutung hat) und die Dinge noch viel Arbeit. Auch in diesem Fall können wir die analoge Funktion
h ' mit
g / f so definieren, dass
f h ' = g ist .
gf0/0g=0hπeh′g/ffh′=g
Als nächstes sei angenommen, dass , aber die andere Richtung gilt nicht unbedingt. Dies bedeutet, dass unsere vorherige Definition von h immer noch funktioniert, aber jetzt funktioniert h ' nicht mehr, da es tatsächliche Divisionen durch 0 hat . Somit können wir g über g h = f in f neu skalieren, aber wir können nicht in die andere Richtung gehen, weil wir etwas 0 neu skalieren müssteng(x)=0⟹f(x)=0hh′0gfgh=f0 in etwas ungleich Null .
Kehren wir nun zu und ν zurück und bezeichnen unsere RND mit f . Wenn μ ∼ ν ist , bedeutet dies intuitiv, dass eines in das andere skaliert werden kann und umgekehrt. Aber im Allgemeinen wollen wir damit nur eine Richtung einschlagen (dh ein schönes Maß wie das Lebesgue-Maß in ein abstrakteres Maß umskalieren), also brauchen wir nur μ ≫ νμνfμ∼νμ≫ν benötigen, um nützliche Dinge zu tun. Diese Neuskalierung ist das Herzstück des RND.
Zurückkommend auf @ whuber des Punkt in den Kommentaren, gibt es eine extra Subtilität , warum es sicher ist , die Frage zu ignorieren . Das liegt daran, dass wir mit Kennzahlen immer nur Dinge bis zu Mengen von Kennzahl 0 definieren. Bei jeder Menge A mit μ ( A ) = 0 können wir unseren RND einfach dazu bringen, einen beliebigen Wert anzunehmen, z . B. 1 . So ist es nicht , dass 0 / 0 eigensicher ist , sondern überall dort, wo wir hätten 0 / 0 ist ein Satz von Maßnahme 0 WRT μ0/00Aμ(A)=010/00/00μ So können wir unseren RND einfach so definieren, dass er dort etwas Schönes ist, ohne etwas zu beeinflussen.
Nehmen wir als Beispiel an, dass für einige k > 0 ist . Dann ist
ν ( A ) = ∫k⋅μ=νk>0
also haben wir f ( x ) = k = d ν
ν(A)=∫Adν=∫Akdμ
f(x)=k=dνdμ ist der RND (dies kann durch den Satz der Maßänderung formeller begründet werden). Dies ist gut, da wir den Skalierungsfaktor genau wiederhergestellt haben.
0f(x)=φ(x)+1Q(x)1X
P(X∈A)=∫A(φ+1Q)dλ
=∫Aφdλ+λ(Q)=∫Aφdλ
XXQ0λ
X∼Pois(η)Y∼Bin(n,p)PXPYccc(A)=0⟺A=∅
dPYdPX=dPY/dcdPX/dc=fYfX
so we can compute
PY(A)=∫AdPY
=∫AdPYdPXdPX=∫AdPYdPXdPXdcdc
=∑y∈AdPYdPX(y)dPXdc(y)=∑y∈AfY(y)fX(y)fX(y)=∑y∈AfY(y).
Thus because P(X=n)>0 for all n in the support of Y, we can rescale integration with respect to a Poisson distribution into integration with respect to a binomial distribution, although because everything's discrete it turns out to look like a trivial result.
I addressed your more general question but didn't touch on KL divergences. For me, at least, I find KL divergence much easier to interpret in terms of hypothesis testing like @kjetil b halvorsen's answer here. If P≪Q and there exists a measure μ that dominates both then using dPdQ=dP/dμdQ/dμ:=p/q we can recover the form with densities, so for me I find that easier.