Im Allgemeinen maximieren wir eine Funktion
Dabei ist die Wahrscheinlichkeitsdichtefunktion, wenn die zugrunde liegende Verteilung kontinuierlich ist, und eine Wahrscheinlichkeitsmassenfunktion (mit Summation anstelle des Produkts), wenn die Verteilung diskret ist.
Wie spezifizieren wir die Wahrscheinlichkeitsfunktion, wenn die zugrunde liegende Verteilung eine Mischung zwischen einer kontinuierlichen und einer diskreten Verteilung ist, wobei die Gewichte jeweils von abhängen ?
Antworten:
Die Wahrscheinlichkeitsfunktion ist die Dichte der Daten bei dem beobachteten Wert ausgedrückt als Funktion von Diese Dichte wird für jeden (akzeptablen) Wert von fast überall über die Unterstützung von , gegen ein bestimmtes Maß über das hängt nicht von . Für jede parametrische Familie sollte es ein derart dominierendes Maß für alle , daher eine Dichte, also eine Wahrscheinlichkeit.x θ ℓ ( θ | x ) = f ( x | θ ) θ x X X θ θℓ(θ|x) x θ
Hier ist ein relevanter Auszug aus dem Wikipedia-Eintrag zu Wahrscheinlichkeitsfunktionen (Stress gehört mir):
quelle
Ich gebe zu, dass ich mich einige Zeit früher in meiner Karriere mit dieser Frage beschäftigt habe. Eine Möglichkeit, mich von der Antwort zu überzeugen, bestand darin, eine äußerst praktische, angewandte Sicht auf die Situation zu haben, eine Sichtweise, die erkennt, dass keine Messung perfekt ist. Mal sehen, wohin das führen könnte.
Der Zweck dieser Übung besteht darin, die Annahmen aufzudecken, die erforderlich sein könnten, um die etwas glatte Vermischung von Dichten und Wahrscheinlichkeiten in Ausdrücken für Wahrscheinlichkeiten zu rechtfertigen. Ich werde daher solche Annahmen hervorheben, wo immer sie eingeführt werden. Es stellt sich heraus, dass einige benötigt werden, aber sie sind ziemlich mild und decken jede Anwendung ab, auf die ich gestoßen bin (die natürlich begrenzt sein wird, aber immer noch einige enthält).
Das Problem betrifft eine gemischte Verteilung die weder absolut stetig noch singulär ist. Der Lebesgue-Zerlegungssatz erlaubt es uns, eine solche Verteilung als eine Mischung aus einer absolut kontinuierlichen (die per Definition eine Dichtefunktion ) und einer singulären ("diskreten") zu betrachten, die eine Wahrscheinlichkeitsmassenfunktion (Ich werde die Möglichkeit ignorieren, dass eine dritte, kontinuierliche, aber nicht absolut kontinuierliche Komponente vorhanden ist. Diejenigen, die solche Modelle verwenden, wissen in der Regel, was sie tun, und verfügen normalerweise über alle technischen Fähigkeiten, um sie zu rechtfertigen.)F, f a f d .fa fd.
Wenn ein Mitglied einer parametrischen Verteilungsfamilie ist, können wir schreibenF=Fθ
(Die Summe ist natürlich höchstens zählbar.) Hier ist eine Wahrscheinlichkeitsdichtefunktion multipliziert mit einem Mischungskoeffizienten und ist eine Wahrscheinlichkeit Massenfunktion multipliziert mitfein(;; θ ) λ ( θ ) fd(;; θ ) 1 - λ ( θ ) .
Lassen Sie uns jede Beobachtung in einem iid-Datensatz als "wirklich" interpretieren, was bedeutet, dass wir sicher wissen, dass ein hypothetischer wahrer zugrunde liegender Wert in einem Intervall liegt um aber ansonsten keine Informationen über Vorausgesetzt, wir kennen alle Deltas und Epsilons, stellt dies keine Probleme mehr für die Konstruktion einer Wahrscheinlichkeit dar, da alles in Wahrscheinlichkeiten ausgedrückt werden kann:xich X.= ( x1, x2, … , X.n) yich ( xich- δich, xich+ ϵich]] xich, yich.
Wenn die Unterstützung von an keinem Kondensationspunkte hatF.dθ xich, verringert sich ihr Beitrag zur Wahrscheinlichkeit auf höchstens einen einzigen Term, vorausgesetzt, die Epsilons und Deltas sind ausreichend klein: Wenn nicht vorhanden ist, gibt es keinen Beitrag in seiner Unterstützung.xich
Wenn wir annehmen ist Lipschitz - stetig auf allen Datenwerte,fein(;; θ ) dann einheitlich in den Größen der Epsilons und Deltas können wir die absolut kontinuierlichen Teil nähern alsF θ ( x i )Fθ(xi)
Die Einheitlichkeit dieser Annäherung bedeutet , dass , wie wir nehmen alle die Epsilons und Deltas klein wachsen, alle die Bedingungen wachsen auch klein. Folglich gibt es einen verschwindend kleinen Wert der durch die Beiträge all dieser Fehlerterme bestimmt wird, für dieo() ϵ(θ)>0,
Das ist immer noch etwas chaotisch, aber es zeigt, wohin wir gehen. Bei zensierten Daten ist normalerweise nur ein Teil jedes Begriffs im Produkt ungleich Null, da diese Modelle normalerweise davon ausgehen, dass die Unterstützung des einzelnen Teils der Verteilung vom oberen Teil des kontinuierlichen Teils getrennt ist, unabhängig davon, um welchen Wert es sich handelt Parameter könnte sein.θ f d ( x ) ≠ 0 F a ( x + ϵ ) - F a ( x - ϵ ) = o ( ϵ ) .(Insbesondere: impliziert können wir das Produkt in zwei Teile und die Beiträge aus alle Intervalle aus dem durchgehenden Teil:fd(x)≠0 Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).
(Ohne Verlust der Allgemeinheit habe ich die Daten so indiziert, dass zum kontinuierlichen Teil beitragen und ansonsten beitragen der singuläre Teil der Wahrscheinlichkeit.)xi,i=1,2,…,k xi,i=k+1,k+2,…,n
Dieser Ausdruck macht das jetzt deutlich
Dementsprechend können wir mit dem Ausdruck arbeiten
beim Erstellen von Wahrscheinlichkeitsverhältnissen oder beim Maximieren der Wahrscheinlichkeit. Das Schöne an diesem Ergebnis ist, dass wir nie die Größe der endlichen Intervalle kennen müssen, die in dieser Ableitung verwendet werden: Die Epsilons und Deltas fallen sofort aus. Wir müssen nur wissen, dass wir sie klein genug machen können, damit der Wahrscheinlichkeitsausdruck, mit dem wir tatsächlich arbeiten, eine angemessene Annäherung an den Wahrscheinlichkeitsausdruck darstellt, den wir verwenden würden, wenn wir die Intervallgrößen kennen würden.
quelle
Diese Frage ist ein äußerst wichtiges grundlegendes Problem in der Wahrscheinlichkeitsanalyse und auch ein sehr subtiles und schwieriges. Daher bin ich ziemlich überrascht über einige der oberflächlichen Antworten, die sie in den Kommentaren erhält.
Auf jeden Fall werde ich in dieser Antwort nur einen kleinen Punkt zu Whubers hervorragender Antwort hinzufügen (was meiner Meinung nach die richtige Herangehensweise an dieses Problem ist). Dieser Punkt ist, dass Wahrscheinlichkeitsfunktionen in diesem Zusammenhang von Dichtefunktionen über ein gemischtes dominierendes Maß stammen, und dies führt zu der interessanten Eigenschaft, dass wir die relativen Größen der Wahrscheinlichkeitsfunktion willkürlich über die kontinuierlichen und diskreten Teile skalieren können und immer noch eine gültige haben Wahrscheinlichkeitsfunktion . Dies wirft eine offensichtliche Frage auf, wie wir Wahrscheinlichkeitstechniken implementieren können, wenn es keine eindeutige Wahrscheinlichkeitsfunktion gibt.
Die Veranschaulichung dieses Punktes erfordert eine vorläufige Darstellung der Abtastdichte als Radon-Nikodym-Ableitung des Wahrscheinlichkeitsmaßes. Bitte nehmen Sie Kontakt mit mir auf. Ich werde zuerst zeigen, wie man eine Dichtefunktion für ein gemischtes dominierendes Maß erhält, und dann werde ich zeigen, warum dies dazu führt, dass die kontinuierlichen und diskreten Teile der Wahrscheinlichkeit nach Belieben skaliert werden können. Abschließend werde ich die Auswirkungen dieses Problems auf die wahrscheinlichkeitsbasierte Analyse erörtern und meine Meinung zu seiner Lösung abgeben. Ich denke, dies wird im Wesentlichen durch die Methode gelöst, die Whuber in seiner Antwort vorstellt, aber sie müsste in die Richtung erweitert werden, die ich in den Kommentaren zu dieser Antwort erörtert habe, um sicherzustellen, dass jeder Punkt in der Unterstützung des diskreten Teils ignoriert wird der kontinuierliche Teil an diesem Punkt.
Ausdrücken der Dichte mit einem dominierenden Maß: Der Standardansatz für den Umgang mit gemischten Dichten für reale Zufallsvariablen besteht darin, das Lebesgue-Maß als dominierendes Maß für den kontinuierlichen Teil und das Zählmaß (über eine bestimmte zählbare Menge ) als dominierendes Maß für den diskreten Teil. Dies führt zu dem Radon-Nikodym-Derivat, definiert durch:λLEB λ COUNT D ⊂ R. λCOUNT D⊂R
(Beachten Sie, dass das letztere Integral zu einer Summe über den Elementen degeneriert . Wir schreiben es hier als Integral, um die Ähnlichkeit zwischen den beiden Begriffen klarer zu machen.) Man kann Verwenden Sie eine einzelne Dichte, indem Sie das Maß und einstellen:x∈A∩D λ∗≡λLEB+λCOUNT
Unter Verwendung von als dominierendes Maß haben wir dann den folgenden Ausdruck für die Wahrscheinlichkeit von Interesse:λ∗
Dies zeigt, dass die Funktion eine gültige Radon-Nikodym-Ableitung des Wahrscheinlichkeitsmaßes für , also eine gültige Dichte für diese Zufallsvariable. Da hängt es von und können wir dann eine gültige Wahrscheinlichkeitsfunktion definieren durch Halten fixiert und die Behandlung dieser als Funktion der .f∗ X x θ L∗x(θ)∝f∗(x|θ) x θ
Effekt der Skalierung der dominierenden Maße: Nachdem wir nun die Extraktion einer Dichte aus einem dominierenden Maß verstanden haben, führt dies zu einer seltsamen Eigenschaft, bei der wir die relativen Größen der Wahrscheinlichkeit über die kontinuierlichen und diskreten Teile skalieren können und immer noch eine gültige Wahrscheinlichkeit haben Funktion. Wenn wir jetzt das dominierende Maß für einige positive Konstanten und dann erhalten wir nun die entsprechende Radon-Nikodym-Dichte:λ∗∗≡α⋅λLEB+β⋅λCOUNT α>0 β>0
Unter Verwendung von als dominierendes Maß haben wir dann den folgenden Ausdruck für die Wahrscheinlichkeit des Interesses:λ∗∗
Wie in dem obigen Fall können wir eine gültige Wahrscheinlichkeitsfunktion definieren , indem fixiert und die Behandlung dieser als Funktion der . Sie können sehen, dass die Freiheit, und zu variieren, uns jetzt die Freiheit gibt, die relativen Größen der kontinuierlichen und diskreten Teile in der Wahrscheinlichkeitsfunktion so weit zu skalieren, wie wir wollen, und dennoch eine gültige Wahrscheinlichkeitsfunktion haben (wenn auch in Bezug auf ein anderes dominierendes Maß mit entsprechender Skalierung der Teile).L∗∗x(θ)∝f∗∗(x|θ) x θ α β
Dieses spezielle Ergebnis ist nur ein Teil des allgemeineren Ergebnisses, dass jede Wahrscheinlichkeitsfunktion in Bezug auf eine (implizite) zugrunde liegende dominierende Kennzahl definiert ist, und es gibt keine eindeutige Wahrscheinlichkeitsfunktion, die unabhängig von dieser zugrunde liegenden Kennzahl definiert werden kann. Trotzdem sehen wir in diesem speziellen Fall, dass es immer noch auf einem dominierenden Maß basiert, das eine Kombination aus Lebesgue-Maß und Zählmaß ist, so dass wir mit dem Maß nicht wirklich viel Affen gemacht haben. Da es keine objektive Rechtfertigung für die Bildung des dominierenden Maßes aus gleichen Gewichtungen des Lebesgue-Maßes und des Zählmaßes gibt, bedeutet dies, dass es keine objektive Rechtfertigung für die relative Skalierung für die kontinuierlichen und diskreten Teile der Wahrscheinlichkeitsfunktion gibt.†
Implikationen für die Wahrscheinlichkeitsanalyse: Dies scheint uns in ein Dilemma zu bringen. Wir können die diskreten und kontinuierlichen Teile der Wahrscheinlichkeitsfunktion willkürlich in ihrer relativen Größe nach oben oder unten skalieren und haben dennoch einen ebenso vernünftigen Anspruch darauf, dass dies eine gültige Wahrscheinlichkeitsfunktion ist. Glücklicherweise kann dieses Problem gelöst werden, indem erkannt wird, dass die Skalierungskonstanten auf die gleiche Weise aus der Wahrscheinlichkeitsfunktion herauskommen, wie in der Antwort von whuber dargestellt . Das heißt, wenn wir und wir:x1,...,xk∉D xk+1,...,xn∈D
Dies zeigt, dass die Skalierungseigenschaften des dominierenden Maßes die Wahrscheinlichkeitsfunktion nur durch eine Skalierungskonstante beeinflussen, die bei Standard-MLE-Problemen ignoriert werden kann. Beachten Sie, dass bei meiner Behandlung dieses Problems diese nützliche Eigenschaft als direkte Folge der Tatsache aufgetreten ist, dass die Abtastdichte so definiert ist, dass die kontinuierliche Dichte ignoriert wird, wenn wir den diskreten Teil unterstützen. (Dies unterscheidet sich von Whubers Antwort, bei der er eine Kombination dieser Teile zulässt. Ich denke, dies könnte tatsächlich zu einigen schwierigen Problemen führen; siehe meine Kommentare zu dieser Antwort.)
quelle
Ein Beispiel, bei dem dies auftritt, dh die Wahrscheinlichkeit, die durch ein Wahrscheinlichkeitsmodell vom gemischten kontinuierlichen / diskreten Typ gegeben ist, sind zensierte Daten. Ein Beispiel finden Sie unter Regression der gewichteten normalen Fehler mit Zensur .
Im Allgemeinen kann dies unter Verwendung der Maßtheorie formuliert werden. Nehmen Sie dann ein statistisches Modell mit einer Modellfunktion die eine Radon-Nikodym-Ableitung in Bezug auf ein gemeinsames Maß (das nicht vom Parameter abhängen sollte ). Dann wird die Likelihood - Funktion auf der Basis einer unabhängigen Probe IS . Dies ist in kontinuierlichen, diskreten und gemischten Fällen wirklich dasselbe.λ θ x 1 , x 2 , ... , xf(x;θ) λ θ ∏ i f ( x i ; θ )x1,x2,…,xn ∏if(xi;θ)
Ein einfaches Beispiel könnte die Modellierung des täglichen Niederschlags sein. Das könnte mit positiver Wahrscheinlichkeit Null oder positiv sein. Für das dominierende Maß könnten wir also die Summe des Lebesgue-Maßes für und eines Atoms bei Null verwenden. ( 0 , ∞ )λ (0,∞)
quelle