Welches ist die bessere maximale oder marginale Wahrscheinlichkeit und warum?

13

Bei der Durchführung der Regression gehen wir von der Definition aus: Was ist der Unterschied zwischen einer Teilwahrscheinlichkeit, einer Profilwahrscheinlichkeit und einer Grenzwahrscheinlichkeit?

dass, Maximum Likelihood
Findet β und θ, die L (β, θ | data) maximieren.

Während, Grenzwahrscheinlichkeit
Wir integrieren θ aus der Wahrscheinlichkeitsgleichung, indem wir die Tatsache ausnutzen, dass wir die von β abhängige Wahrscheinlichkeitsverteilung von θ identifizieren können.

Welches ist die bessere Methode zur Maximierung und warum?

Ankit Chiplunkar
quelle

Antworten:

14

Jedes von diesen ergibt unterschiedliche Ergebnisse mit einer unterschiedlichen Interpretation. Der erste findet das Paar , θ, das am wahrscheinlichsten ist, während der zweite das β findet, das (geringfügig) am wahrscheinlichsten ist. Stellen Sie sich vor, Ihre Distribution sieht folgendermaßen aus:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Dann Antwort der Maximum - Likelihood ist ( θ = 3 ), während die maximale marginale Likelihood - Antwort ist , β = 2 (da, den Rand zu drängen über θ , P ( β = 2 ) = 0,6 ).β=1θ=3β=2θP(β=2)=0.6

Ich würde sagen, dass im Allgemeinen die marginale Wahrscheinlichkeit oft genau das ist, was Sie wollen. Wenn Sie sich wirklich nicht für die Werte der Parameter interessieren , sollten Sie sie einfach kollabieren lassen. In der Praxis führen diese Methoden jedoch wahrscheinlich nicht zu sehr unterschiedlichen Ergebnissen. Andernfalls kann dies auf eine gewisse zugrunde liegende Instabilität in Ihrer Lösung hinweisen, z. B. mehrere Modi mit unterschiedlichen Kombinationen von β , θ , die alle ähnliche Vorhersagen liefern.θβθ

Chris
quelle
Ich habe unterschiedliche Ergebnisse für Maximum / Marginal Likelihood Methoden gefunden und daher die Frage. Ich würde sagen, dass die beiden Ergebnisse in meinem Fall unterschiedliche Interpretationen ergeben, aber mögliche Ergebnisse.
Ankit Chiplunkar
5

Mit dieser Frage beschäftige ich mich gerade. Hier ist ein Ergebnis, das hilfreich sein kann. Betrachten Sie das lineare Modell

y=Xβ+ϵ,ϵN(0,σ2)

wobei und β und σ 2 sind die Parameter von Interesse. Die gemeinsame Wahrscheinlichkeit istyRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Optimierung der Gelenkwahrscheinlichkeitserträge

β^=X+y

σ^2=1n||r||2

wobei die Pseudoinverse ist X und r = y - X β ist die Passform Residuenvektor. Man beachte , dass in σ 2 haben wir 1 / n anstelle der bekannten Grad-of-freedom korrigierten Verhältnis 1 / ( n - p ) . Es ist bekannt, dass dieser Schätzer im Fall der endlichen Stichprobe vorgespannt ist.X+Xr=yXβ^σ^21/n1/(np)

Angenommen, statt über und σ 2 zu optimieren , integrieren wir β out und schätzen σ 2 aus der resultierenden integrierten Wahrscheinlichkeit:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Mit der linearen Elementaralgebra und der Gaußschen Integralformel können Sie das zeigen

σ^2=1np||r||2

Dies hat die Freiheitsgradkorrektur, die es unvoreingenommen und im Allgemeinen gegenüber der gemeinsamen ML-Schätzung favorisiert.

Aus diesem Ergebnis könnte man sich fragen, ob die integrierte Wahrscheinlichkeit von Natur aus etwas Vorteilhaftes hat, aber ich kenne keine allgemeinen Ergebnisse, die diese Frage beantworten. Der Konsens scheint zu sein, dass integrierte ML Unsicherheiten bei den meisten Schätzungsproblemen besser berücksichtigt. Insbesondere wenn Sie eine Menge schätzen, die von anderen Parameterschätzungen abhängt (auch implizit), kann die Integration über die anderen Parameter deren Unsicherheiten besser berücksichtigen.

Paul
quelle
1
Das ist interessant. Ich bin jedoch ein wenig beunruhigt über die Tatsache, dass " " eine ungültige Randverteilung verwendet, sowie über das Fehlen einer offensichtlichen Rechtfertigung für die Verwendung dieser (unangemessenen) Randverteilung im Vergleich zu anderen. Welche Gedanken haben Sie zu diesen Themen? β
whuber
1
@whuber Ich teile Ihre Bedenken und habe keine fertige Antwort, aber beachten Sie, dass die Wahrscheinlichkeit, an den Rand gedrängt zu werden, nur ein posteriorer Faktor mit einer einheitlichen falschen Vorbedingung für ist. Ich denke, dies hängt mit dem "objektiven Bayes'schen" Ansatz zusammen. Da ist es einem egal, wenn ein Parameter wie β eine falsche Vorverteilung hat, solange der posterior integrierbar ist. ββ
Paul
Ausgehend von diesem Beitrag und den darin enthaltenen Kommentaren denke ich, dass integrierte ML und nicht marginale ML der richtige Begriff für das ist, was wir hier tun. Entsprechend bearbeitet.
Paul
1
+1 Ich weiß, ich bin ziemlich spät zu dieser Party, integriere aber keine festen Effekte, indem ich ihnen eine falsche Uniform vorsetze, genau was REML macht. Sie haben also gerade die REML-Schätzung erhalten und diese df-Korrektur ist genau die Grund hier, dass REML für kleinere Stichproben besser ist?
16.
@Chaconne ja, dieser Beitrag wurde durch den Versuch motiviert, REML zu verstehen! Ich habe (fast) keine formale Statistikausbildung, daher war es für mich alles neu, dies abzuleiten.
Paul
4

Dies ist normalerweise keine Frage der Wahl. Wenn wir an der Schätzung von interessiert sind (z. B. wenn β ein Modellhyperparameter und θ eine latente Variable ist) und es keinen einzigen Wert für θ gibt und stattdessen die Verteilung von θ bekannt ist, müssen wir θ integrieren . Sie können sich die marginale Wahrscheinlichkeit als den gewichteten Durchschnitt der Wahrscheinlichkeit für verschiedene Werte von θ i vorstellen, die mit ihrer Wahrscheinlichkeitsdichte p ( θ i ) gewichtet sind . Nun, da θ verschwunden ist, werden Trainingsproben als d a t a verwendetββθθθθθip(θi)θdata, you can optimize the marginal likelihood w.r.t. β.

Seeda
quelle