Bei der Durchführung der Regression gehen wir von der Definition aus: Was ist der Unterschied zwischen einer Teilwahrscheinlichkeit, einer Profilwahrscheinlichkeit und einer Grenzwahrscheinlichkeit?
dass, Maximum Likelihood
Findet β und θ, die L (β, θ | data) maximieren.
Während, Grenzwahrscheinlichkeit
Wir integrieren θ aus der Wahrscheinlichkeitsgleichung, indem wir die Tatsache ausnutzen, dass wir die von β abhängige Wahrscheinlichkeitsverteilung von θ identifizieren können.
Welches ist die bessere Methode zur Maximierung und warum?
quelle
Mit dieser Frage beschäftige ich mich gerade. Hier ist ein Ergebnis, das hilfreich sein kann. Betrachten Sie das lineare Modell
wobei und β und σ 2 sind die Parameter von Interesse. Die gemeinsame Wahrscheinlichkeit isty∈Rn,β∈Rp, β σ2
Optimierung der Gelenkwahrscheinlichkeitserträge
wobei die Pseudoinverse ist X und r = y - X β ist die Passform Residuenvektor. Man beachte , dass in σ 2 haben wir 1 / n anstelle der bekannten Grad-of-freedom korrigierten Verhältnis 1 / ( n - p ) . Es ist bekannt, dass dieser Schätzer im Fall der endlichen Stichprobe vorgespannt ist.X+ X r=y−Xβ^ σ^2 1/n 1/(n−p)
Angenommen, statt über und σ 2 zu optimieren , integrieren wir β out und schätzen σ 2 aus der resultierenden integrierten Wahrscheinlichkeit:β σ2 β σ2
Mit der linearen Elementaralgebra und der Gaußschen Integralformel können Sie das zeigen
Dies hat die Freiheitsgradkorrektur, die es unvoreingenommen und im Allgemeinen gegenüber der gemeinsamen ML-Schätzung favorisiert.
Aus diesem Ergebnis könnte man sich fragen, ob die integrierte Wahrscheinlichkeit von Natur aus etwas Vorteilhaftes hat, aber ich kenne keine allgemeinen Ergebnisse, die diese Frage beantworten. Der Konsens scheint zu sein, dass integrierte ML Unsicherheiten bei den meisten Schätzungsproblemen besser berücksichtigt. Insbesondere wenn Sie eine Menge schätzen, die von anderen Parameterschätzungen abhängt (auch implizit), kann die Integration über die anderen Parameter deren Unsicherheiten besser berücksichtigen.
quelle
Dies ist normalerweise keine Frage der Wahl. Wenn wir an der Schätzung von interessiert sind (z. B. wenn β ein Modellhyperparameter und θ eine latente Variable ist) und es keinen einzigen Wert für θ gibt und stattdessen die Verteilung von θ bekannt ist, müssen wir θ integrieren . Sie können sich die marginale Wahrscheinlichkeit als den gewichteten Durchschnitt der Wahrscheinlichkeit für verschiedene Werte von θ i vorstellen, die mit ihrer Wahrscheinlichkeitsdichte p ( θ i ) gewichtet sind . Nun, da θ verschwunden ist, werden Trainingsproben als d a t a verwendetβ β θ θ θ θ θi p(θi) θ data , you can optimize the marginal likelihood w.r.t. β .
quelle