Die Maximum-Likelihood-Parameter weichen von den posterioren Verteilungen ab

11

Ich habe eine Wahrscheinlichkeitsfunktion für die Wahrscheinlichkeit meiner Daten bei einigen Modellparametern , die ich schätzen möchte. Unter der Annahme flacher Prioritäten für die Parameter ist die Wahrscheinlichkeit proportional zur posterioren Wahrscheinlichkeit. Ich benutze eine MCMC-Methode, um diese Wahrscheinlichkeit abzutasten.L(d|θ)dθRN

Wenn ich mir die resultierende konvergierte Kette anschaue, stelle ich fest, dass die Maximum-Likelihood-Parameter nicht mit den posterioren Verteilungen übereinstimmen. Zum Beispiel könnte die marginalisierte hintere Wahrscheinlichkeitsverteilung für einen der Parameter , während der Wert von am maximalen Wahrscheinlichkeitspunkt , was im Wesentlichen fast dem Maximalwert von vom MCMC-Sampler durchlaufen wird.θ0N(μ=0,σ2=1)θ0θ0ML4θ0

Dies ist ein anschauliches Beispiel, nicht meine tatsächlichen Ergebnisse. Die realen Verteilungen sind weitaus komplizierter, aber einige der ML-Parameter weisen in ihren jeweiligen posterioren Verteilungen ähnlich unwahrscheinliche p-Werte auf. Beachten Sie, dass einige meiner Parameter begrenzt sind (z. B. ); Innerhalb der Grenzen sind die Prioritäten immer einheitlich.0θ11

Meine Fragen sind:

  1. Ist eine solche Abweichung per se ein Problem ? Natürlich erwarte ich nicht, dass die ML-Parameter genau mit den Maxima jeder ihrer marginalisierten posterioren Verteilungen übereinstimmen, aber intuitiv fühlt es sich so an, als ob sie auch nicht tief im Schwanz gefunden werden sollten. Macht diese Abweichung meine Ergebnisse automatisch ungültig?

  2. Ob dies notwendigerweise problematisch ist oder nicht, könnte es in einem bestimmten Stadium der Datenanalyse symptomatisch für bestimmte Pathologien sein? Ist es beispielsweise möglich, eine allgemeine Aussage darüber zu treffen, ob eine solche Abweichung durch eine nicht ordnungsgemäß konvergierte Kette, ein falsches Modell oder zu enge Grenzen für die Parameter verursacht werden könnte?

mgc70
quelle

Antworten:

15

Bei flachen Priors ist der Posterior bis zu einer Konstanten mit der Wahrscheinlichkeit identisch. Somit

  1. MLE (geschätzt mit einem Optimierer) sollte identisch mit dem MAP sein (maximaler a posteriori-Wert = multivariater Modus des posterioren, geschätzt mit MCMC). Wenn Sie nicht den gleichen Wert erhalten, haben Sie ein Problem mit Ihrem Sampler oder Optimierer.

  2. Bei komplexen Modellen ist es sehr häufig, dass sich die Randmodi vom MAP unterscheiden. Dies geschieht beispielsweise, wenn die Korrelationen zwischen Parametern nichtlinear sind. Dies ist vollkommen in Ordnung, aber Randmoden sollten daher nicht als Punkte mit der höchsten posterioren Dichte interpretiert und nicht mit der MLE verglichen werden.

  3. In Ihrem speziellen Fall vermute ich jedoch, dass der hintere Teil gegen die vorherige Grenze verläuft. In diesem Fall ist der hintere Teil stark asymmetrisch, und es ist nicht sinnvoll, ihn als Mittelwert sd zu interpretieren. In dieser Situation gibt es kein grundsätzliches Problem, aber in der Praxis deutet dies häufig auf eine Fehlspezifikation des Modells oder auf schlecht ausgewählte Prioritäten hin.

Florian Hartig
quelle
15

Einige mögliche allgemeine Erklärungen für diese wahrgenommene Diskrepanz, vorausgesetzt natürlich, es gibt kein Problem mit der Code- oder Wahrscheinlichkeitsdefinition oder der MCMC-Implementierung oder der Anzahl der MCMC-Iterationen oder der Konvergenz des Wahrscheinlichkeitsmaximierers (danke, Jacob Socolar ):

  1. N.N.θ|xN.N.(0,ichN.)θN.- -22N.0

  2. Während der MAP und der MLE tatsächlich unter einem flachen Prior verwechselt werden, können die Randdichten der verschiedenen Parameter des Modells (Rand-) Modi aufweisen, die weit von den entsprechenden MLEs (dh MAPs) entfernt sind.

  3. Der MAP ist eine Position im Parameterraum, an der die posteriore Dichte am höchsten ist, dies gibt jedoch keinen Hinweis auf das posteriore Gewicht oder Volumen für Nachbarschaften des MAP. Ein sehr dünner Dorn trägt kein hinteres Gewicht. Dies ist auch der Grund, warum die MCMC-Untersuchung eines Seitenzahns Schwierigkeiten bei der Identifizierung des posterioren Modus haben kann.

  4. Die Tatsache, dass die meisten Parameter begrenzt sind, kann dazu führen, dass einige Komponenten des MAP = MLE an einer Grenze auftreten.

Siehe z. B. Druihlet und Marin (2007) für Argumente zur un-bayesianischen Natur von MAP-Schätzern. Eine ist die Abhängigkeit dieser Schätzer von der dominierenden Maßnahme, eine andere ist die fehlende Invarianz bei der Neuparametrisierung (im Gegensatz zu MLEs).

Als Beispiel für Punkt 1 oben ist hier ein kurzer R-Code

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

Dies ahmt eine zufällige Metropolis-Hastings-Sequenz in der Dimension N = 100 nach. Der Wert der Log-Wahrscheinlichkeit am MAP beträgt -91,89, aber die besuchten Wahrscheinlichkeiten kommen nie nahe:

> range(lik)
[1] -183.9515 -126.6924

was durch die Tatsache erklärt wird, dass die Sequenz niemals in die Nähe der Beobachtung kommt:

> range(dis)
[1]  69.59714 184.11525
Xi'an
quelle
3
Ich möchte nur hinzufügen, dass sich das OP nicht nur Gedanken über die Code- oder Wahrscheinlichkeitsdefinition oder die MCMC-Implementierung macht, sondern auch darüber, ob die zum Abrufen der ML-Schätzung verwendete Software in einem lokalen Optimum gefangen ist. stats.stackexchange.com/questions/384528/…
Jacob Socolar