MLE vs MAP Schätzung, wann welche verwenden?

13

MLE = Maximum Likelihood Estimation

MAP = Maximum a posteriori

MLE ist insofern intuitiv / naiv, als es nur mit der Beobachtungswahrscheinlichkeit bei gegebenem Parameter (dh der Wahrscheinlichkeitsfunktion) beginnt und versucht, den Parameter zu finden, der der Beobachtung am besten entspricht . Das Vorwissen wird jedoch nicht berücksichtigt.

MAP erscheint vernünftiger, da es das Vorwissen durch die Bayes-Regel berücksichtigt.

Hier ist eine verwandte Frage, aber die Antwort ist nicht gründlich. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Ich denke, MAP ist viel besser. Ist das richtig? Und wann soll ich welche verwenden?

smwikipedia
quelle

Antworten:

18

Wenn im Rahmen des Problem-Setups eine vorherige Wahrscheinlichkeit angegeben wird, verwenden Sie diese Informationen (dh verwenden Sie MAP). Wenn keine solchen vorherigen Informationen gegeben oder angenommen werden, ist MAP nicht möglich, und MLE ist ein vernünftiger Ansatz.

Bohne
quelle
8
Es ist erwähnenswert, dass MAP mit flachen Prioritäten der Verwendung von ML entspricht.
Tim
Erwähnenswert ist auch, dass Sie, wenn Sie einen mathematisch "bequemen" Prior wünschen, einen konjugierten Prior verwenden können, falls einer für Ihre Situation existiert.
Bohne
8

Ein Bayesianer würde Ihnen zustimmen, ein Frequentist nicht. Dies ist eine Frage der Meinung, Perspektive und Philosophie. Ich denke, dass es der Statistikgemeinschaft sehr schadet, zu argumentieren, dass eine Methode immer besser ist als die andere. Viele Probleme werden Bayes'sche und frequentistische Lösungen haben, die ähnlich sind, solange der Bayes'sche keinen zu starken Prior hat.

jsk
quelle
7
Es ist nicht nur eine Ansichtssache. Es gibt bestimmte Situationen, in denen ein Schätzer besser ist als der andere.
Tom Minka
2
@ TomMinka Ich habe nie gesagt, dass es keine Situationen gibt, in denen eine Methode besser ist als die andere! Ich antwortete einfach auf die allgemeinen Aussagen des OP wie "MAP scheint vernünftiger zu sein." Eine solche Aussage entspricht einer Behauptung, dass Bayes'sche Methoden immer besser sind, was eine Aussage ist, mit der Sie und ich anscheinend beide nicht einverstanden sind.
Jsk
Witz ist richtig. Der Bayes'sche und der frequentistische Ansatz sind philosophisch unterschiedlich. Ein strenger Frequentist würde den Bayes'schen Ansatz daher inakzeptabel finden.
Michael R. Chernick
2

Vorausgesetzt, Sie haben genaue Vorinformationen, ist MAP besser, wenn das Problem eine Null-Eins-Verlustfunktion für die Schätzung aufweist. Wenn der Verlust nicht Null ist (und bei vielen Problemen in der realen Welt nicht), kann es vorkommen, dass der MLE einen geringeren erwarteten Verlust erzielt. In diesen Fällen ist es besser, sich nicht auf MAP und MLE als die einzigen beiden Optionen zu beschränken, da beide nicht optimal sind.

Tom Minka
quelle
Der MAP-Schätzer, wenn ein Parameter von der Parametrisierung abhängt, während der Verlust "0-1" dies nicht tut. 0-1 in Anführungszeichen, da nach meiner Berechnung alle Schätzer normalerweise einen Verlust von 1 mit der Wahrscheinlichkeit 1 ergeben und jeder Versuch, eine Näherung zu konstruieren, erneut das Parametrisierungsproblem einführt
Typ
1
Meiner Ansicht nach hängt der Null-Eins-Verlust von der Parametrisierung ab, sodass keine Inkonsistenz besteht.
Tom Minka
0

Kurze Antwort von @bean erklärt es sehr gut. Ich möchte jedoch auf den Abschnitt 1.1 des Papiers Gibbs Sampling für die Uneingeweihten von Resnik und Hardisty verweisen, der die Angelegenheit vertieft. Ich schreibe einige Zeilen aus diesem Artikel mit sehr geringfügigen Änderungen (Diese Antwort wiederholt einige Dinge, die OP der Vollständigkeit halber weiß).

MLE

Formal erzeugt MLE die Wahl (des Modellparameters), die am wahrscheinlichsten die beobachteten Daten erzeugt.

KARTE

Ein geschätzter MAP ist die Wahl, die angesichts der beobachteten Daten am wahrscheinlichsten ist. Im Gegensatz zu MLE wendet die MAP-Schätzung die Bayes-Regel an, sodass unsere Schätzung das Vorwissen darüber berücksichtigen kann, was wir von unseren Parametern in Form einer vorherigen Wahrscheinlichkeitsverteilung erwarten.

Fang

MLE- und MAP-Schätzungen geben uns beide die beste Schätzung gemäß ihrer jeweiligen Definition von "am besten". Beachten Sie jedoch, dass die Verwendung einer einzelnen Schätzung - ob MLE oder MAP - Informationen wegwirft. Im Prinzip kann der Parameter einen beliebigen Wert haben (aus der Domäne). Könnten wir nicht bessere Schätzungen erhalten, wenn wir die gesamte Verteilung berücksichtigen und nicht nur einen einzigen geschätzten Wert für den Parameter? Wenn wir das tun, nutzen wir alle Informationen über Parameter, die wir aus den beobachteten Daten X wringen können.

Mit diesem Haken möchten wir vielleicht keinen von ihnen verwenden. Auch, wie bereits von Bohnen und Tim erwähnt, wenn Sie zu haben , einer von ihnen zu verwenden, verwenden Sie MAP , wenn Sie bekam vor. Wenn Sie keine Prioritäten haben, reduziert sich MAP auf MLE. Conjugate Priors helfen, das Problem analytisch zu lösen, andernfalls verwenden Sie Gibbs Sampling.

Gaurav Singhal
quelle
-2

Wenn die Daten geringer sind und Sie Prioritäten zur Verfügung haben - "GO FOR MAP". Wenn Sie viele Daten haben, konvergiert der MAP zu MLE. Daher ist es bei vielen Datenszenarien immer besser, MLE als MAP auszuführen.

Heisenbug
quelle
So einfach ist das nicht.
Michael R. Chernick
@ MichaelChernick Ich könnte mich irren. Ich habe das in der Grundschule gelesen. Ich bitte Sie, mich zu korrigieren, wo ich falsch gelaufen bin.
Heisenbug
Der frequentistische Ansatz und der Bayes'sche Ansatz unterscheiden sich philosophisch. Der Frequenzansatz schätzt den Wert von Modellparametern basierend auf wiederholter Abtastung. Der Bayes'sche Ansatz behandelt den Parameter als Zufallsvariable. Beim Bayes'schen Ansatz leiten Sie also die posteriore Verteilung des Parameters ab, indem Sie eine vorherige Verteilung mit den Daten kombinieren. MAP sucht nach dem höchsten Peak der posterioren Verteilung, während MLE den Parameter schätzt, indem nur die Wahrscheinlichkeitsfunktion der Daten betrachtet wird.
Michael R. Chernick
@ MichaelChernick - Vielen Dank für Ihre Eingabe. Aber verhält sich MAP nicht wie ein MLE, wenn wir über ausreichende Daten verfügen? Wenn wir den MAP-Ausdruck brechen, erhalten wir auch einen MLE-Term. Bei großen Datenmengen übernimmt der MLE-Term im MAP den Prior.
Heisenbug
Dies hängt vom Stand und der Datenmenge ab. Sie können in großen Proben ähnliche Ergebnisse liefern. Der Unterschied liegt in der Interpretation. Mein Kommentar sollte zeigen, dass es nicht so einfach ist, wie Sie es machen. Bei einer kleinen Datenmenge geht es nicht nur darum, MAP auszuwählen, wenn Sie einen Prior haben. Ein schlecht gewählter Prior kann zu einer schlechten posterioren Verteilung und damit zu einem schlechten MAP führen.
Michael R. Chernick