Was ist der Unterschied zwischen der Bayes'schen Schätzung und der maximalen Wahrscheinlichkeitsschätzung?

50

Bitte erläutern Sie mir den Unterschied zwischen der Bayes'schen Schätzung und der maximalen Wahrscheinlichkeitsschätzung.

Triomphe
quelle
7
Hängt von der Art der Bayes'schen Schätzung ab. KARTE? Hintere Mitte? Das Ergebnis der Minimierung des Bayes-Risikos für eine Verlustfunktion? Jedes der oben genannten? Etwas anderes?
Glen_b
2
Ich habe diese oder eine analoge Frage hier beantwortet. stats.stackexchange.com/questions/73439/… Welche Probleme haben Sie, um die beiden zu verstehen? Weitere Details helfen uns, eine bessere Antwort zu geben.
Setzen Sie Monica
1
Aus dem STAN-Referenzhandbuch: "Wenn der Prior einheitlich ist, entspricht der Posterior-Modus der Maximum-Likelihood-Schätzung (MLE) der Parameter. Wenn der Prior nicht einheitlich ist, wird der Posterior-Modus manchmal als Maximum-A-Posterior-Schätzung (MAP) bezeichnet. "
Neerav
@Neerav das ist die Antwort, die ich brauchte. thx
javadba
Eine möglicherweise nützliche Antwort für den speziellen Fall der Bayes'schen Maximum-a-posteriori-Schätzung wird hier gegeben .
28.03.18 Uhr

Antworten:

68

Es ist eine sehr breite Frage, und meine Antwort hier beginnt nur ein wenig, die Oberfläche zu zerkratzen. Ich werde die Bayes-Regel verwenden, um die Konzepte zu erklären.

Nehmen wir an, dass ein Satz von Wahrscheinlichkeitsverteilungsparametern, , den Datensatz besten erklärt . Möglicherweise möchten wir die Parameter mit Hilfe der Bayes-Regel schätzen :θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Die Erklärungen folgen:

Maximum-Likelihood-Schätzung

Mit MLE suchen wir einen Punktwert für der die Wahrscheinlichkeit maximiert , die in den obigen Gleichungen gezeigt ist. Wir können diesen Wert als . In MLE ist eine Punktschätzung, keine Zufallsvariable.θp(D|θ)θ^θ^

Mit anderen Worten, in der obigen Gleichung behandelt MLE den Term als eine Konstante und erlaubt es uns NICHT, unsere vorherigen Überzeugungen, , über die zu injizieren wahrscheinliche Werte für in den Schätzungsberechnungen.p(θ)p(D)p(θ)θ

Bayesianische Schätzung

Im Gegensatz dazu berechnet die Bayes'sche Schätzung die posteriore Verteilung vollständig (oder approximiert sie zuweilen . Die Bayes'sche Inferenz behandelt als zufällige Variable. Bei der Bayes'schen Schätzung geben wir eher Wahrscheinlichkeitsdichtefunktionen als einen einzelnen Punkt wie bei MLE ein und geben Wahrscheinlichkeitsdichtefunktionen aus.p(θ|D)θ

Es ist unsere Aufgabe, aus allen durch die Ausgabeverteilung möglichen -Werten einen Wert auszuwählen, den wir in gewisser Weise als am besten betrachten. Zum Beispiel können wir den erwarteten Wert von ; wählen, vorausgesetzt, seine Varianz ist klein genug. Die Varianz, die wir für den Parameter aus seiner posterioren Verteilung berechnen können, ermöglicht es uns, unser Vertrauen in einen bestimmten Wert auszudrücken, den wir als Schätzung verwenden können. Wenn die Varianz zu groß ist, können wir erklären, dass keine gute Schätzung für .θp(θ|D)θθθ

Als Kompromiss wird die Bayes'sche Schätzung dadurch kompliziert, dass wir uns nun mit dem Nenner in der Bayes'schen Regel, dh den , befassen müssen . Hier wird der Beweis - oder die Wahrscheinlichkeit eines Beweises - dargestellt durch:evidence

p(D)=θp(D|θ)p(θ)dθ

Dies führt zu dem Konzept der "konjugierten Prioren" in der Bayes'schen Schätzung. Wenn wir für eine gegebene Wahrscheinlichkeitsfunktion die Wahl haben, wie wir unsere vorherigen Überzeugungen ausdrücken, müssen wir das Formular verwenden, mit dem wir die oben gezeigte Integration durchführen können. Die Idee von konjugierten Priors und wie sie praktisch umgesetzt werden, wird in diesem Beitrag von COOlSerdash recht gut erklärt.

Zhubarb
quelle
1
Würden Sie das näher erläutern? : "der Nenner in der Bayes-Regel, dh Beweise."
Daniel
1
Ich habe meine Antwort erweitert.
Zhubarb
@Berkan in der Gleichung hier ist P (D | Theta) Wahrscheinlichkeit. Die Wahrscheinlichkeitsfunktion ist jedoch definiert als P (Theta | D), dh die Funktion des Parameters bei gegebenen Daten. Darüber bin ich immer verwirrt. Der Begriff Wahrscheinlichkeit bezieht sich hier auf verschiedene Dinge? Könnten Sie das näher erläutern? Danke vielmals!
Zesla
1
@zesla Wenn ich das richtig verstehe, ist P (Theta | D) nicht die Wahrscheinlichkeit - es ist der hintere Teil. Das heißt, die Verteilung von Theta hängt von der Datenquelle ab, von der Sie Samples haben. Wahrscheinlichkeit ist, wie Sie sagten: P (D | Theta) - die Verteilung Ihrer Daten, wie sie von Theta parametrisiert werden, oder, vielleicht intuitiver ausgedrückt, die „Wahrscheinlichkeit, das zu sehen, was Sie sehen“ als Funktion von Theta. Ist das sinnvoll? Alle anderen: Bitte korrigieren Sie mich, wo ich falsch liege.
Grisaitis
@zesla, die Erklärung von Grisaitis ist richtig.
Zhubarb
13

Ich denke, Sie sprechen von Punktschätzung wie bei der parametrischen Inferenz, sodass wir ein parametrisches Wahrscheinlichkeitsmodell für einen Datengenerierungsmechanismus annehmen können, aber der tatsächliche Wert des Parameters ist unbekannt.

Die maximale Wahrscheinlichkeitsschätzung bezieht sich auf die Verwendung eines Wahrscheinlichkeitsmodells für Daten und die Optimierung der gemeinsamen Wahrscheinlichkeitsfunktion der beobachteten Daten über einen oder mehrere Parameter. Es ist daher ersichtlich, dass die geschätzten Parameter mit den beobachteten Daten im Verhältnis zu jedem anderen Parameter im Parameterraum am konsistentesten sind. Es ist zu beachten, dass solche Wahrscheinlichkeitsfunktionen nicht unbedingt als "bedingt" von den Parametern angesehen werden, da die Parameter keine Zufallsvariablen sind. Daher ist es etwas differenzierter, die Wahrscheinlichkeit verschiedener Ergebnisse beim Vergleich zweier verschiedener Parametrisierungen zu erfassen. Es stellt sich heraus, dass dies ein philosophisch fundierter Ansatz ist.

Die Bayes'sche Schätzung ist etwas allgemeiner, da wir das Bayes'sche Analogon der Wahrscheinlichkeit (die hintere Dichte) nicht unbedingt maximieren. Die analoge Art der Schätzung (oder Posterior-Mode-Schätzung) wird jedoch als Maximierung der Wahrscheinlichkeit des von den Daten abhängigen Posterior-Parameters angesehen. Normalerweise verhalten sich die so erhaltenen Schätzungen von Bayes fast genauso wie die von ML. Der Hauptunterschied besteht darin, dass Bayes-Inferenz eine explizite Methode zum Einbeziehen vorheriger Informationen ermöglicht.

Auch die epische Geschichte der maximalen Wahrscheinlichkeit sorgt für eine aufschlussreiche Lektüre

http://arxiv.org/pdf/0804.2996.pdf

AdamO
quelle
Würden Sie das näher erläutern? Die analoge Art der Schätzung (oder Posterior-Mode-Schätzung) wird jedoch als Maximierung der Wahrscheinlichkeit des von den Daten abhängigen Posterior-Parameters angesehen.
Daniel
Der hintere Modus ist etwas falsch, da bei kontinuierlichen DFs der Wert genau definiert ist. Die posterioren Dichten beziehen sich auf die Wahrscheinlichkeit im häufig auftretenden Fall, mit der Ausnahme, dass Sie Parameter aus der posterioren Dichte simulieren können. Interessanterweise stellt man sich den "hinteren Mittelwert" am intuitivsten als die beste Punktschätzung des Parameters vor. Dieser Ansatz wird häufig angewendet, und für symmetrische unimodale Dichten führt dies zu gültigen glaubwürdigen Intervallen, die mit ML konsistent sind. Der hintere Modus ist nur der Parameterwert am Scheitelpunkt der hinteren Dichte.
AdamO
Über "Dies erzeugt gültige glaubwürdige Intervalle, die mit ML übereinstimmen.": Es kommt wirklich auf das Modell an, oder? Sie könnten konsistent sein oder nicht ...
Daniel
1
Das Problem der zugrunde liegenden parametrischen Annahmen motiviert zu einer Diskussion über vollständig parametrische vs. semiparametrische oder nichtparametrische Inferenz. Das ist kein ML-gegen-Bayes-Problem, und Sie sind nicht der erste, der diesen Fehler begeht. ML ist ein vollständig parametrischer Ansatz, mit dem Sie einige Dinge abschätzen können, die SP oder NP nicht können (und oft effizienter, wenn sie können). Die korrekte Angabe des Wahrscheinlichkeitsmodells in ML entspricht genau der Auswahl des richtigen Prioritätswerts und aller damit verbundenen Robustheitseigenschaften (und Empfindlichkeitsprobleme).
AdamO
Übrigens, Ihre Kommentare haben diese Frage in meinem Kopf angefacht. Irgendwelche Kommentare dazu? stats.stackexchange.com/questions/74164/…
Daniel
2

Die Bayes'sche Schätzung ist die Bayes'sche Inferenz, während die MLE eine Art von frequentistischen Inferenzmethoden ist.

Gemäß der Bayes'schen Folgerung ist gilt, das ist . Beachten Sie, dass die Maximum-Likelihood-Schätzung das Verhältnis von Evidenz zu Prior als Konstante behandelt (wobei die vorherige Verteilung als gleichmäßige Verteilung festgelegt wird, beispielsweise beim Spielen eines Würfels), wobei die vorherigen Annahmen weggelassen werden, also MLE wird als häufigste Technik angesehen (und nicht als Bayes'sche). In diesem Szenario kann der Stand der Dinge nicht derselbe sein, da MLE bei ausreichender Stichprobengröße MAP beträgt (ausführliche Informationen hierzu finden Sie in dieser Antwort ). likelihood=posteriorevidencef(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ) p(θ)=1/6likelihood=posteriorevidencepriorp(θ)=1/6

Die Alternative von MLE in der Bayes'schen Inferenz heißt Maximum A Posteriori Estimation (kurz MAP), und tatsächlich ist MLE ein Sonderfall von MAP, bei dem der Prior wie oben und in Wikipedia angegeben einheitlich ist :

Unter dem Gesichtspunkt der Bayes'schen Inferenz ist MLE ein Sonderfall der Maximum-A-posteriori-Schätzung (MAP), der eine gleichmäßige vorherige Verteilung der Parameter voraussetzt.

Weitere Informationen finden Sie in diesem großartigen Artikel: MLE vs MAP: Die Verbindung zwischen Maximum Likelihood und Maximum A Posteriori Estimation .

Ein weiterer Unterschied ist, dass die maximale Wahrscheinlichkeit zu Überanpassungen neigt. Wenn Sie sich jedoch für den Bayes'schen Ansatz entscheiden, können Sie das Problem der Überanpassung vermeiden.

Lerner Zhang
quelle
1
Eines der coolen Dinge an Bayes ist, dass Sie nicht verpflichtet sind, überhaupt eine Punktschätzung zu berechnen. Die gesamte hintere Dichte kann Ihre "Schätzung" sein.
Frank Harrell
@FrankHarrell Sehr geehrter Herr Prof. Harrell, können Sie mir bitte helfen, die Antwort zu bearbeiten, wenn ich irgendwo schreckliche Fehler gemacht habe? Vielen Dank!
Lerner Zhang
1
Ich wollte nicht implizieren, dass du einen Fehler gemacht hast.
Frank Harrell
@Lerner: Ich möchte davor warnen, die Maximum-Likelihood-Schätzung als einen bestimmten Fall der Maximum-a-posteriori-Schätzung zu identifizieren (wenn der Prior konstant ist): Sehen Sie in dieser Antwort nach, warum .
pglpm