Bitte erläutern Sie mir den Unterschied zwischen der Bayes'schen Schätzung und der maximalen Wahrscheinlichkeitsschätzung.
bayesian
maximum-likelihood
Triomphe
quelle
quelle
Antworten:
Es ist eine sehr breite Frage, und meine Antwort hier beginnt nur ein wenig, die Oberfläche zu zerkratzen. Ich werde die Bayes-Regel verwenden, um die Konzepte zu erklären.
Nehmen wir an, dass ein Satz von Wahrscheinlichkeitsverteilungsparametern, , den Datensatz besten erklärt . Möglicherweise möchten wir die Parameter mit Hilfe der Bayes-Regel schätzen :θ D θ
Die Erklärungen folgen:
Maximum-Likelihood-Schätzung
Mit MLE suchen wir einen Punktwert für der die Wahrscheinlichkeit maximiert , die in den obigen Gleichungen gezeigt ist. Wir können diesen Wert als . In MLE ist eine Punktschätzung, keine Zufallsvariable.θ p(D|θ) θ^ θ^
Mit anderen Worten, in der obigen Gleichung behandelt MLE den Term als eine Konstante und erlaubt es uns NICHT, unsere vorherigen Überzeugungen, , über die zu injizieren wahrscheinliche Werte für in den Schätzungsberechnungen.p(θ)p(D) p(θ) θ
Bayesianische Schätzung
Im Gegensatz dazu berechnet die Bayes'sche Schätzung die posteriore Verteilung vollständig (oder approximiert sie zuweilen . Die Bayes'sche Inferenz behandelt als zufällige Variable. Bei der Bayes'schen Schätzung geben wir eher Wahrscheinlichkeitsdichtefunktionen als einen einzelnen Punkt wie bei MLE ein und geben Wahrscheinlichkeitsdichtefunktionen aus.p(θ|D) θ
Es ist unsere Aufgabe, aus allen durch die Ausgabeverteilung möglichen -Werten einen Wert auszuwählen, den wir in gewisser Weise als am besten betrachten. Zum Beispiel können wir den erwarteten Wert von ; wählen, vorausgesetzt, seine Varianz ist klein genug. Die Varianz, die wir für den Parameter aus seiner posterioren Verteilung berechnen können, ermöglicht es uns, unser Vertrauen in einen bestimmten Wert auszudrücken, den wir als Schätzung verwenden können. Wenn die Varianz zu groß ist, können wir erklären, dass keine gute Schätzung für .θ p(θ|D) θ θ θ
Als Kompromiss wird die Bayes'sche Schätzung dadurch kompliziert, dass wir uns nun mit dem Nenner in der Bayes'schen Regel, dh den , befassen müssen . Hier wird der Beweis - oder die Wahrscheinlichkeit eines Beweises - dargestellt durch:evidence
Dies führt zu dem Konzept der "konjugierten Prioren" in der Bayes'schen Schätzung. Wenn wir für eine gegebene Wahrscheinlichkeitsfunktion die Wahl haben, wie wir unsere vorherigen Überzeugungen ausdrücken, müssen wir das Formular verwenden, mit dem wir die oben gezeigte Integration durchführen können. Die Idee von konjugierten Priors und wie sie praktisch umgesetzt werden, wird in diesem Beitrag von COOlSerdash recht gut erklärt.
quelle
Ich denke, Sie sprechen von Punktschätzung wie bei der parametrischen Inferenz, sodass wir ein parametrisches Wahrscheinlichkeitsmodell für einen Datengenerierungsmechanismus annehmen können, aber der tatsächliche Wert des Parameters ist unbekannt.
Die maximale Wahrscheinlichkeitsschätzung bezieht sich auf die Verwendung eines Wahrscheinlichkeitsmodells für Daten und die Optimierung der gemeinsamen Wahrscheinlichkeitsfunktion der beobachteten Daten über einen oder mehrere Parameter. Es ist daher ersichtlich, dass die geschätzten Parameter mit den beobachteten Daten im Verhältnis zu jedem anderen Parameter im Parameterraum am konsistentesten sind. Es ist zu beachten, dass solche Wahrscheinlichkeitsfunktionen nicht unbedingt als "bedingt" von den Parametern angesehen werden, da die Parameter keine Zufallsvariablen sind. Daher ist es etwas differenzierter, die Wahrscheinlichkeit verschiedener Ergebnisse beim Vergleich zweier verschiedener Parametrisierungen zu erfassen. Es stellt sich heraus, dass dies ein philosophisch fundierter Ansatz ist.
Die Bayes'sche Schätzung ist etwas allgemeiner, da wir das Bayes'sche Analogon der Wahrscheinlichkeit (die hintere Dichte) nicht unbedingt maximieren. Die analoge Art der Schätzung (oder Posterior-Mode-Schätzung) wird jedoch als Maximierung der Wahrscheinlichkeit des von den Daten abhängigen Posterior-Parameters angesehen. Normalerweise verhalten sich die so erhaltenen Schätzungen von Bayes fast genauso wie die von ML. Der Hauptunterschied besteht darin, dass Bayes-Inferenz eine explizite Methode zum Einbeziehen vorheriger Informationen ermöglicht.
Auch die epische Geschichte der maximalen Wahrscheinlichkeit sorgt für eine aufschlussreiche Lektüre
http://arxiv.org/pdf/0804.2996.pdf
quelle
Die Bayes'sche Schätzung ist die Bayes'sche Inferenz, während die MLE eine Art von frequentistischen Inferenzmethoden ist.
Gemäß der Bayes'schen Folgerung ist gilt, das ist . Beachten Sie, dass die Maximum-Likelihood-Schätzung das Verhältnis von Evidenz zu Prior als Konstante behandelt (wobei die vorherige Verteilung als gleichmäßige Verteilung festgelegt wird, beispielsweise beim Spielen eines Würfels), wobei die vorherigen Annahmen weggelassen werden, also MLE wird als häufigste Technik angesehen (und nicht als Bayes'sche). In diesem Szenario kann der Stand der Dinge nicht derselbe sein, da MLE bei ausreichender Stichprobengröße MAP beträgt (ausführliche Informationen hierzu finden Sie in dieser Antwort ). likelihood=posterior∗evidencef(x1,...,xn;θ)=f(θ;x1,...,xn)∗f(x1,...,xn)f(θ) p(θ)=1/6likelihood=posterior∗evidenceprior p(θ)=1/6
Die Alternative von MLE in der Bayes'schen Inferenz heißt Maximum A Posteriori Estimation (kurz MAP), und tatsächlich ist MLE ein Sonderfall von MAP, bei dem der Prior wie oben und in Wikipedia angegeben einheitlich ist :
Weitere Informationen finden Sie in diesem großartigen Artikel: MLE vs MAP: Die Verbindung zwischen Maximum Likelihood und Maximum A Posteriori Estimation .
Ein weiterer Unterschied ist, dass die maximale Wahrscheinlichkeit zu Überanpassungen neigt. Wenn Sie sich jedoch für den Bayes'schen Ansatz entscheiden, können Sie das Problem der Überanpassung vermeiden.
quelle