Vergleich der Maximum-Likelihood-Schätzung (MLE) und des Bayes-Theorems

12

Im Bayes'schen Theorem ist

p(y|x)=p(x|y)p(y)p(x)
, und aus dem Buch, das ich lese, heißtp(x|y)dieWahrscheinlichkeit, aber ich nehme an, es ist nur diebedingte Wahrscheinlichkeitvonxbeiy, oder?

Die Maximum-Likelihood-Schätzung versucht, zu maximieren p(x|y), oder? Wenn ja, bin ich sehr verwirrt, weil x,y beide Zufallsvariablen sind, oder? Zur Maximierung der p(x|y) ist, um herauszufinden , die y ? Ein weiteres Problem: Wenn diese beiden Zufallsvariablen unabhängig sind, ist p ( x | y ) nur p ( x ) , oder? Dann maximiere p ( x | yy^p(x|y)p(x)p(x|y) soll maximierenp(x).

Oder vielleicht ist p(x|y) eine Funktion einiger Parameter θ , dh p(x|y;θ) , und MLE versucht, das zu finden, das p ( x | y )θ maximieren kann ? Oder sogar das yp(x|y)y tatsächlich die Parameter des Modells ist, nicht Zufallsvariable, um die Wahrscheinlichkeit zu maximieren ist es, die finden y ?y^

AKTUALISIEREN

Ich bin ein Anfänger im maschinellen Lernen, und dieses Problem ist eine Verwirrung von dem, was ich aus einem Tutorial zum maschinellen Lernen gelesen habe. Hier ist es gegeben, ein beobachteter Datensatz sind die Zielwerte { y 1 , y 2 , . . . , y n } , und ich versuche, ein Modell über diesen Datensatz anzupassen, also gehe ich davon aus, dass bei gegebenem x{x1,x2,...,xn}{y1,y2,...,yn}x , eine Form der Verteilung hat genannt W durch parametrisiert θ , das heißtyWθ , und ich nehme an, dass dies diehintere Wahrscheinlichkeit ist, richtig?p(y|x;θ)

Um nun den Wert von zu schätzen , verwende ich MLE. OK, hier kommt mein Problem, ich denke die Wahrscheinlichkeit ist p ( x | y ; θ ) , oder? Das Maximieren der Wahrscheinlichkeit bedeutet, dass ich das richtige θ und y auswählen sollte ?θp(x|y;θ)θy

Wenn mein Verständnis der Wahrscheinlichkeit falsch ist, zeigen Sie mir bitte den richtigen Weg.

Avocado
quelle
Ich denke, die Verwirrung ist folgende: Der Satz von Bayes ist nur die Manipulation der bedingten Wahrscheinlichkeiten, wie Sie sie zu Beginn Ihrer Frage angeben. Die Bayes'sche Schätzung verwendet den Bayes'schen Satz, um Parameterschätzungen vorzunehmen. Nur in letzterem Fall kommen die Maximum-Likelihood-Schätzung (MLE) und der Parameter Theta usw. ins Spiel.
Zhubarb
@Berkan, nun, ich versuche tatsächlich herauszufinden, wie hoch die Wahrscheinlichkeit ist, wenn . x,y,θ
Avocado
1
Ich verstehe, ich würde Ihnen empfehlen, sich diese großartigen einführenden Vorlesungsfolien zur Parameterschätzung anzusehen .
Zhubarb
1
Ein weiteres großartiges Thema sind die Schätzer von Empirical Bayes. Wir haben gerade von denen in meiner Klasse erfahren
bdeonovic

Antworten:

16

Ich denke, das Kernmissverständnis beruht auf Fragen, die Sie in der ersten Hälfte Ihrer Frage gestellt haben. Ich betrachte diese Antwort als kontrastierende MLE- und Bayes'sche Inferenzparadigmen. Eine sehr ansprechbare Diskussion über MLE findet sich in Kapitel 1 von Gary King, Unifying Political Methodology.Gelmans Bayes'sche Datenanalyse kann Details auf der Bayes'schen Seite liefern.

Im Bayes'schen Theorem ist und aus dem Buch, das ich lese, wirdp(x|y)die Wahrscheinlichkeit genannt, aber ich nehme an, es ist nur die bedingte Wahrscheinlichkeit vonx beigegebenemy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy , oder?

Die Wahrscheinlichkeit ist eine bedingte Wahrscheinlichkeit. Für einen Bayesianer beschreibt diese Formel die Verteilung des Parameters gegebenen Daten x und vor p ( y ) . Da diese Notation jedoch nicht Ihre Absicht widerspiegelt, werde ich fortan ( θ , y ) für Parameter und x verwendenyxp(y)θyx für Ihre Daten verwenden.

Ihr Update zeigt jedoch an, dass von einer Verteilung p ( x | θ , y ) aus beobachtet wird . Wenn wir unsere Daten und Parameter an den entsprechenden Stellen in der Bayes-Regel platzieren, stellen wir fest, dass diese zusätzlichen Parameter für Bayesianer keine Probleme darstellen: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Ich glaube, dieser Ausdruck ist das, wonach Sie in Ihrem Update suchen.

Die Maximum-Likelihood-Schätzung versucht, zu maximieren , oder?p(x,y|θ)

Ja. MLE setzt voraus, dass Das heißt, es behandelt den Term p ( θ , y )

p(x,y|θ)p(θ|x,y)
als unbekannte (und nicht erkennbare) Konstante. Im Gegensatz dazu behandelt die Bayes'sche Inferenzp(x)als Normalisierungskonstante (so dass sich die Wahrscheinlichkeiten zu einer Einheit summieren / integrieren) undp(θ,y)als Schlüsselinformation: den Prior. Wir können unsp(θ,y)als einen Weg vorstellen, eine Strafe für das Optimierungsverfahren für "zu weit weg von der Region zu wandern" zu verhängen, die wir für am plausibelsten halten.p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Wenn ja, bin ich sehr verwirrt, weil Zufallsvariablen sind, oder? Zur Maximierung der p ( x , y | θ ) ist, um herauszufinden , die θ ?x,y,θp(x,y|θ)θ^

In wird angenommen , dass eine zu feste Menge , die unbekannt aber in der Lage ist zu entnehmen, nicht eine Zufallsvariable. Die Bayes'sche Inferenz behandelt θ als Zufallsvariable. Die Bayes'sche Inferenz setzt Wahrscheinlichkeitsdichtefunktionen ein und gibt Wahrscheinlichkeitsdichtefunktionen heraus , anstatt Punktzusammenfassungen des Modells wie in MLE. Das heißt, die Bayes'sche Inferenz betrachtet den gesamten Bereich der Parameterwerte und die Wahrscheinlichkeit von jedem. MLE postuliert , dass θ eine adäquate Zusammenfassung der Daten ist das Modell gegeben.θ^θθ^

Sycorax sagt Reinstate Monica
quelle
1
Vielen Dank für Ihre Antwort, ich aktualisiere meinen Beitrag, siehe mein Update.
Avocado
Dieses Update hat mein Verständnis der Frage radikal verändert. Anfangs dachte ich, Sie betrachten als Parameter und x als Ihre Daten. Nun scheint es, dass ( x , y ) Daten sind und Sie daran interessiert sind, ein Modell zu erstellen, das die Beziehung zwischen x und y beschreibt . Ich werde meine Antwort ändern, sobald ich Zeit habe. yx(x,y)xy
Sycorax sagt Reinstate Monica
+1 Dies ist immer noch eine gute Antwort: Ich hoffe, Sie behalten es weitgehend bei, auch wenn Sie es an die Änderungen in der Frage anpassen.
whuber
Ich habe meine Antwort aktualisiert, um Ihre aktualisierte Frage widerzuspiegeln. Ich hoffe diese Details helfen. Ich empfehle wirklich, auf die Referenzen zu verweisen, die ich erwähne. Und ich hoffe @whuber stimmt noch zu. ;-)
Sycorax sagt Reinstate Monica
Vielen Dank für das Update. Sie meinen also, obwohl ich eine Verteilungsform für aufgreife, sollte ich x , y beide als beobachtete Daten behandeln, wenn ich versuche, θ zu schätzen . p(y|x)x,yθ
Avocado
3

Normalerweise ist eine Funktion des Parameters y . Betrachten Sie die folgende Neuformulierung des Bayes-Theorems:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Oder noch expliziter (in Bezug auf den Begriff der Wahrscheinlichkeit):

p(θ|x)=L(θ;x)p(θ)p(x)

For a concrete example, consider the model

X|θBinomial(θ)θBeta(α,β)
David Marx
quelle
So, typically y is not the random variable but x, right?
avocado
Y is usually a parameter on the pdf of X. In a frequentist setting y is normally a fixed value. In a Bayesian setting, Y is itself a random variable (as in the example I gave). X|Y can also be a conditional probability in the sense you mean, I was trying to give you the motivation behind why that quantity is called the likelihood.
David Marx
With respect to the concrete example given in your answer, do you mean θ is actually a random variable, but in X's distribution, it's taken as a parameter?
avocado
Just because something is a random variable doesn't mean it can't be a parameter. Welcome to the wonderful world of bayesian probability :)
David Marx
0
  • "...p(x|y) is called the likelihood..."

p(x|y) is the likelihood of y given x. Saying what it is the likelihood of is important. And yes, it is just the conditional probability of x given y.

  • "...if these 2 random variables are independent, then p(x|y) is just p(x), right? Then maximizing p(x|y) is to maximize p(x)..."

If they are independent, i.e. p(x|y)=p(x), the p(x) is constant with respect to y. Be careful here, as you don't specify what you are maximising with respect to - from what you wrote earlier, I would assume you are maximising with respect to y.

  • ...Or maybe, p(x|y) is a function of some parameters θ, that is p(x|y;θ), and MLE tries to find the θ which can maximize p(x|y)? Or even that y is actually the parameters of the model, not random variable, maximizing the likelihood is to find the y^?...

Introducing θ makes this an entirely new problem. In general, the answer to most of this question here seems to be 'it depends'. We could denote parameters as y if we wanted, and maximise with respect to them. Equally, we could have a situation where we maximise p(x|y;θ) with respect to parameters θ if that was a sensible way of approaching the problem at hand.

Pat
quelle
The reason why I introduce θ is this, in the machine learning book I'm reading, given a dataset x, and y is the corresponding target value, so to fit a model to this dataset, I can use MLE to estimate θ which is the parameter of the model, right?
avocado
0

From STAN reference manual:

If the prior is uniform, the posterior mode corresponds to the maximum likelihood estimate (MLE) of the parameters. If the prior is not uniform, the posterior mode is sometimes called the maximum a posterior (MAP) estimate.

Neerav
quelle