Im Bayes'schen Theorem ist
Die Maximum-Likelihood-Schätzung versucht, zu maximieren , oder? Wenn ja, bin ich sehr verwirrt, weil beide Zufallsvariablen sind, oder? Zur Maximierung der ist, um herauszufinden , die y ? Ein weiteres Problem: Wenn diese beiden Zufallsvariablen unabhängig sind, ist p ( x | y ) nur p ( x ) , oder? Dann maximiere p ( x | y soll maximieren.
Oder vielleicht ist eine Funktion einiger Parameter , dh , und MLE versucht, das zu finden, das p ( x | y ) maximieren kann ? Oder sogar das y tatsächlich die Parameter des Modells ist, nicht Zufallsvariable, um die Wahrscheinlichkeit zu maximieren ist es, die finden y ?
AKTUALISIEREN
Ich bin ein Anfänger im maschinellen Lernen, und dieses Problem ist eine Verwirrung von dem, was ich aus einem Tutorial zum maschinellen Lernen gelesen habe. Hier ist es gegeben, ein beobachteter Datensatz sind die Zielwerte { y 1 , y 2 , . . . , y n } , und ich versuche, ein Modell über diesen Datensatz anzupassen, also gehe ich davon aus, dass bei gegebenem x , eine Form der Verteilung hat genannt W durch parametrisiert θ , das heißt , und ich nehme an, dass dies diehintere Wahrscheinlichkeit ist, richtig?
Um nun den Wert von zu schätzen , verwende ich MLE. OK, hier kommt mein Problem, ich denke die Wahrscheinlichkeit ist p ( x | y ; θ ) , oder? Das Maximieren der Wahrscheinlichkeit bedeutet, dass ich das richtige θ und y auswählen sollte ?
Wenn mein Verständnis der Wahrscheinlichkeit falsch ist, zeigen Sie mir bitte den richtigen Weg.
quelle
Antworten:
Ich denke, das Kernmissverständnis beruht auf Fragen, die Sie in der ersten Hälfte Ihrer Frage gestellt haben. Ich betrachte diese Antwort als kontrastierende MLE- und Bayes'sche Inferenzparadigmen. Eine sehr ansprechbare Diskussion über MLE findet sich in Kapitel 1 von Gary King, Unifying Political Methodology.Gelmans Bayes'sche Datenanalyse kann Details auf der Bayes'schen Seite liefern.
Die Wahrscheinlichkeit ist eine bedingte Wahrscheinlichkeit. Für einen Bayesianer beschreibt diese Formel die Verteilung des Parameters gegebenen Daten x und vor p ( y ) . Da diese Notation jedoch nicht Ihre Absicht widerspiegelt, werde ich fortan ( θ , y ) für Parameter und x verwendeny x p(y) θ y x für Ihre Daten verwenden.
Ihr Update zeigt jedoch an, dass von einer Verteilung p ( x | θ , y ) aus beobachtet wird . Wenn wir unsere Daten und Parameter an den entsprechenden Stellen in der Bayes-Regel platzieren, stellen wir fest, dass diese zusätzlichen Parameter für Bayesianer keine Probleme darstellen: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )x p(x|θ,y)
Ich glaube, dieser Ausdruck ist das, wonach Sie in Ihrem Update suchen.
Ja. MLE setzt voraus, dass Das heißt, es behandelt den Term p ( θ , y )
In wird angenommen , dass eine zu feste Menge , die unbekannt aber in der Lage ist zu entnehmen, nicht eine Zufallsvariable. Die Bayes'sche Inferenz behandelt θ als Zufallsvariable. Die Bayes'sche Inferenz setzt Wahrscheinlichkeitsdichtefunktionen ein und gibt Wahrscheinlichkeitsdichtefunktionen heraus , anstatt Punktzusammenfassungen des Modells wie in MLE. Das heißt, die Bayes'sche Inferenz betrachtet den gesamten Bereich der Parameterwerte und die Wahrscheinlichkeit von jedem. MLE postuliert , dass θ eine adäquate Zusammenfassung der Daten ist das Modell gegeben.θ^ θ θ^
quelle
Normalerweise ist eine Funktion des Parameters y . Betrachten Sie die folgende Neuformulierung des Bayes-Theorems:p(x|y) y
Oder noch expliziter (in Bezug auf den Begriff der Wahrscheinlichkeit):
For a concrete example, consider the model
quelle
If they are independent, i.e.p(x|y)=p(x) , the p(x) is constant with respect to y . Be careful here, as you don't specify what you are maximising with respect to - from what you wrote earlier, I would assume you are maximising with respect to y .
Introducingθ makes this an entirely new problem. In general, the answer to most of this question here seems to be 'it depends'. We could denote parameters as y if we wanted, and maximise with respect to them. Equally, we could have a situation where we maximise p(x|y;θ) with respect to parameters θ if that was a sensible way of approaching the problem at hand.
quelle
From STAN reference manual:
quelle