Ich habe kürzlich angefangen, über Maximum Likelihood Estimator und Bayes'sche Statistiken zu lesen. Ich verstehe, dass bei einem statistischen Modell , bei dem zu einem großen Parameterraum , die KL-Divergenz zwischen und ( die Wahrheit ist) Der Parameter, den wir finden möchten) wird für das minimiert, das maximiert . Unter der Annahme, dass die Ereignisse unabhängig und identisch verteilt sind, bedeutet dies eine Maximierung der gemeinsamen Wahrscheinlichkeit (Die Unabhängigkeitsannahme erlaubt es, dies mit dem Produkt der einzelnen Elemente gleichzusetzen.)
Der Bayes'sche Ansatz erklärt den vorherigen Glauben an die Verteilung von , und maximiert , was nach der Bayes-Regel der Maximierung von . Ich habe die Dinge bis zu diesem Teil verstanden. Danach wird das als "Wahrscheinlichkeit" bezeichnet und durch , das nur das Produkt der einzelnen Wahrscheinlichkeiten des ist X in der Verteilung . Bedeutet dies, dass tatsächlich , dh Wahrscheinlichkeiten gegeben, oder etwas ähnliches ?
Ich bin nicht sehr gut in Wahrscheinlichkeit und Verteilung, und ich verstehe, dass das Objekt als bedingte Wahrscheinlichkeit bezeichnet wird und das Objekt (das entspricht durch Unabhängigkeit) wird die gemeinsame Wahrscheinlichkeit genannt und es handelt sich um sehr unterschiedliche Dinge. Ich habe gesehen, dass Autoren in einigen Fällen für die gemeinsame Wahrscheinlichkeit mit maximaler Wahrscheinlichkeit verwenden. Ich bin verwirrt, warum die gemeinsame Wahrscheinlichkeit und die bedingte Wahrscheinlichkeit als gleich angesehen werden.
quelle
Ich werde in dieser Antwort eine vereinfachte Notation verwenden. Wenn Sie klassische Statistiken ist keine Zufallsvariable. Daher beschreibt die Notation ein Mitglied einer Familie von Wahrscheinlichkeitsfunktionen oder -dichten , wobei der Parameter ist Platz. In einer Bayes'schen Analyse ist eine Zufallsvariable und ist eine bedingte Wahrscheinlichkeitsfunktion oder -dichte, die Ihre Unsicherheit über für jeden möglichen Wert von modelliert . Nachdem Sie mit Ihrem Experiment fertig sind, besteht keine Unsicherheit mehr überθ p(x;θ) {pθ(x)}θ∈Θ Θ θ p(x∣θ) x θ x (es werden Daten / Informationen, die Sie kennen), und Sie betrachten als Funktion von für diese "festen" Daten . Diese Wahrscheinlichkeitsfunktion lebt im Schnittpunkt zwischen dem klassischen und dem Bayes'schen Inferenzstil. Meiner Meinung nach wird der Bayes'sche Weg im Hinblick auf die bedingte Unabhängigkeit besser verstanden . Ich schlage vor, dass Sie die Wahrscheinlichkeitsfunktion für das Bernoulli-Modell aufschreiben und untersuchen. grafisch darstellen; Denken Sie vor und nach dem Experiment über die Bedeutung nach. Sie haben erwähnt, dass ein Bayesianer das hintere maximiert.p(x∣θ)=Lx(θ) θ x Lx(θ) π(θ∣x) . Das ist nicht unbedingt der Fall. Es gibt andere Möglichkeiten, die posteriore Verteilung zusammenzufassen. Die gewählte Zusammenfassung hängt im Wesentlichen von der Einführung einer Verlustfunktion ab. Überprüfen Sie Roberts Bayesian Choice , um alle wichtigen Details zu erfahren.
quelle