Betrachten Sie einen Trainingsdatensatz , ein durch parametrisiertes Wahrscheinlichkeitsmodell und ein vorheriges P (\ theta) . Für einen neuen Datenpunkt x ^ * können wir P (x ^ *) berechnen mit:
- ein vollständig bayesianischer Ansatz: die posteriore Vorhersageverteilung
- die Wahrscheinlichkeit, die durch die maximale a posteriori- Schätzung parametrisiert wird : , wobei
Ist der vollständig bayesianische Ansatz immer "besser" als der MAP-Ansatz? Genauer gesagt, ist der MAP-Ansatz eine Annäherung an den Bayes'schen Ansatz in dem Sinne, dass wir hoffen, dass eine gute Annäherung an ?
bayesian
maximum-likelihood
posterior
üblich ich
quelle
quelle
Antworten:
Ich denke oft so. Im vollständig Bayes'schen Ansatz finden wir das Integral
als Integration über alle möglichen Modelle (tatsächlich unendlich viele), und wir machen eine Vorhersage unter Berücksichtigung all dieser Modelle "in Betracht". Da dies oft nicht möglich ist, verwenden wir die MAP-Schätzung des hinteren , die der Auswertung des gleichen Integrals entspricht, diesmal jedoch unter Verwendung eines unendlich kleinen Teils von , und zwar maximal . Mit anderen Worten, wir multiplizieren mit einer neuen "Delta-Verteilung", die sich am Maximum der posterioren Verteilung befindet, und integrieren diese, um die Vorhersage zu erhalten.p(θ|X) p(θ|X) p(x∗|θ)
Der Unterschied liegt daher auf der Hand: Eine vollständig Bayes'sche Behandlung entspricht einem unendlichen Ensemble von Modellen, wobei eine gegebene Vorhersage mit der Modellwahrscheinlichkeit gewichtet wird , dh wahrscheinlichere Modelle tragen mehr zur Vorhersage bei. Die MAP-Schätzung der Parameter gibt Ihnen die Vorhersage aus einem bestimmten Modell, nämlich dem wahrscheinlichsten nach dem Bayes-Theorem. Die Ensemble-Theorie zeigt uns, dass wir oft eine bessere Verallgemeinerung und genauere Vorhersagen erhalten und dies daher oft "besser" ist als der MAP.p(x|x,θ) p(θ|x)
Hoffe das hilft.
quelle
Unter der Annahme, dass Ihr Modell korrekt angegeben ist, liefert die Vorhersageverteilung eine Schätzung des neuen Datenpunkts, die alle Unsicherheiten im unbekannten Parameter berücksichtigt . Bei der zweiten Methode, bei der Sie lediglich eine Parametersubstitution mit Ihrem Schätzer verwenden, behandeln Sie diese effektiv als perfekten Schätzer des unbekannten Parameters, sodass die resultierende "prädiktive" Verteilung die Unsicherheit des unbekannten Parameters nicht berücksichtigt . Aus diesem Grund weist die letztere Verteilung tendenziell eine geringere Variabilität auf als die erstere. Wenn Ihr Modell korrekt angegeben ist, bedeutet dies, dass die Variabilität des neuen Datenpunkts unterschätzt wird. Ja, die prädiktive Verteilung wird allgemein als "besser" angesehen.θ θ
Diese Art des Vergleichs gilt übrigens nicht nur für die Bayes'sche Statistik. Diese Methoden, die Sie vergleichen, sind den analogen Methoden in der frequentistischen Methodik sehr ähnlich, bei denen eine zentrale Größe verwendet werden kann, um ein geeignetes Konfidenzintervall für einen neuen Datenpunkt zu erhalten (analog zu einem Bayes'schen Vorhersageintervall), oder man kann sie lediglich ersetzen die MLE als wäre es ein bekannter Parameterwert und erhält ein Intervall für einen neuen Datenpunkt aus der Stichprobenverteilung (analog zur Bayes'schen Parametersubstitutionsmethode).
quelle