Im ersten Kapitel des Buches Algebraische Geometrie und Statistische Lerntheorie, das sich mit der Konvergenz von Schätzungen in verschiedenen Funktionsräumen befasst, wird erwähnt, dass die Bayes'sche Schätzung der Schwartz-Verteilungstopologie entspricht, während die Maximum-Likelihood-Schätzung der Sup-Norm-Topologie entspricht (auf Seite 7):
Zum Beispiel Sup-Norm, -Norm, schwache Topologie des Hilbert-Raums , Schwartz-Verteilungstopologie und so weiter. Es hängt stark von der Topologie des Funktionsraums ab, ob die Konvergenz gilt oder nicht. Die Bayes-Schätzung entspricht der Schwartz-Verteilungstopologie, während die Maximum-Likelihood- oder eine Posteriori-Methode der Sup-Norm entspricht. Dieser Unterschied wirkt sich stark auf die Lernergebnisse in singulären Modellen aus.
Dabei sind und die empirische KL-Divergenz (Summation über Beobachtungen) und die wahre KL-Divergenz (Integral über die Datenverteilung) zwischen dem wahren Modell und einem parametrischen Modell (mit Parameter ).
Kann mir jemand eine Erklärung geben oder mir einen Hinweis geben, welche Stelle im Buch die Rechtfertigung hat? Vielen Dank.
Update : Copyright-Inhalte werden entfernt.
Antworten:
Um Watanabes Diskussion zu verstehen, ist es wichtig zu verstehen, was er mit "Singularität" meinte. Die (strenge) Singularität stimmt in seiner Theorie mit dem geometrischen Begriff der singulären Metrik überein.
In der Praxis tritt Singularität normalerweise auf, wenn die vom Modell induzierte Fisher-Informationsmetrik auf der vom Modell definierten Mannigfaltigkeit degeneriert ist, wie dies bei Fällen mit niedrigem Rang oder geringer Dichte beim "maschinellen Lernen" der Fall ist.
Also hier gehen Bayes'sche Schätzer und MLE auseinander. Wenn wir immer noch eine schwache Topologie verwenden, um die Konsistenz von Bayes'schen Schätzern zu diskutieren, ist dies bedeutungslos, da Bayes'sche Schätzer immer (mit der Wahrscheinlichkeit eins) von Doob konsistent sind. Eine geeignetere Topologie ist daher die Schwarz-Verteilungstopologie, die schwache Ableitungen zulässt, und von Mises Theorie kam ins Spiel. Barron hatte einen sehr guten technischen Bericht zu diesem Thema, wie wir den Satz von Schwartz verwenden könnten, um Konsistenz zu erhalten.
Das "singuläre Lernergebnis" wird beeinflusst, weil Doobs Konsistenzsatz, wie wir sehen, sicherstellt, dass Bayes'sche Schätzer in schwacher Topologie schwach konsistent sind (auch im singulären Modell), während MLE bestimmte Anforderungen in derselben Topologie erfüllen sollte.
Nur ein Wort, [Watanabe] ist nichts für Anfänger. Es hat einige tiefgreifende Auswirkungen auf reale analytische Mengen, die eine höhere mathematische Reife erfordern als die meisten Statistiker. Daher ist es wahrscheinlich keine gute Idee, sie ohne entsprechende Anleitung zu lesen.
[Watanabe] Watanabe, Sumio. Algebraische Geometrie und statistische Lerntheorie. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "Das Verhalten von Maximum-Likelihood-Schätzungen unter nicht standardisierten Bedingungen." Tagungsband des fünften Berkeley-Symposiums zu mathematischer Statistik und Wahrscheinlichkeit. Vol. 1. Nr. 1. 1967.
[Doob] Doob, Joseph L. "Anwendung der Theorie der Martingale." Le calcul des probabilites et ses applications (1949): 23-27.
quelle