Warum sollten wir das Konvergenzverhalten verschiedener Schätzer in verschiedenen Topologien diskutieren?

14

Im ersten Kapitel des Buches Algebraische Geometrie und Statistische Lerntheorie, das sich mit der Konvergenz von Schätzungen in verschiedenen Funktionsräumen befasst, wird erwähnt, dass die Bayes'sche Schätzung der Schwartz-Verteilungstopologie entspricht, während die Maximum-Likelihood-Schätzung der Sup-Norm-Topologie entspricht (auf Seite 7):

Zum Beispiel Sup-Norm, Lp -Norm, schwache Topologie des Hilbert-Raums , Schwartz-Verteilungstopologie und so weiter. Es hängt stark von der Topologie des Funktionsraums ab, ob die Konvergenz gilt oder nicht. Die Bayes-Schätzung entspricht der Schwartz-Verteilungstopologie, während die Maximum-Likelihood- oder eine Posteriori-Methode der Sup-Norm entspricht. Dieser Unterschied wirkt sich stark auf die Lernergebnisse in singulären Modellen aus.L2Kn(w)K(w)

Dabei sind und die empirische KL-Divergenz (Summation über Beobachtungen) und die wahre KL-Divergenz (Integral über die Datenverteilung) zwischen dem wahren Modell und einem parametrischen Modell (mit Parameter ).Kn(w)K(w)w

Kann mir jemand eine Erklärung geben oder mir einen Hinweis geben, welche Stelle im Buch die Rechtfertigung hat? Vielen Dank.

Update : Copyright-Inhalte werden entfernt.

Ziyuang
quelle
Was sind K und Kn ?
Taylor
@ Taylor Ich habe einige notwendige Informationen hinzugefügt.
Ziyuang
Ich werde Ihre Frage später beantworten, ich kenne Watanabes Buch relativ gut. Trotzdem mag ich es nicht, wie Sie ein Buch zitieren. Wenn Sie Abschnitte direkt hier einfügen, kann dies zu potenziellen Urheberrechtsproblemen führen. Die Verwendung von Seitenzahlen und die Eingabe von Zitaten mit dem entsprechenden Lätzchen ist die bessere Wahl.
Henry.L
@ Henry.L Danke, und der Copyright-Inhalt wird entfernt.
Ziyuang
@Henry: Während ich glaube, dass es wertvoll ist, vorsichtig und gewissenhaft Teile von urheberrechtlich geschützten Werken zu reproduzieren, denke ich, dass Ziyuang in diesem Fall absolut nichts zu befürchten hat. Die Verwendung kleiner Auszüge aus dem OP für wissenschaftliche Kritik fällt sehr genau unter die (US-) Doktrin der "fairen Verwendung". In der Tat kann die exakte Reproduktion manchmal von besonderem Wert sein, da dadurch alle Unklarheiten beseitigt werden, die durch eine Neuformulierung des Inhalts entstehen könnten. (Alles, was gesagt wurde, IANAL.)
Kardinal

Antworten:

2

Um Watanabes Diskussion zu verstehen, ist es wichtig zu verstehen, was er mit "Singularität" meinte. Die (strenge) Singularität stimmt in seiner Theorie mit dem geometrischen Begriff der singulären Metrik überein.

S. 10 [Watanabe]: "Ein statistisches Modell wird als regulär bezeichnet, wenn es identifizierbar ist und eine positiv definierte Metrik aufweist. Wenn ein statistisches Modell nicht regulär ist, wird es als streng singulär bezeichnet."p(xw)

In der Praxis tritt Singularität normalerweise auf, wenn die vom Modell induzierte Fisher-Informationsmetrik auf der vom Modell definierten Mannigfaltigkeit degeneriert ist, wie dies bei Fällen mit niedrigem Rang oder geringer Dichte beim "maschinellen Lernen" der Fall ist.

ρ(θ,δ(X))=logp(Xθ)M(X)XD(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Also hier gehen Bayes'sche Schätzer und MLE auseinander. Wenn wir immer noch eine schwache Topologie verwenden, um die Konsistenz von Bayes'schen Schätzern zu diskutieren, ist dies bedeutungslos, da Bayes'sche Schätzer immer (mit der Wahrscheinlichkeit eins) von Doob konsistent sind. Eine geeignetere Topologie ist daher die Schwarz-Verteilungstopologie, die schwache Ableitungen zulässt, und von Mises Theorie kam ins Spiel. Barron hatte einen sehr guten technischen Bericht zu diesem Thema, wie wir den Satz von Schwartz verwenden könnten, um Konsistenz zu erhalten.

D

Das "singuläre Lernergebnis" wird beeinflusst, weil Doobs Konsistenzsatz, wie wir sehen, sicherstellt, dass Bayes'sche Schätzer in schwacher Topologie schwach konsistent sind (auch im singulären Modell), während MLE bestimmte Anforderungen in derselben Topologie erfüllen sollte.

Nur ein Wort, [Watanabe] ist nichts für Anfänger. Es hat einige tiefgreifende Auswirkungen auf reale analytische Mengen, die eine höhere mathematische Reife erfordern als die meisten Statistiker. Daher ist es wahrscheinlich keine gute Idee, sie ohne entsprechende Anleitung zu lesen.

[Watanabe] Watanabe, Sumio. Algebraische Geometrie und statistische Lerntheorie. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "Das Verhalten von Maximum-Likelihood-Schätzungen unter nicht standardisierten Bedingungen." Tagungsband des fünften Berkeley-Symposiums zu mathematischer Statistik und Wahrscheinlichkeit. Vol. 1. Nr. 1. 1967.

[Doob] Doob, Joseph L. "Anwendung der Theorie der Martingale." Le calcul des probabilites et ses applications (1949): 23-27.

Henry.L
quelle
Ich versuche, einen Teil der Antwort zu verstehen, also korrigiere mich, wenn ich falsch liege. Der Bayes-Schätzer ist konsistent, wenn wir ihn als Punktschätzer (MAP, anstatt als Wahrscheinlichkeitsverteilung) betrachten. Es erfordert weniger Bedingungen für seine Konsistenz als MLE intuitiv, da es zuvor als Regularisierung fungiert. Andererseits ist die Schwartz-Verteilungstopologie geeigneter, wenn wir den Bayes-Schätzer als eine Verteilung betrachten. Sie hilft auch dabei, eine engere Beziehung zwischen der Konsistenz von MLE und dem Bayes-Schätzer herzustellen, sodass der Fall, in dem einer divergiert und der andere konvergiert, nicht eintritt .
Ziyuang
Entschuldigung, aber ich glaube nicht, dass Ihre Erklärung richtig ist. Der Prior fungiert als Regularisierung, dies steuert jedoch nicht notwendigerweise die Konvergenzrate. Eigentlich flache Priors verlangsamen die Konvergenz. Es sind einfach zwei verschiedene Topologien.
Henry.L