Informationstheoretischer zentraler Grenzwertsatz

11

Die einfachste Form der informationstheoretischen CLT ist die folgende:

Sei iid mit Mittelwert und Varianz . Sei die Dichte der normalisierten Summe und die Standard-Gaußsche Dichte. Dann besagt die informationstheoretische CLT, dass wenn für einige n endlich ist , dann D (f_n \ | \ phi) \ bis 0 als n \ to \ infty .X1,X2,01fni=1nXinϕD(fnϕ)=fnlog(fn/ϕ)dxnD(fnϕ)0n

Sicherlich ist diese Konvergenz in gewissem Sinne "stärker" als die in der Literatur gut etablierten Konvergenzen, Konvergenz in der Verteilung und Konvergenz in L1 Metrik, dank Pinskers Ungleichung (|fnϕ|)22fnlog(fn/ϕ) . Das heißt, Konvergenz in der KL-Divergenz impliziert Konvergenz in der Verteilung und Konvergenz in der L1 Entfernung.

Ich möchte zwei Dinge wissen.

  1. Was ist so groß , über das Ergebnis D(fnϕ)0 ?

  2. Ist es nur , weil der Grund im dritten Absatz genannten wir sagen Konvergenz in KL-Divergenz ( dh , D(fnϕ)0 ) ist stärker?

NB: Ich habe diese Frage vor einiger Zeit in math.stackexchange gestellt, wo ich keine Antwort bekommen habe.

Ashok
quelle
Bitte geben Sie einen Link zur doppelten math.SE-Frage an.
Kardinal
6
Ihre Aussage scheint implizit die Existenz einer Dichte anzunehmen (in Bezug auf das Lebesgue-Maß). Sie könnten an diesem kurzen und entzückenden Artikel interessiert sein : AR Barron (1986), Entropy and the Central Limit Theorem Ann. Probab. Band 14, Nr. 1, 336 & ndash; 342. ( offener Zugang ).
Kardinal
2
Ich hatte mir das Papier schon angesehen. Er hat im zweiten Absatz von Seite 1 eine Motivation in der informationstheoretischen Perspektive gegeben. Das war mir damals nicht so klar. Jetzt sieht es ok aus. Dennoch, wenn man das Folgende klar erklären und als Antwort posten kann, wäre es großartig. "Aus der Informationstheorie ist die relative Entropie die kleinste Obergrenze für die Redundanz (überschüssige durchschnittliche Beschreibungslänge) des Shannon-Codes basierend auf der Normalverteilung bei der Beschreibung von Quantisierungen von Proben aus ." Ich habe diese Frage in math.SE gelöscht, da sie dort niemanden Dnfn
Ashok
@ Cardinal: tks für das schöne Papier.
Zen

Antworten:

5

Eine Sache, die bei diesem Satz großartig ist, ist, dass er Grenzwertsätze in einigen Einstellungen vorschlägt, in denen der übliche zentrale Grenzwertsatz nicht gilt. In Situationen, in denen die maximale Entropieverteilung eine nicht normale Verteilung ist, wie beispielsweise für Verteilungen auf dem Kreis, schlägt dies beispielsweise eine Konvergenz zu einer gleichmäßigen Verteilung vor.

kjetil b halvorsen
quelle
Ich verstehe nicht Wie ich bereits erwähnt habe, impliziert Konvergenz in der KL-Divergenz Konvergenz in der Verteilung, wissen Sie? Überall dort, wo informationstheoretische CLT angewendet wird, gilt auch die übliche CLT. Darüber hinaus geht die informationstheoretische CLT auch von einer endlichen Varianz aus. Oder fehlt mir etwas?
Ashok
2
Was ich damit gemeint habe ist, dass die Entropiemethode vorschlägt, wie hoch die Grenze in Situationen sein könnte, in denen die Grenze keine Normalverteilung ist. Die Grenze ist dann eine Verteilung, die die Entropie maximiert.
kjetil b halvorsen
3

Nachdem ich mich umgesehen hatte, konnte ich kein Beispiel für Konvergenz in der Verteilung ohne Konvergenz in der relativen Entropie finden, daher ist es schwierig, die "Größe" dieses Ergebnisses zu messen.

Für mich sieht es so aus, als würde dieses Ergebnis einfach die relative Entropie von Faltungsprodukten beschreiben. Es wird oft als alternativer Interpretations- und Beweisrahmen des zentralen Grenzwertsatzes angesehen, und ich bin nicht sicher, ob es eine direkte Auswirkung auf die Wahrscheinlichkeitstheorie hat (obwohl dies in der Informationstheorie der Fall ist).

Aus der Informationstheorie und dem zentralen Grenzwertsatz (Seite 19).

Der zweite Hauptsatz der Thermodynamik besagt, dass die thermodynamische Entropie immer mit der Zeit zunimmt, was eine Art Konvergenz zum Gibbs-Zustand impliziert. Energieeinsparung bedeutet, dass während dieser Zeitentwicklung konstant bleibt, sodass wir von Anfang an erkennen können, welcher Gibbs-Zustand die Grenze sein wird. Wir werden den zentralen Grenzwertsatz auf die gleiche Weise betrachten, indem wir zeigen, dass die informationstheoretische Entropie mit Faltungen auf ihr Maximum ansteigt, was eine Konvergenz zum Gaußschen impliziert. Eine angemessene Normalisierung bedeutet, dass die Varianz während der Windungen konstant bleibt, sodass wir von Anfang an erkennen können, welcher Gaußsche Wert die Grenze sein wird.E

gui11aume
quelle
2
Es gibt viele Beispiele für Konvergenz in der Verteilung ohne Konvergenz in der relativen Entropie - jedes Mal, wenn die eine diskrete Verteilung haben und die CLT gilt. Xi
Mark Meckes
1

D(fnϕ)0 sicher, dass es keinen "Abstand" zwischen der Verteilung der Summe der Zufallsvariablen und der Gaußschen Dichte als nur aufgrund der Definition der KL-Divergenz, also ist es der Beweis selbst. Vielleicht habe ich Ihre Frage falsch verstanden.n

Über den zweiten Punkt, den Sie festgelegt haben, wird in Ihrem Absatz geantwortet.

Ein anderer Benutzer
quelle
1
Die normale (Lindberg) CLT besagt, dass der Stichprobenmittelwert in der Verteilung zu einem normalen RV konvergiert. Das bedeutet, dass die CDF punktweise zu konvergiert . Es gibt einen subtilen messungstheoretischen Unterschied zwischen diesem und dem Ergebnis des OP, der sich in Ihrer Antwort hier nicht widerspiegelt. Φ
AdamO