Asymptotische Verteilung von Multinomial

10

Ich suche nach der begrenzten Verteilung der multinomialen Verteilung über d Ergebnisse. IE, die Verteilung der folgenden

limnn12Xn

Wobei Xn eine Vektorwert-Zufallsvariable mit der Dichte fn(x) für x so dass ixi=n , xiZ,xi0 und 0 für alle anderen x , wobei

fn(x)=n!i=1dpixixi!

Ich habe eine Form in Larry Wassermans "All of Statistics" -Satz 14.6, Seite 237 gefunden, aber um die Verteilung einzuschränken, gibt es Normal mit einer singulären Kovarianzmatrix, daher bin ich mir nicht sicher, wie ich das normalisieren soll. Sie könnten den Zufallsvektor in den (d-1) -dimensionalen Raum projizieren, um die Kovarianzmatrix auf den vollen Rang zu bringen, aber welche Projektion soll verwendet werden?

Update 11/5

Ray Koopman hat eine schöne Zusammenfassung des Problems des singulären Gaußschen. Grundsätzlich stellt die singuläre Kovarianzmatrix eine perfekte Korrelation zwischen Variablen dar, die mit einem Gaußschen nicht dargestellt werden kann. Man könnte jedoch eine Gaußsche Verteilung für die bedingte Dichte erhalten, abhängig von der Tatsache, dass der Wert des Zufallsvektors gültig ist (Komponenten addieren sich im obigen Fall zu n ).

Der Unterschied für den bedingten Gaußschen Wert besteht darin, dass das Inverse durch das Pseudo-Inverse ersetzt wird und der Normalisierungsfaktor "Produkt von Nicht-Null-Eigenwerten" anstelle von "Produkt aller Eigenwerte" verwendet. Ian Frisce gibt einen Link mit einigen Details.

Es gibt auch eine Möglichkeit, den Normalisierungsfaktor des bedingten Gaußschen Ausdrucks auszudrücken, ohne auf Eigenwerte Bezug zu nehmen. Hier ist eine Ableitung

Jaroslaw Bulatow
quelle
Was genau meinen Sie mit Begrenzung der Verteilung in diesem Fall?
Robby McKilliam
dh die, die Sie vom zentralen Grenzwertsatz erhalten, lassen Sie mich Details aktualisieren
Jaroslaw Bulatow
1
Sie beziehen sich auf die asymptotische Verteilung des Maximum-Likelihood-Schätzers eines Multinomials. Außerdem sollte die erste Gleichung n ^ {- 1} sein, nicht n ^ {- 1/2}.
Simon Byrne
1
In der obigen Notation ist für d = 2 X_n die Anzahl der Köpfe nach n Münzwürfen, also nähert sich X_n / sqrt (n) Normal, nicht X_n / n, nein?
Jaroslaw Bulatow
1
Ja, du hast Recht. Ich habe mich nur verwirrt.
Simon Byrne

Antworten:

6

Die Kovarianz ist immer noch nicht negativ bestimmt (ebenso wie eine gültige multivariate Normalverteilung ), aber nicht positiv bestimmt: Dies bedeutet, dass (mindestens) ein Element des Zufallsvektors eine lineare Kombination der anderen ist.

Infolgedessen liegt jede Ziehung aus dieser Verteilung immer auf einem Unterraum von . Infolgedessen bedeutet dies, dass es nicht möglich ist, eine Dichtefunktion zu definieren (da sich die Verteilung auf den Unterraum konzentriert: Denken Sie daran, wie sich eine univariate Normalen auf den Mittelwert konzentriert, wenn die Varianz Null ist).Rd

Wie von Robby McKilliam vorgeschlagen, können Sie in diesem Fall jedoch das letzte Element des Zufallsvektors löschen. Die Kovarianzmatrix dieses reduzierten Vektors ist die ursprüngliche Matrix, wobei die letzte Spalte und Zeile gelöscht wird, die jetzt positiv bestimmt ist und eine Dichte aufweist (dieser Trick funktioniert in anderen Fällen, aber Sie müssen vorsichtig sein, welches Element Sie fallen, und Sie müssen möglicherweise mehr als eine fallen lassen).

Simon Byrne
quelle
Was ein bisschen unbefriedigend ist, ist die Wahlfreiheit. Um eine gültige Dichte zu erhalten, muss ich nach der Verteilung von A x fragen, wobei A eine d-1-Rang (d) x (d-1) -Matrix ist. Wird der Fehler der CLT-Näherung für endliches n für alle Auswahlmöglichkeiten von A äquivalent sein? Das ist mir nicht klar
Jaroslaw Bulatow
1
Ja, der Fehler sollte immer der gleiche sein. Beachten Sie, dass das letzte Element des Vektors funktional von den anderen (d-1) Elementen abhängt (sowohl in der endlichen Stichprobe als auch in asymptotischen Fällen).
Simon Byrne
Es ist nicht so, dass das "letzte" Element abhängig ist, Jaroslavs Problem ist, dass er die Idee nicht mag, zu entscheiden, welches Element fallen gelassen werden soll. Ich stimme der Antwort zu, die Sie gegeben haben, aber ich denke auch, dass hier etwas mehr Nachdenken und Sorgfalt erforderlich sind.
Robby McKilliam
@ Jaroslaw: Vielleicht wäre es gut, eine Vorstellung davon zu haben, welche Anwendung Sie hier im Sinn haben, da es zu diesem Zeitpunkt möglicherweise viele Antworten auf Ihre Frage gibt.
Robby McKilliam
1
Robby - Anwendung, an die ich gedacht hatte, ist hier mathoverflow.net/questions/37582/… Grundsätzlich ergeben von CLT vorgeschlagene Gaußsche Integrale eine extrem gute Annäherung an Summen von Binomialkoeffizienten (für kleines n sogar besser als die direkte Integration der Gamma-Darstellung!). Also habe ich gesehen, ob ich etwas Ähnliches tun kann, um ungefähre Summen multinomialer Koeffizienten zu erhalten, die ich brauche, um nicht asymptotische Fehlergrenzen für verschiedene Monteure (wie maximale Wahrscheinlichkeit) zu erhalten
Yaroslav Bulatov
2

Es gibt hier kein inhärentes Problem mit der singulären Kovarianz. Ihre asymptotische Verteilung ist die singuläre Normalität. Siehe http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html, das die Dichte der singulären Normalen angibt.

Ian Fiske
quelle
Technisch gesehen besteht das Problem darin, dass eine singuläre Kovarianzmatrix bedeutet, dass eine Teilmenge von Variablen perfekt korreliert ist, sodass die Wahrscheinlichkeitsdichte in einigen Bereichen genau 0 sein sollte, was mit einem Gaußschen jedoch nicht möglich ist. Eine Lösung besteht darin, stattdessen die bedingte Dichte zu betrachten, die von der Tatsache abhängig ist, dass die Zufallsvariable in einem realisierbaren Bereich liegt. Dies sieht so aus, wie sie es im Link tun. Noch nie den Begriff "G-invers" gehört, ich vermute, es ist Penrose-Moore pseudo-invers?
Jaroslaw Bulatow
Während es wahr ist, dass ein herkömmlicher d-dimensionaler Gaußscher auf allen Unterstützung hat , tut dies der singuläre Gaußsche nicht. G-Inverse ist verallgemeinert invers, und ja, ich glaube, dass die Penrose-Moore-Definition hier funktioniert. Ich denke, dass es eine CLT für singuläre Kovarianzen gibt, die erwartungsgemäß die Konvergenz der Verteilung zur singulären CLT angibt, obwohl ich momentan keine Referenz finden kann. d
Ian Fiske
1

Es sieht für mich so aus, als ob Wassermans Kovarianzmatrix singulär ist, um zu sehen, multiplizieren Sie sie mit einem Vektor von Einsen, dh der Länge .d[1,1,1,,1]d

Wikipedia gibt sowieso die gleiche Kovarianzmatrix an. Wenn wir uns nur auf eine Binomialverteilung beschränken, sagt uns der Standardsatz der zentralen Grenze, dass die Binomialverteilung (nach entsprechender Skalierung) gegen die Normalität konvergiert, wenn groß wird (siehe Wikipedia erneut ). Wenn Sie ähnliche Ideen anwenden, sollten Sie in der Lage sein zu zeigen, dass ein entsprechend skaliertes Mulinom in seiner Verteilung zur multivariaten Normalen konvergiert, dh jede Randverteilung ist nur ein Binomial und konvergiert zur Normalverteilung, und die Varianz zwischen ihnen ist bekannt.n

Ich bin also sehr zuversichtlich, dass Sie feststellen werden, dass die Verteilung von zur multivariaten Normalen mit dem Mittelwert Null und der Kovarianz wobei die Kovarianz ist Die Matrix des fraglichen Multinoms und ist der Vektor der Wahrscheinlichkeiten .

Xnnpn
Cn
Cp[p1,,pd]
Robby McKilliam
quelle
1
Aber die Kovarianzmatrix des fraglichen Multinoms ist singulär, Sie haben es selbst gezeigt ...
Jaroslaw Bulatow
Oh, ich sehe dein Problem! Eines der Elemente, sagen wir, das te ist vollständig von den anderen abhängig. Wenn Sie die letzte Zeile und Spalte von abhacken, werden Sie wahrscheinlich feststellen , dass die normal verteilt sind, aber ich muss darüber nachdenken. Sicher ist das irgendwo schon gelöst! dC[p1,p2,,pd1]
Robby McKilliam
Ein Vorschlag, den ich gefunden habe, ist, immer noch einen Gaußschen zu verwenden, aber pseudo-invers anstelle von invers und "Produkt von Nicht-Null-Eigenwerten" anstelle von Determinante zu verwenden. Für d = 2 scheint dies die richtige Dichteform zu ergeben, aber der Normalisierungsfaktor ist ausgeschaltet
Yaroslav Bulatov
1

Ist es nicht so, dassfür alle wo ist die multinomiale Kovarianzmatrix mit der ten Zeile und Spalte entfernt? Da dies der Fall ist, verstehe ich nicht, was Sie unter "Wahlfreiheit" verstehen, da jede "Wahl" gleichwertig ist.i , j S - i i|Si|=|Sj|i,jSii

jvdillon
quelle
Diese Matrizen sind nicht gleich, hier ist die Kovarianzmatrix yaroslavvb.com/upload/multinomial-covariance-matrix.png
Yaroslav Bulatov
Ja, dies ist in der Tat die Kovarianzmatrix. Das Löschen einer i-ten Spalte und Zeile führt zu demselben Normalisierungsterm für den Gaußschen Wert. Vielleicht fehlt mir etwas Offensichtliches?
Jvdillon
Ah ... habe das bestimmende Zeichen nicht bemerkt. Hm ... bei einigen Beispielen, die ich ausprobiert habe, scheinen sie gleich zu sein. Gibt es einen einfachen Beweis dafür? Eigenwerte sind jedoch nicht gleich. Die Motivation für die Frage war herauszufinden, ob der zentrale Grenzwertsatz den gleichen Approximationsfehler für endliches liefert, unabhängig davon, welcher multinomiale Abstand vorliegt . Komponente, die Sie fallen lassenn
Jaroslaw Bulatow
Der wahrscheinlich einfachste Weg, sich selbst zu überzeugen, ist, dass und das für in einstecken . p i S.pi=1jipjpiS
Jvdillon
Übrigens, ich mag Ihre Anwendung dieser Idee - daher mein Interesse an einer Antwort.
Jvdillon