Maximum-Likelihood-Schätzer der gemeinsamen Verteilung bei nur marginalen Zählungen

12

Sei px,y eine gemeinsame Verteilung zweier kategorialer Variablen X,Y mit x,y{1,,K} . Angenommen, es wurden n Stichproben aus dieser Verteilung gezogen, aber wir erhalten nur die Grenzwerte, nämlich für j=1,,K :

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

Was ist der Maximum-Likelihood-Schätzer für px,y bei Sj,Tj ? Ist das bekannt? Rechnerisch machbar? Gibt es andere sinnvolle Ansätze für dieses Problem als ML?

RS
quelle
2
Die Ränder enthalten keine Informationen * über die gemeinsame Verteilung (in der Tat ist dies der Punkt der Copulas). * oder zumindest kaum - offensichtlich enthalten die Ränder zumindest einige Informationen, da die Anzahl der Innenbereiche die Ränder, in denen sie auftreten, nicht überschreiten kann. Haben Sie eine bestimmte gemeinsame Verteilung im Auge? Warum hast du das maximum-entropyTag benutzt? Sind Sie auf der Suche nach einer Lösung mit maximaler Entropie?
Glen_b
Copulas kenne ich nicht sehr gut. Gilt das auch für den kategorischen Fall? Was würde das bedeuten - dass jede gemeinsame Verteilung mit den gleichen Margen die gleiche Wahrscheinlichkeit hätte? (Ich habe Maximum-Entropy markiert, weil ich dachte, dass es relevant sein könnte.)
RS
Wir haben noch nicht einmal ein bestimmtes Verteilungsmodell, daher sind wir nicht wirklich in der Lage, zu berechnen . Hier gibt es zahlreiche Möglichkeiten. Es gibt Copulas für den geordneten kategorialen Fall (wenn nicht eindeutig), aber mein Ziel bei der Erhöhung war es, eine Motivation dafür zu geben, warum Marginals im Allgemeinen nicht sehr informativ waren. In Bezug auf den Fall der kategorialen Zählung behandelte Fisher die Ränder als nicht aussagekräftig für die Verbindung, woraus der genaue Fisher-Irwin-Test resultierte. Wenn Sie maximale Entropie wünschen, können Sie wahrscheinlich eine maximale Entropielösung erhalten, aber ich weiß nicht, dass es sehr informativ sein wird über ...P(x|θ)
Glen_b
(ctd) ... Struktur. Ich denke, in ME- oder ML-Fällen brauchen Sie zuerst eine Art Modell, sei es bivariate multinomiale, bivariate hypergeometrische oder etwas mit mehr Struktur. Sehen Sie diese Frage , in der der Autor einen Verweis in eine Antwort setzt. Das kann hilfreich sein.
Glen_b -Reinstate Monica
1
Ich meinte eine allgemeine bivariate multinomiale Verteilung. Die Frage bezieht sich auf den Fall, in dem die Verteilungssummen angegeben sind und wir Beispiele aus der gemeinsamen Verteilung sehen. Hier haben wir die Summen der Probe. Ich denke, das Problem ist im ML-Fall gut definiert (die Lösung mag nicht eindeutig sein, aber ich weiß es nicht).
RS

Antworten:

4

Diese Art von Problem wurde in der Arbeit "Data Augmentation in Mehrwege-Kontingenztabellen mit festen Randwerten" von Dobra et al. (2006) untersucht. Lassen der Parameter des Modells bezeichnen, lassen n die unbeobachtet integer Tabelle von Zählungen für jedes bezeichnen ( x , y ) Paar, und lassen C ( S , T ) die Menge von ganzzahligen Tabellen , deren Rand Zählungen gleich ( S , T ) . Dann zählt die Wahrscheinlichkeit der Einhaltung der Grenzwerteθn(x,y)C(S,T)(S,T) : p ((S,T) wobei p ( n | θ ) die multinomiale Abtastverteilung ist. Dies definiert die Wahrscheinlichkeitsfunktion für ML, eine direkte Bewertung ist jedoch mit Ausnahme kleiner Probleme nicht möglich. Der empfohlene Ansatz ist MCMC, bei dem Sie abwechselnd n und θ aktualisieren

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)nθdurch Auswahl aus einer Angebotsverteilung und Akzeptieren der Änderung gemäß der Metropolis-Hastings-Akzeptanzquote. Dies könnte angepasst werden, um mit Monte Carlo EM ein ungefähres Maximum über zu finden . θ

Ein anderer Ansatz würde Variationsmethoden verwenden, um die Summe über zu approximieren . Die Randbedingungen können als ein Faktorgraph codiert werden und eine Inferenz über & thgr ; könnte unter Verwendung von Expectation Propagation durchgeführt werden.nθ

Um zu sehen, warum dieses Problem schwierig ist und keine triviale Lösung zulässt, betrachten Sie den Fall . Ausgehend von S als Zeilensummen und T als Spaltensummen gibt es zwei mögliche Zähltabellen: [ 0 1 2 0 ]S=(1,2),T=(2,1)ST Daher ist die Wahrscheinlichkeitsfunktion p(S,T | & thgr;)=3 p 12 p 2 21 +6 p 11 p 21 p 22 Das MLE für dieses Problem ist , p x , y = [ 0 1 / 3 2 / 3 0 ]

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
was der Annahme der Tabelle auf der linken Seite entspricht. Im Gegensatz dazu ist die Schätzung, die Sie erhalten würden, wenn Sie Unabhängigkeit annehmen, , die hat einen kleineren Wahrscheinlichkeitswert.
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
Tom Minka
quelle
Ist es nicht möglich, eine analytische Lösung zu erhalten?
Ben Kuhn
θθ={θx,y}(x,y)
Ich würde nicht vermuten, dass es eine analytische Lösung gibt. Ich habe ein Beispiel hinzugefügt, um dies zu veranschaulichen.
Tom Minka
Vielen Dank. Vielleicht ist es asymptotisch wahr? Dann ist die Konditionierung der Margin-Summen dieselbe wie die Konditionierung der Margin-Verteilungen (nach der Normalisierung), und die Log-Wahrscheinlichkeit für jede nicht beobachtete Integer-Tabelle ist proportional zu ihrer Entropie. Vielleicht etwas mit AEP dann?
RS
1

Wie von @Glen_b gezeigt wurde, ist dies nicht ausreichend spezifiziert. Ich glaube nicht, dass Sie die maximale Wahrscheinlichkeit verwenden können, es sei denn, Sie können die Wahrscheinlichkeit vollständig angeben.

Wenn Sie bereit wären, Unabhängigkeit anzunehmen, ist das Problem recht einfach (ich denke übrigens, die Lösung wäre die maximale Entropielösung, die vorgeschlagen wurde). Wenn Sie nicht bereit oder in der Lage sind, Ihrem Problem eine zusätzliche Struktur aufzuerlegen, und dennoch eine Annäherung an die Werte der Zellen wünschen, können Sie möglicherweise die Fréchet-Hoeffding-Copula-Grenzen verwenden . Ohne zusätzliche Annahmen glaube ich nicht, dass Sie noch weiter gehen können.

F. Tusell
quelle
Die Wahrscheinlichkeit in dieser Dose wäre multinomial. Warum ist das nicht ausreichend?
RS
Wie ich es verstehe, ist die Wahrscheinlichkeit eine Funktion der Parameter, die den Daten gegeben werden. Hier haben Sie nicht für jede Zelle Werte, sondern nur die Randwerte. Sie haben daher keine einzige Funktion der Parameter, die Sie berechnen oder gar maximieren können. Im Allgemeinen gibt es viele mit den Rändern kompatible Zellenkonfigurationen, die jeweils unterschiedliche Wahrscheinlichkeiten ergeben.
F. Tusell
1
Ja, aber das ist in Ordnung. Die Parameter sindp, die Daten sind die Ränder. Ich kann immer noch die Wahrscheinlichkeit der angegebenen Ränder berechnenp- Es ist die Summe aller Wahrscheinlichkeiten von Zellkonfigurationen, die die Marginals ergeben. Das ist eine einzelne Funktion, die ich maximieren kann.
RS
1

Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts given px,y is only a function of the marginal probabilities px=ypx,y and py=xpx,y. I'm still thinking about it.

Wrong stuff follows:

As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator for px,y is that it's not unique. For instance, consider the case with binary X,Y and marginals S1=S2=T1=T2=10. The two estimators

p=(120012),p=(14141414)

have the same marginal probabilities px and py in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).


Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Let p=(abcd) be a maximum-likelihood solution. Without loss of generality suppose 0<ad. Then p=(0b+ac+ada) has the same marginals and is thus also a maximum-likelihood solution.


If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in which X,Y are independent. You can see this as follows:

The entropy of the distribution is H(p)=x,ypx,ylogpx,y; maximizing subject to xpx,y=py and ypx,y=px (equivalently, g(p)=0 where gx(p)=ypx,ypx and gy(p)=xpx,ypy) using Lagrange multipliers gives the equation:

H(p)=kXYλkgk(p)

All the gradients of each gk are 1, so coordinate-wise this works out to

1logpx,y=λx+λypx,y=e1λxλy

plus the original constraints xpx,y=py and ypx,y=px. You can verify that this is satisfied when e1/2λx=px and e1/2λy=py, giving

px,y=pxpy.
Ben Kuhn
quelle
For the first example: What is given is the marginal counts, not the marginal probabilities. In the case you've described, the probability of S1=S2=T1=T2=10 for the left p is the probability of [[10,0],[0,10]] which is 220. For the right p, it is 0a10Pr[[a,10a],[10a,a]], which is 10420. Even if there is no unique solution, it doesn't mean we can't point to some solution. Maximum entropy gives a unique solution, but it might not be maximum likelihood.
R S
You've calculated the probabilities incorrectly; for instance, you forgot to include the binomial coefficients. But you're right in that the two matrices give different joint distributions of marginal counts even though they give the same marginal distribution of marginal counts. (Yikes!) I'll think about this more.
Ben Kuhn