Maximum-Likelihood-Schätzer der gemeinsamen Verteilung bei nur marginalen Zählungen

Sei $p_{x,y}$ eine gemeinsame Verteilung zweier kategorialer Variablen $X,Y$ mit $x,y\in\{1,\ldots,K\}$ . Angenommen, es wurden $n$ Stichproben aus dieser Verteilung gezogen, aber wir erhalten nur die Grenzwerte, nämlich für $j=1,\ldots,K$ :

S_{j} = \sum_{i = 1}^{n} δ (X_{i} = l), T_{j} = \sum_{i = 1}^{n} δ (Y_{i} = j),

$S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)},$

Was ist der Maximum-Likelihood-Schätzer für $p_{x,y}$ bei $S_j,T_j$ ? Ist das bekannt? Rechnerisch machbar? Gibt es andere sinnvolle Ansätze für dieses Problem als ML?

categorical-data maximum-likelihood joint-distribution marginal maximum-entropy RS
quelle

Die Ränder enthalten keine Informationen * über die gemeinsame Verteilung (in der Tat ist dies der Punkt der Copulas).

$\:$ * oder zumindest kaum - offensichtlich enthalten die Ränder zumindest einige Informationen, da die Anzahl der Innenbereiche die Ränder, in denen sie auftreten, nicht überschreiten kann. Haben Sie eine bestimmte gemeinsame Verteilung im Auge? Warum hast du das maximum-entropyTag benutzt? Sind Sie auf der Suche nach einer Lösung mit maximaler Entropie?

Glen_b

Copulas kenne ich nicht sehr gut. Gilt das auch für den kategorischen Fall? Was würde das bedeuten - dass jede gemeinsame Verteilung mit den gleichen Margen die gleiche Wahrscheinlichkeit hätte? (Ich habe Maximum-Entropy markiert, weil ich dachte, dass es relevant sein könnte.)

Wir haben noch nicht einmal ein bestimmtes Verteilungsmodell, daher sind wir nicht wirklich in der Lage,

zu berechnen . Hier gibt es zahlreiche Möglichkeiten. Es gibt Copulas für den geordneten kategorialen Fall (wenn nicht eindeutig), aber mein Ziel bei der Erhöhung war es, eine Motivation dafür zu geben, warum Marginals im Allgemeinen nicht sehr informativ waren. In Bezug auf den Fall der kategorialen Zählung behandelte Fisher die Ränder als nicht aussagekräftig für die Verbindung, woraus der genaue Fisher-Irwin-Test resultierte. Wenn Sie maximale Entropie wünschen, können Sie wahrscheinlich eine maximale Entropielösung erhalten, aber ich weiß nicht, dass es sehr informativ sein wird über ...

P (x | θ)

$P(x|\theta)$

Glen_b

(ctd) ... Struktur. Ich denke, in ME- oder ML-Fällen brauchen Sie zuerst eine Art Modell, sei es bivariate multinomiale, bivariate hypergeometrische oder etwas mit mehr Struktur. Sehen Sie diese Frage , in der der Autor einen Verweis in eine Antwort setzt. Das kann hilfreich sein.

Glen_b -Reinstate Monica

Ich meinte eine allgemeine bivariate multinomiale Verteilung. Die Frage bezieht sich auf den Fall, in dem die Verteilungssummen angegeben sind und wir Beispiele aus der gemeinsamen Verteilung sehen. Hier haben wir die Summen der Probe. Ich denke, das Problem ist im ML-Fall gut definiert (die Lösung mag nicht eindeutig sein, aber ich weiß es nicht).

Antworten:

Diese Art von Problem wurde in der Arbeit "Data Augmentation in Mehrwege-Kontingenztabellen mit festen Randwerten" von Dobra et al. (2006) untersucht. Lassen der Parameter des Modells bezeichnen, lassen die unbeobachtet integer Tabelle von Zählungen für jedes bezeichnen Paar, und lassen die Menge von ganzzahligen Tabellen , deren Rand Zählungen gleich . Dann zählt die Wahrscheinlichkeit der Einhaltung der Grenzwerte $\theta$ $\mathbf{n}$ $(x,y)$ $C(S,T)$ $(S,T)$ : $(S,T)$ wobei die multinomiale Abtastverteilung ist. Dies definiert die Wahrscheinlichkeitsfunktion für ML, eine direkte Bewertung ist jedoch mit Ausnahme kleiner Probleme nicht möglich. Der empfohlene Ansatz ist MCMC, bei dem Sie abwechselnd und aktualisieren

p (S, T | θ) = \sum_{n \in C (S, T)} p (n | θ)

$p(S,T | \theta) = \sum_{\mathbf{n} \in C(S,T)} p(\mathbf{n} | \theta)$

p (n | θ)

$p(\mathbf{n} | \theta)$

n

$\mathbf{n}$

θ

$\theta$ durch Auswahl aus einer Angebotsverteilung und Akzeptieren der Änderung gemäß der Metropolis-Hastings-Akzeptanzquote. Dies könnte angepasst werden, um mit Monte Carlo EM ein ungefähres Maximum über

zu finden .

θ

$\theta$

Ein anderer Ansatz würde Variationsmethoden verwenden, um die Summe über zu approximieren . Die Randbedingungen können als ein Faktorgraph codiert werden und eine Inferenz über & thgr könnte unter Verwendung von Expectation Propagation durchgeführt werden. $\mathbf{n}$ $\theta$

Um zu sehen, warum dieses Problem schwierig ist und keine triviale Lösung zulässt, betrachten Sie den Fall . Ausgehend von als Zeilensummen und als Spaltensummen gibt es zwei mögliche Zähltabellen: $S=(1,2), T=(2,1)$ $S$ $T$ Daher ist die Wahrscheinlichkeitsfunktion Das MLE für dieses Problem ist

[\begin{matrix} 0 & 1 \\ 2 & 0 \end{matrix}] [\begin{matrix} 1 & 0 \\ 1 & 1 \end{matrix}]

$\begin{bmatrix} 0 & 1 \\ 2 & 0 \end{bmatrix} \qquad \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}$

p (S, T | θ) = 3 p_{12} p_{21}^{2} + 6 p_{11} p_{21} p_{22}

$p(S,T|\theta) = 3 p_{12} p_{21}^2 + 6 p_{11} p_{21} p_{22}$

{\hat{p}}_{x, y} = [\begin{matrix} 0 & 1 / 3 \\ 2 / 3 & 0 \end{matrix}]

$\hat{p}_{x,y} = \begin{bmatrix} 0 & 1/3 \\ 2/3 & 0 \end{bmatrix}$ was der Annahme der Tabelle auf der linken Seite entspricht. Im Gegensatz dazu ist die Schätzung, die Sie erhalten würden, wenn Sie Unabhängigkeit annehmen,

, die hat einen kleineren Wahrscheinlichkeitswert.

q_{x, y} = [\begin{matrix} 1 / 3 \\ 2 / 3 \end{matrix}] [\begin{matrix} 2 / 3 & 1 / 3 \end{matrix}] = [\begin{matrix} 2 / 9 & 1 / 9 \\ 4 / 9 & 2 / 9 \end{matrix}]

$q_{x,y} = \begin{bmatrix} 1/3 \\ 2/3 \end{bmatrix} \begin{bmatrix} 2/3 & 1/3 \end{bmatrix} = \begin{bmatrix} 2/9 & 1/9 \\ 4/9 & 2/9 \end{bmatrix}$

Tom Minka
quelle

Ist es nicht möglich, eine analytische Lösung zu erhalten?

Ben Kuhn

θ

$\theta$

θ = {θ_{x, y}}

$\theta=\{\theta_{x,y}\}$

(x, y)

$(x,y)$

Ich würde nicht vermuten, dass es eine analytische Lösung gibt. Ich habe ein Beispiel hinzugefügt, um dies zu veranschaulichen.

Tom Minka

Vielen Dank. Vielleicht ist es asymptotisch wahr? Dann ist die Konditionierung der Margin-Summen dieselbe wie die Konditionierung der Margin-Verteilungen (nach der Normalisierung), und die Log-Wahrscheinlichkeit für jede nicht beobachtete Integer-Tabelle ist proportional zu ihrer Entropie. Vielleicht etwas mit AEP dann?

Wie von @Glen_b gezeigt wurde, ist dies nicht ausreichend spezifiziert. Ich glaube nicht, dass Sie die maximale Wahrscheinlichkeit verwenden können, es sei denn, Sie können die Wahrscheinlichkeit vollständig angeben.

Wenn Sie bereit wären, Unabhängigkeit anzunehmen, ist das Problem recht einfach (ich denke übrigens, die Lösung wäre die maximale Entropielösung, die vorgeschlagen wurde). Wenn Sie nicht bereit oder in der Lage sind, Ihrem Problem eine zusätzliche Struktur aufzuerlegen, und dennoch eine Annäherung an die Werte der Zellen wünschen, können Sie möglicherweise die Fréchet-Hoeffding-Copula-Grenzen verwenden . Ohne zusätzliche Annahmen glaube ich nicht, dass Sie noch weiter gehen können.

F. Tusell
quelle

Die Wahrscheinlichkeit in dieser Dose wäre multinomial. Warum ist das nicht ausreichend?

Wie ich es verstehe, ist die Wahrscheinlichkeit eine Funktion der Parameter, die den Daten gegeben werden. Hier haben Sie nicht für jede Zelle Werte, sondern nur die Randwerte. Sie haben daher keine einzige Funktion der Parameter, die Sie berechnen oder gar maximieren können. Im Allgemeinen gibt es viele mit den Rändern kompatible Zellenkonfigurationen, die jeweils unterschiedliche Wahrscheinlichkeiten ergeben.

F. Tusell

Ja, aber das ist in Ordnung. Die Parameter sind

p

$p$ , die Daten sind die Ränder. Ich kann immer noch die Wahrscheinlichkeit der angegebenen Ränder berechnen

p

$p$ - Es ist die Summe aller Wahrscheinlichkeiten von Zellkonfigurationen, die die Marginals ergeben. Das ist eine einzelne Funktion, die ich maximieren kann.

Edit: This answer is based on an incorrect assumption that likelihood of the marginal counts given $p_{x,y}$ is only a function of the marginal probabilities $p_x = \sum_y p_{x,y}$ and $p_y = \sum_x p_{x,y}$ . I'm still thinking about it.

Wrong stuff follows:

As mentioned in a comment, the problem with finding "the" maximum-likelihood estimator for $p_{x, y}$ is that it's not unique. For instance, consider the case with binary $X, Y$ and marginals $S_1 = S_2 = T_1 = T_2 = 10$ . The two estimators

p = (\begin{array}{cc} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{array}), p = (\begin{array}{cc} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \end{array})

$p = \left(\begin{array}{cc} \frac12 & 0 \\ 0 & \frac12\end{array}\right), \qquad p = \left(\begin{array}{cc} \frac14 & \frac14 \\ \frac14 & \frac14\end{array}\right)$

have the same marginal probabilities $p_x$ and $p_y$ in all cases, and hence have equal likelihoods (both of which maximize the likelihood function, as you can verify).

Indeed, no matter what the marginals are (as long as two of them are nonzero in each dimension), the maximum likelihood solution is not unique. I'll prove this for the binary case. Let $p = \left(\begin{array}{cc}a & b \\ c & d\end{array}\right)$ be a maximum-likelihood solution. Without loss of generality suppose $0 < a \le d$ . Then $p = \left(\begin{array}{cc}0 & b + a \\ c + a & d - a\end{array}\right)$ has the same marginals and is thus also a maximum-likelihood solution.

If you want to additionally apply a maximum-entropy constraint, then you do get a unique solution, which as F. Tussell stated is the solution in which $X, Y$ are independent. You can see this as follows:

The entropy of the distribution is $H(p) = -\sum_{x,y} p_{x,y} \log p_{x,y}$ ; maximizing subject to $\sum_x p_{x,y} = p_y$ and $\sum_{y} p_{x,y} = p_x$ (equivalently, $\vec g(p) = 0$ where $g_x(p) = \sum_y p_{x,y} - p_x$ and $g_y(p) = \sum_x p_{x,y} - p_y$ ) using Lagrange multipliers gives the equation:

\nabla H (p) = \sum_{k \in X \cup Y} λ_{k} \nabla g_{k} (p)

$\nabla H(p) = \sum_{ k \in X \cup Y} \lambda_k \nabla g_k(p)$

All the gradients of each $g_k$ are 1, so coordinate-wise this works out to

1 - \log p_{x, y} = λ_{x} + λ_{y} ⟹ p_{x, y} = e^{1 - λ_{x} - λ_{y}}

$1 - \log p_{x,y} = \lambda_x + \lambda_y \implies p_{x,y} = e^{1-\lambda_x-\lambda_y}$

plus the original constraints $\sum_x p_{x,y} = p_y$ and $\sum_{y} p_{x,y} = p_x$ . You can verify that this is satisfied when $e^{1/2 - \lambda_x} = p_x$ and $e^{1/2 - \lambda_y} = p_y$ , giving

p_{x, y} = p_{x} p_{y} .

$p_{x,y} = p_xp_y.$

Ben Kuhn
quelle

For the first example: What is given is the marginal counts, not the marginal probabilities. In the case you've described, the probability of

S_{1} = S_{2} = T_{1} = T_{2} = 10

$S_1=S_2=T_1=T_2=10$ for the left

p

$p$ is the probability of

[[10, 0], [0, 10]]

$[[10,0],[0,10]]$ which is

2^{- 20}

$2^{-20}$ . For the right

p

$p$ , it is

\sum_{0 \leq a \leq 10} P r [[a, 10 - a], [10 - a, a]]

$\sum_{0\le a \le 10}{Pr[[a,10-a],[10-a,a]]}$ , which is

10 \cdot 4^{- 20}

$10\cdot 4^{-20}$ . Even if there is no unique solution, it doesn't mean we can't point to some solution. Maximum entropy gives a unique solution, but it might not be maximum likelihood.

R S

You've calculated the probabilities incorrectly; for instance, you forgot to include the binomial coefficients. But you're right in that the two matrices give different joint distributions of marginal counts even though they give the same marginal distribution of marginal counts. (Yikes!) I'll think about this more.

Ben Kuhn