Wie modelliere ich die Summe der Bernoulli-Zufallsvariablen für abhängige Daten?

9

Ich habe fast die gleichen Fragen wie diese: Wie kann ich die Summe der Bernoulli-Zufallsvariablen effizient modellieren?

Aber die Einstellung ist ganz anders:

$S=\sum_{i=1,N}{X_i}$ , , ~ 20, ~ 0,1 $P(X_{i}=1)=p_i$ $N$ $p_i$
Wir haben die Daten für die Ergebnisse von Bernoulli-Zufallsvariablen: , $X_{i,j}$ $S_j=\sum_{i=1,N}{X_{i,j}}$
Wenn wir mit maximaler Wahrscheinlichkeitsschätzung schätzen (und ), stellt sich heraus, dass dann viel größer ist erwartet durch die anderen Kriterien: $p_i$ $\hat p^{MLE}_i$ $\hat P\{S=3\} (\hat p^{MLE}_i)$ $\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05$
Also, und kann nicht als unabhängig behandelt werden (sie haben eine geringe Abhängigkeit). $X_{i}$ $X_{j}$ $(j>k)$
Es gibt einige Einschränkungen wie diese: und (bekannt), die bei der Schätzung von helfen sollten . $p_{i+1} \ge p_i$ $\sum_{s \le 2}\hat P\{S=s\}=A$ $P\{S\}$

Wie könnten wir in diesem Fall versuchen, die Summe der Bernoulli-Zufallsvariablen zu modellieren?

Welche Literatur könnte nützlich sein, um die Aufgabe zu lösen?

AKTUALISIERT

Es gibt einige weitere Ideen:

(1) Es ist anzunehmen, dass die unbekannte Abhängigkeit zwischen nach einem oder mehreren Erfolgen in Serie beginnt. Wenn also , und . ${X_i}$ $\sum_{i=1,K}{X_i} > 0$ $p_{K+1} \to p'_{K+1}$ $p'_{K+1} < p_{K+1}$

(2) Um MLE verwenden zu können, benötigen wir das am wenigsten fragwürdige Modell. Hier ist eine Variante:

$P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)$ wenn für jedes k if und und für jedes k. $\sum_{i=1,k}{X_i} = 0$ $P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}$ $\sum_{i=1,k-1}{X_i} = 0$ $X_k = 1$ $P'\{X_{k+1}=1,X_{k+2}=1,...,X_N=1\} \le p_{k+1} p_{k+2} ... p_N$

(3) Da wir nur an interessiert sind, können wir (die Wahrscheinlichkeit von Erfolgen für N- (k + 1) + 1 Summanden vom Schwanz). Und benutze die Parametrisierung $P\{S\}$ $P'\{X_{k+1},...,X_N\} \approx P''\{\sum_{i=1,k}{X_i}=s' ; N-(k+1)+1=l\}$ $\sum_{i=k+1,N}{X_i}$ $P''\{\sum_{i=k,N}{X_i}=s' ; N-k+1=l\}= p_{s',l}$

(4) Verwenden Sie MLE für ein Modell, das auf den Parametern und basiert mit für (und ein beliebiges ) und einige andere native Einschränkungen . $p_1,...,p_N$ $p_{0,1}, p_{1,1}; p_{0,2}, p_{1,2}, p_{2,2};...$ $p_{s',l}=0$ $s' \ge 6$ $l$

Ist mit diesem Plan alles in Ordnung?

AKTUALISIERT 2

Einige Beispiele für die empirische Verteilung (rot) im Vergleich zur Poisson-Verteilung (blau) (die Poisson-Mittelwerte sind 2,22 und 2,45, die Stichprobengrößen sind 332 und 259): $P\{S\}$

sample1 sample2

Für Proben (A1, A2) mit dem Poisson bedeutet 2,28 und 2,51 (Probengrößen sind 303 und 249):

sample3 sample4

Für verbundene Proben A1 + A2 (die Stichprobengröße beträgt 552):

Probe 3 + Probe 4

Es sieht so aus, als ob eine Korrektur von Poisson das beste Modell sein sollte :).

distributions modeling binomial random-variable non-independent Andrey
quelle

2

Was sind die ?

X_{i, j}

$X_{i,j}$

Chl

1

@Andrey Die Formeln in (2) und die zweite Einschränkung in (4) machen keinen Sinn: Was bedeuten die Hüte in (4)? Was ist ? (Sie haben nur definiert , nicht ) Ist der Ausdruck in (4) eine Summe von drei Produkten oder etwas anderes?

S

$S$

S_{j}

$S_j$

S

$S$

whuber

X_{i, j}

$X_{i,j}$ sind Bernoulli-Zufallsergebnisse (das i-te Ergebnis in der j-ten Reihe), ist das j-te Ergebnis der Summe (die Summe über der Reihe). ist die Zufallsvariable der Summe; Hüte in (4) bedeuten die Schätzungen. So gibt es einige zusätzliche Informationen über die Summe der niedrigsten Werte von . Entschuldigung für die Verwirrung.

S_{j}

$S_j$

S

$S$

S

$S$

Andrey

3

Ein Ansatz wäre, die mit einem verallgemeinerten linearen Modell (GLM) zu modellieren. Hier würden Sie , die Erfolgswahrscheinlichkeit des -ten Versuchs, als (logistisch lineare) Funktion der jüngsten Beobachtungsgeschichte formulieren . Sie passen also im Wesentlichen ein autoregressives GLM an, bei dem das Rauschen Bernoulli und die Verbindungsfunktion logit ist. Das Setup ist: $X$ $p_i$ $i$

$p_i = f(b + a_1 X_{i-1} + a_2 X_{i-2} + \ldots a_k X_{i-k})$ , wobei

$f(x) = \frac{1}{1+\exp(x)}$ und

$X_i \sim Bernoulli(p_i)$

Die Parameter des Modells sind , die durch logistische Regression geschätzt werden können. (Alles, was Sie tun müssen, ist, Ihre Entwurfsmatrix unter Verwendung des relevanten Teils des Beobachtungsverlaufs bei jedem Versuch einzurichten und diese an eine logistische Regressionsschätzfunktion zu übergeben. Die Log-Wahrscheinlichkeit ist konkav, sodass es ein eindeutiges globales Maximum für die Parameter gibt.) Wenn die Ergebnisse tatsächlich unabhängig sind, werden die auf Null gesetzt; Positive bedeuten, dass nachfolgende zunehmen, wenn ein Erfolg beobachtet wird. $\{b, a_1, \ldots a_k\}$ $a_i$ $a_i$ $p_i$

Das Modell liefert keinen einfachen Ausdruck für die Wahrscheinlichkeit über die Summe der , aber dies ist einfach durch Simulation (Partikelfilterung oder MCMC) zu berechnen, da das Modell eine einfache Markovsche Struktur aufweist. $X_i$

Diese Art von Modell wurde mit großem Erfolg verwendet, um zeitliche Abhängigkeiten zwischen "Spitzen" von Neuronen im Gehirn zu modellieren, und es gibt eine umfangreiche Literatur zu autoregressiven Punktprozessmodellen. Siehe z. B. Truccolo et al. 2005 (obwohl in diesem Artikel ein Poisson anstelle einer Bernoulli-Wahrscheinlichkeit verwendet wird, ist die Zuordnung von einem zum anderen unkompliziert).

jpillow
quelle

1

Wenn die Abhängigkeit auf Verklumpungen zurückzuführen ist, könnte ein zusammengesetztes Poisson-Modell die Lösung als Modell von . Eine etwas zufällige Referenz ist diese von Barbour und Chryssaphinou. $S_j$

In eine völlig andere Richtung, da Sie angeben, dass 20 und damit relativ klein ist, könnte es sein, ein grafisches Modell der zu erstellen , aber ich weiß nicht, ob Ihr Setup und Ihre Daten dies ermöglichen. Wie @chl kommentiert, ist es hilfreich, wenn Sie beschreiben, was die sind. $N$ $X_{ij}$ $X_{i,j}$

Wenn die sequentielle Messungen darstellen, z. B. über die Zeit, und die Abhängigkeit damit zusammenhängt, besteht eine dritte Möglichkeit - und in gewissem Umfang ein Kompromiss zwischen den beiden obigen Vorschlägen - darin, ein verstecktes Markov-Modell von zu verwenden die . $X_{i,j}$ $X_{i,j}$

NRH
quelle

X_{i, j}

${X_{i,j}}$ sind zufällige Bernoulli-Ergebnisse. Entschuldigung für die Ungenauigkeit. Also, ist die Summe der Noten für Sport - Team für die sequentiellen gleiche Zeitintervalle. Es stellt sich heraus, dass nach dem ersten Tor die Wahrscheinlichkeiten des nächsten Tores im Intervall unterschiedlich sind.

X_{i}

${X_{i}}$

Andrey

Wie modelliere ich die Summe der Bernoulli-Zufallsvariablen für abhängige Daten?

Antworten: