Korrelierte Bernoulli-Studien, multivariate Bernoulli-Verteilung?

Ich vereinfache eine Forschungsfrage, die ich bei der Arbeit habe. Stellen Sie sich vor, ich hätte 5 Münzen und lasst uns Heads als Erfolg bezeichnen. Dies sind SEHR voreingenommene Münzen mit einer Erfolgswahrscheinlichkeit von p = 0,1. Nun, wenn die Münzen unabhängig waren, dann bekommt die Wahrscheinlichkeit von mindestens 1 Stück oder mehr ist sehr einfach, $1-(1-1/10)^5$ . In meinem Szenario sind meine Bernoulli-Versuche (Münzwürfe) nicht unabhängig. Die einzigen Informationen, auf die ich Zugriff habe, sind die Erfolgswahrscheinlichkeit (jede ist p = 0,1) und die theoretischen Pearson-Korrelationen zwischen den Binärvariablen.

Gibt es eine Möglichkeit, die Wahrscheinlichkeit eines oder mehrerer Erfolge nur mit diesen Informationen zu berechnen? Ich versuche, einen simulationsbasierten Ansatz zu vermeiden, da diese theoretischen Ergebnisse als Richtschnur für die Genauigkeit einer Simulationsstudie dienen. Ich habe mich mit der multivariaten Bernoulli-Verteilung befasst, glaube aber nicht, dass ich sie nur mit Korrelationen und geringfügigen Erfolgswahrscheinlichkeiten vollständig spezifizieren kann. Ein Freund von mir hat empfohlen, eine Gaußsche Kopula mit Bernoulli-Rändern (mit dem R-Paket copula) zu konstruieren und dann die pMvdc()Funktion für eine große Stichprobe zu verwenden, um die von mir gewünschte Wahrscheinlichkeit zu erhalten, aber ich bin nicht genau sicher, wie ich damit umgehen soll.

multivariate-analysis bernoulli-distribution copula S. Punky
quelle

Die multivariate Bernoulli-Verteilung wurde hier beschrieben: arxiv.org/abs/1206.1874

Tim

Gibt es ein zeitliches Element zwischen den Versuchen oder sind sie alle parallel? Wenn erstere, können Sie eine vereinfachende Annahme treffen, wonach

nur von

abhängt , wobei

die Reihenfolge Ihres Markov-Modells angibt?

t r i a l_{i}

$trial_i$

t r i a l_{i - n}

$trial_{i-n}$

n

$n$

Zhubarb

Antworten:

Nein, dies ist unmöglich, wenn Sie drei oder mehr Münzen haben.

Der Fall von zwei Münzen

Lassen Sie uns zuerst sehen, warum es bei zwei Münzen funktioniert, da dies eine gewisse Vorstellung davon gibt, was bei mehr Münzen zusammenbricht.

Let und bezeichnen die Bernoulli - Variablen entsprechend den beiden Fällen verteilt , . Denken Sie zunächst daran, dass die Korrelation von und ist $X$ $Y$ $X \sim \mathrm{Ber}(p)$ $Y \sim \mathrm{Ber}(q)$ $X$ $Y$

c Ö r r (X, Y.) = \frac{E [X Y.] - E [X] E [Y.]}{\sqrt{V ein r (X) V ein r (Y.)}},

$\mathrm{corr}(X, Y) = \frac{E[XY] - E[X]E[Y]}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}},$

und da Sie die Rn kennen, wissen Sie , , und , so durch die Korrelation zu wissen, wissen Sie auch . Nun, , wenn und nur wenn sowohl und , so dass $E[X]$ $E[Y]$ $\mathrm{Var}(X)$ $\mathrm{Var}(Y)$ $E[XY]$ $XY = 1$ $X = 1$ $Y = 1$

E [X Y] = P (X = 1, Y = 1) .

$E[XY] = P(X = 1, Y = 1).$

Wenn Sie die Ränder kennen, wissen Sie, dass und . Da wir gerade herausgefunden haben, dass Sie $p = P(X = 1, Y = 0) + P(X = 1, Y = 1)$ $q = P(X = 0, Y = 1) + P(X = 1, Y = 1)$ bedeutet dies, dass Sie auch und , aber jetzt sind Sie fertig, da die Wahrscheinlichkeit, die Sie suchen, ist $P(X = 1, Y = 1)$ $P(X = 1, Y = 0)$ $P(X = 0, Y = 0)$

P (X = 1, Y = 0) + P (X = 0, Y = 1) + P (X = 1, Y = 1) .

$P(X = 1, Y = 0) + P(X = 0, Y = 1) + P(X = 1, Y = 1).$

Ich persönlich finde das alles mit einem Bild leichter zu erkennen. Sei . Dann können wir uns die verschiedenen Wahrscheinlichkeiten als ein Quadrat vorstellen: $P_{ij} = P(X = i, Y = j)$

Hier haben wir gesehen, dass Sie bei Kenntnis der Korrelationen , rot markiert, und bei Kenntnis der Ränder die Summe für jede Kante kennen (von denen eine mit einem blauen Rechteck gekennzeichnet ist). $P_{11}$

Der Fall von drei Münzen

Bei drei Münzen ist dies nicht so einfach. intuitiv ist es nicht schwer zu verstehen, warum: Wenn Sie die Ränder und die Korrelation kennen, kennen Sie insgesamt Parameter, aber die gemeinsame Verteilung hat Ergebnisse, aber wenn Sie die Wahrscheinlichkeiten für von diesen kennen, Sie können den letzten herausfinden; jetzt, , scheint es also vernünftig zu sein, zwei verschiedene gemeinsame Verteilungen zu erstellen, deren Ränder und Korrelationen gleich sind, und die Wahrscheinlichkeiten zu permutieren, bis sich die von Ihnen gesuchten unterscheiden. $6 = 3 + 3$ $2^3 = 8$ $7$ $7 > 6$

Sei , und die drei Variablen und sei $X$ $Y$ $Z$

P_{i j k} = P (X = i, Y = j, Z = k) .

$P_{ijk} = P(X = i, Y = j, Z = k).$

In diesem Fall sieht das Bild von oben so aus:

Die Dimensionen wurden um eins erhöht: Der rote Scheitelpunkt ist zu mehreren farbigen Kanten geworden, und die von einem blauen Rechteck bedeckte Kante ist zu einer ganzen Fläche geworden. Hier zeigt die blaue Ebene an, dass Sie die Summe der Wahrscheinlichkeiten kennen, wenn Sie den Rand kennen. für das auf dem bild,

P (X = 0) = P_{000} + P_{010} + P_{001} + P_{011},

$P(X = 0) = P_{000} + P_{010} + P_{001} + P_{011},$

$\mathrm{corr}(X, Y)$ $E[XY]$

E [X Y] = P (X = 1, Y = 1) = P_{110} + P_{111} .

$E[XY] = P(X = 1, Y = 1) = P_{110} + P_{111}.$

Dies schränkt die möglichen Gelenkverteilungen ein wenig ein, aber jetzt haben wir die Übung auf die kombinatorische Übung reduziert, Zahlen auf die Eckpunkte eines Würfels zu setzen. Lassen Sie uns ohne weiteres zwei gemeinsame Verteilungen bereitstellen, deren Ränder und Korrelationen gleich sind:

$100$ $1/2$ $\mathrm{Ber}(1/2)$

$1 - P_{000}$ $1 - P_{000}'$

$P_{111}$

$\mathrm{Ber}(1/10)$

Vier oder mehr Münzen

Schließlich sollte es nicht überraschen, wenn wir mehr als drei Münzen haben, Beispiele zu finden, die scheitern, da wir jetzt eine noch größere Diskrepanz zwischen der Anzahl der Parameter haben, die zur Beschreibung der gemeinsamen Verteilung erforderlich sind, und denen, die uns durch Ränder und bereitgestellt werden Korrelationen.

Konkret können Sie für eine beliebige Anzahl von Münzen, die größer als drei sind, einfach die Beispiele betrachten, deren erste drei Münzen sich wie in den beiden obigen Beispielen verhalten und bei denen die Ergebnisse der letzten beiden Münzen von allen anderen Münzen unabhängig sind.

Fuglede
quelle

Korrelierte Bernoulli-Studien führen zu einer Beta-Binomialverteilung für die gezählten Ergebnisse. Es sollte möglich sein, diese Verteilung zu parametrisieren, um einen bestimmten Korrelationswert zu erhalten, und dann die gewünschte Wahrscheinlichkeit zu berechnen.

Setzen Sie Monica wieder ein
quelle

Ist ein Beta-Binom nicht nur ein Binom, dessen Erfolgswahrscheinlichkeitsparameter eine Zufallsvariable nach einer Beta ist? Wie trifft dies auf das Problem des OP zu?

Ja, das ist eine Charakterisierung der Distribution. Es ist auch eine der Lösungen von korrelierten Bernoulli-Versuchen (siehe z. B. Hisakado et al. 2006 )

Monica

So ist es! Upvoted.

Related: stats.stackexchange.com/questions/363129

Amöbe sagt Reinstate Monica