Korrelierte Bernoulli-Studien, multivariate Bernoulli-Verteilung?

14

Ich vereinfache eine Forschungsfrage, die ich bei der Arbeit habe. Stellen Sie sich vor, ich hätte 5 Münzen und lasst uns Heads als Erfolg bezeichnen. Dies sind SEHR voreingenommene Münzen mit einer Erfolgswahrscheinlichkeit von p = 0,1. Nun, wenn die Münzen unabhängig waren, dann bekommt die Wahrscheinlichkeit von mindestens 1 Stück oder mehr ist sehr einfach, 1(11/10)5 . In meinem Szenario sind meine Bernoulli-Versuche (Münzwürfe) nicht unabhängig. Die einzigen Informationen, auf die ich Zugriff habe, sind die Erfolgswahrscheinlichkeit (jede ist p = 0,1) und die theoretischen Pearson-Korrelationen zwischen den Binärvariablen.

Gibt es eine Möglichkeit, die Wahrscheinlichkeit eines oder mehrerer Erfolge nur mit diesen Informationen zu berechnen? Ich versuche, einen simulationsbasierten Ansatz zu vermeiden, da diese theoretischen Ergebnisse als Richtschnur für die Genauigkeit einer Simulationsstudie dienen. Ich habe mich mit der multivariaten Bernoulli-Verteilung befasst, glaube aber nicht, dass ich sie nur mit Korrelationen und geringfügigen Erfolgswahrscheinlichkeiten vollständig spezifizieren kann. Ein Freund von mir hat empfohlen, eine Gaußsche Kopula mit Bernoulli-Rändern (mit dem R-Paket copula) zu konstruieren und dann die pMvdc()Funktion für eine große Stichprobe zu verwenden, um die von mir gewünschte Wahrscheinlichkeit zu erhalten, aber ich bin nicht genau sicher, wie ich damit umgehen soll.

S. Punky
quelle
Die multivariate Bernoulli-Verteilung wurde hier beschrieben: arxiv.org/abs/1206.1874
Tim
Gibt es ein zeitliches Element zwischen den Versuchen oder sind sie alle parallel? Wenn erstere, können Sie eine vereinfachende Annahme treffen, wonach nur von t r i a l i - n abhängt , wobei n die Reihenfolge Ihres Markov-Modells angibt? trialitrialinn
Zhubarb

Antworten:

16

Nein, dies ist unmöglich, wenn Sie drei oder mehr Münzen haben.

Der Fall von zwei Münzen

Lassen Sie uns zuerst sehen, warum es bei zwei Münzen funktioniert, da dies eine gewisse Vorstellung davon gibt, was bei mehr Münzen zusammenbricht.

Let und Y bezeichnen die Bernoulli - Variablen entsprechend den beiden Fällen verteilt X ~ B e r ( p ) , Y ~ B e r ( q ) . Denken Sie zunächst daran, dass die Korrelation von X und Y istXYXBer(p)YBer(q)XY.

cÖrr(X,Y.)=E[XY.]-E[X]E[Y.]Veinr(X)Veinr(Y.),

und da Sie die Rn kennen, wissen Sie , E [ Y ] , V a r ( X ) und V a r ( Y ) , so durch die Korrelation zu wissen, wissen Sie auch E [ X Y ] . Nun, X Y = 1 , wenn und nur wenn sowohl X = 1 und Y = 1 , so dass E [ X Y ] = P (E[X]E[Y.]Veinr(X)Veinr(Y.)E[XY.]XY.=1X=1Y=1

E[XY]=P(X=1,Y=1).

Wenn Sie die Ränder kennen, wissen Sie, dass und q = P ( X = 0 , Y = 1 ) + P ( X = 1) sind , Y = 1 ) . Da wir gerade herausgefunden haben, dass Sie P ( X = 1 , Yp=P(X=1,Y=0)+P(X=1,Y=1)q=P(X=0,Y=1)+P(X=1,Y=1) bedeutet dies, dass Sie auch P ( X = 1 , Y = 0 ) und P ( X = 0 , Y = 0 ) kennen , aber jetzt sind Sie fertig, da die Wahrscheinlichkeit, die Sie suchen, istP(X=1,Y=1)P(X=1,Y=0)P(X=0,Y=0)

P(X=1,Y=0)+P(X=0,Y=1)+P(X=1,Y=1).

Ich persönlich finde das alles mit einem Bild leichter zu erkennen. Sei . Dann können wir uns die verschiedenen Wahrscheinlichkeiten als ein Quadrat vorstellen:Pij=P(X=i,Y=j)

Hier haben wir gesehen, dass Sie bei Kenntnis der Korrelationen , rot markiert, und bei Kenntnis der Ränder die Summe für jede Kante kennen (von denen eine mit einem blauen Rechteck gekennzeichnet ist).P11

Der Fall von drei Münzen

Bei drei Münzen ist dies nicht so einfach. intuitiv ist es nicht schwer zu verstehen, warum: Wenn Sie die Ränder und die Korrelation kennen, kennen Sie insgesamt Parameter, aber die gemeinsame Verteilung hat 2 3 = 8 Ergebnisse, aber wenn Sie die Wahrscheinlichkeiten für 7 von diesen kennen, Sie können den letzten herausfinden; jetzt, 7 > 6 , scheint es also vernünftig zu sein, zwei verschiedene gemeinsame Verteilungen zu erstellen, deren Ränder und Korrelationen gleich sind, und die Wahrscheinlichkeiten zu permutieren, bis sich die von Ihnen gesuchten unterscheiden.6=3+323=877>6

Sei , Y und Z die drei Variablen und seiXYZ

Pijk=P(X=i,Y=j,Z=k).

In diesem Fall sieht das Bild von oben so aus:

Bildbeschreibung hier eingeben

Die Dimensionen wurden um eins erhöht: Der rote Scheitelpunkt ist zu mehreren farbigen Kanten geworden, und die von einem blauen Rechteck bedeckte Kante ist zu einer ganzen Fläche geworden. Hier zeigt die blaue Ebene an, dass Sie die Summe der Wahrscheinlichkeiten kennen, wenn Sie den Rand kennen. für das auf dem bild,

P(X=0)=P000+P010+P001+P011,

corr(X,Y)E[XY]

E[XY]=P(X=1,Y=1)=P110+P111.

Dies schränkt die möglichen Gelenkverteilungen ein wenig ein, aber jetzt haben wir die Übung auf die kombinatorische Übung reduziert, Zahlen auf die Eckpunkte eines Würfels zu setzen. Lassen Sie uns ohne weiteres zwei gemeinsame Verteilungen bereitstellen, deren Ränder und Korrelationen gleich sind:

Bildbeschreibung hier eingeben

1001/2Ber(1/2)

1P0001P000

P111

Ber(1/10)

Vier oder mehr Münzen

Schließlich sollte es nicht überraschen, wenn wir mehr als drei Münzen haben, Beispiele zu finden, die scheitern, da wir jetzt eine noch größere Diskrepanz zwischen der Anzahl der Parameter haben, die zur Beschreibung der gemeinsamen Verteilung erforderlich sind, und denen, die uns durch Ränder und bereitgestellt werden Korrelationen.

Konkret können Sie für eine beliebige Anzahl von Münzen, die größer als drei sind, einfach die Beispiele betrachten, deren erste drei Münzen sich wie in den beiden obigen Beispielen verhalten und bei denen die Ergebnisse der letzten beiden Münzen von allen anderen Münzen unabhängig sind.

Fuglede
quelle
3

Korrelierte Bernoulli-Studien führen zu einer Beta-Binomialverteilung für die gezählten Ergebnisse. Es sollte möglich sein, diese Verteilung zu parametrisieren, um einen bestimmten Korrelationswert zu erhalten, und dann die gewünschte Wahrscheinlichkeit zu berechnen.

Setzen Sie Monica wieder ein
quelle
Ist ein Beta-Binom nicht nur ein Binom, dessen Erfolgswahrscheinlichkeitsparameter eine Zufallsvariable nach einer Beta ist? Wie trifft dies auf das Problem des OP zu?
AG
1
Ja, das ist eine Charakterisierung der Distribution. Es ist auch eine der Lösungen von korrelierten Bernoulli-Versuchen (siehe z. B. Hisakado et al. 2006 )
Monica
So ist es! Upvoted.
AG
Related: stats.stackexchange.com/questions/363129
Amöbe sagt Reinstate Monica