Summen normaler Zufallsvariablen

7

Betrachten Sie eine Stichprobe von n unabhängigen normalen Wohnmobilen. Ich möchte einen systematischen Weg identifizieren, um die Wahrscheinlichkeit zu berechnen, dass die Summe einer Teilmenge von ihnen größer ist als die Summe der übrigen Wohnmobile. Ein Beispiel: Population von Fischen. Mittelwert: 10 kg, Standard: 3 kg. Ich fische fünf Fische (n = 5). Wie hoch ist die Wahrscheinlichkeit, dass zwei Fische mehr wiegen als der Rest der drei Fische? Die Schritte, die befolgt werden können, bestehen darin, die Wahrscheinlichkeit für jede Kombination von Fischen zu berechnen und dann die Einschlussausschlussformel für ihre Vereinigung zu verwenden. Gibt es etwas schlaueres? Hinweis: Wenn vier Fische berücksichtigt wurden, sollte die Wahrscheinlichkeit, dass zwei von ihnen schwerer sind als die anderen beiden, eins sein. Wie könnte dies sofort berechnet werden? Danke für die Antworten.

Manos
quelle
1
Sie könnten sicherlich eine Simulation durchführen.
Peter Flom
@whuber - Sie geben eine großartige Antwort, vorausgesetzt, wir haben zwei bestimmte im Sinn (oder wählen zufällig zwei aus). Mein erster Durchgang beim Lesen dachte, es würde gefragt, ob es Teilmengen von 2 gibt, so dass die Summe größer ist als die verbleibenden (wie aus ihrer Behauptung hervorgeht, dass bei 4 Fischen die Wahrscheinlichkeit 1 wäre). In diesem Fall würden wir Ich möchte die Verteilung der beiden größten gegen die Verteilung der verbleibenden betrachten und müsste in die Auftragsstatistik eintauchen. Die Simulation legt nahe, dass in dieser Situation die Wahrscheinlichkeit ungefähr 0,464 beträgt.
Dason
1
@Dason Vielen Dank für den Hinweis: Es ist eine sehr plausible Interpretation, die ich mir nicht vorgestellt hatte. Es erklärt auch, warum Peter eine Simulation vorgeschlagen hat, weil das ein viel schwierigeres Problem ist. Ich denke, Sie haben Recht mit der Auftragsstatistik, weil wir das Problem so umformulieren können, dass wir fragen: "Wie groß ist die Wahrscheinlichkeit, dass die Summe der größten von Werten die Summe der kleinsten Werte überschreitet ?" Obwohl wir den Wert als Integral aufschreiben können, erfordert er im Allgemeinen eine numerische Auswertung und wird schnell lästig, wenn wächst. k nnkn
whuber
1
@Manos - Wenn die 1. und 3. Summe größer als die 2., 4. und 5. Summe wäre ... dann wäre die 1. und 2. Summe größer als die 3., 4. und 5. Summe und würde auch Ihre Kriterien erfüllen. Um zu überprüfen, ob Teilmengen die Kriterien erfüllen, müssen wir nur prüfen, ob das obere k etwas größer als das untere nk ist.
Dason
1
Sie konnten. Aber wie Whuber erwähnt, ist es kein einfaches Problem. Durch die Simulation erhalten Sie ein Ergebnis, das für jede spezifische Situation viel einfacher ist.
Dason

Antworten:

7

Ihr Beispiel legt nahe, dass die Variablen nicht nur unabhängig sind, sondern auch dieselbe Normalverteilung haben. Lassen Sie seine Parameter (der Mittelwert) und (die Varianz) sein und nehmen Sie an, dass die Teilmenge aus dieser Variablen besteht. Wir könnten die Variablen genauso gut indizieren, so dass diese Teilmenge sind.nX1,X2,,Xnμσ2kX1,,Xk

Die Frage fragt nach der Wahrscheinlichkeit, dass die Summe der ersten Variablen gleich oder größer ist als die Summe der übrigen:k

pn,k(μ,σ)=Pr(X1++XkXk+1++Xn)=Pr(Y0)

wo

Y=(X1++Xk)+(Xk+1++Xn).

Y ist eine lineare Kombination unabhängiger Normalvariablen und hat daher eine Normalverteilung - aber welche? Die Gesetze der Erwartung und der Varianz sagen es uns sofort

E[Y]=kμ+(nk)μ=(n2k)μ

und

Var(Y)=kσ2+(nk)σ2=nσ2.

Daher hat eine Standardnormalverteilung mit Verteilungsfunktion woher die Antwort lautet

Z=Y(n2k)μσn
Φ,

pn,k(μ,σ)=Pr(Y0)=Pr(Z(n2k)μσn)=Φ((n2k)μσn).

In der Frage ist und wohern=5,k=2,μ=10,σ=3,

p5,2(10,3)=Φ((52(2))10310)0.0680186.


Verallgemeinerung

An dieser Analyse muss sich wenig ändern, selbst wenn die unterschiedliche Normalverteilungen haben oder sogar korreliert sind: Sie müssen nur annehmen, dass sie eine Normalverteilung mit Variablen haben, um sicherzustellen, dass ihre lineare Kombination immer noch eine Normalverteilung aufweist. Die Berechnungen werden auf die gleiche Weise durchgeführt und ergeben eine ähnliche Formel.Xin


Prüfen

Ein Kommentator schlug vor, dies mit einer Simulation zu lösen. Obwohl dies keine Lösung wäre, ist es eine gute Möglichkeit, eine Lösung schnell zu überprüfen. Daher können Rwir in die Eingaben der Simulation auf eine beliebige Weise als festlegen

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

und simulieren Sie solche Daten und vergleichen Sie die Summen mit diesen beiden Zeilen:

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

Die Nachbearbeitung besteht darin, den Anteil der simulierten Datensätze zu ermitteln, in denen eine Summe die andere übersteigt, und diesen mit der theoretischen Lösung zu vergleichen:

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

Die Ausgabe in diesem Fall ist

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

Die Übereinstimmung ist eng und der kleine absolute Z-Score ermöglicht es uns, die Diskrepanz eher zufälligen Schwankungen als Fehlern in der theoretischen Ableitung zuzuschreiben.

whuber
quelle
Wir können auch ohne Verlust der Allgemeinheit annehmen, dass ; intuitiv können wir alles in Form vonσ=1μσ
berechnen
@Acccumulation Das ist richtig und ein guter Weg, um fortzufahren. In der Tat folgt diese Tatsache unmittelbar aus der Beobachtung, dass man die Maßeinheit willkürlich so einstellen kann, dass ohne das Problem zu ändern. Ich fand es praktisch, dies nicht erklären zu müssen, da dies die Analyse nicht nennenswert vereinfachte. σ=1
whuber