Betrachten Sie eine Stichprobe von n unabhängigen normalen Wohnmobilen. Ich möchte einen systematischen Weg identifizieren, um die Wahrscheinlichkeit zu berechnen, dass die Summe einer Teilmenge von ihnen größer ist als die Summe der übrigen Wohnmobile. Ein Beispiel: Population von Fischen. Mittelwert: 10 kg, Standard: 3 kg. Ich fische fünf Fische (n = 5). Wie hoch ist die Wahrscheinlichkeit, dass zwei Fische mehr wiegen als der Rest der drei Fische? Die Schritte, die befolgt werden können, bestehen darin, die Wahrscheinlichkeit für jede Kombination von Fischen zu berechnen und dann die Einschlussausschlussformel für ihre Vereinigung zu verwenden. Gibt es etwas schlaueres? Hinweis: Wenn vier Fische berücksichtigt wurden, sollte die Wahrscheinlichkeit, dass zwei von ihnen schwerer sind als die anderen beiden, eins sein. Wie könnte dies sofort berechnet werden? Danke für die Antworten.
7
Antworten:
Ihr Beispiel legt nahe, dass die Variablen nicht nur unabhängig sind, sondern auch dieselbe Normalverteilung haben. Lassen Sie seine Parameter (der Mittelwert) und (die Varianz) sein und nehmen Sie an, dass die Teilmenge aus dieser Variablen besteht. Wir könnten die Variablen genauso gut indizieren, so dass diese Teilmenge sind.n X1,X2,…,Xn μ σ2 k X1,…,Xk
Die Frage fragt nach der Wahrscheinlichkeit, dass die Summe der ersten Variablen gleich oder größer ist als die Summe der übrigen:k
wo
und
Daher hat eine Standardnormalverteilung mit Verteilungsfunktion woher die Antwort lautetZ=Y−(n−2k)μσn−−√ Φ,
In der Frage ist und wohern=5,k=2,μ=10, σ=3,
Verallgemeinerung
An dieser Analyse muss sich wenig ändern, selbst wenn die unterschiedliche Normalverteilungen haben oder sogar korreliert sind: Sie müssen nur annehmen, dass sie eine Normalverteilung mit Variablen haben, um sicherzustellen, dass ihre lineare Kombination immer noch eine Normalverteilung aufweist. Die Berechnungen werden auf die gleiche Weise durchgeführt und ergeben eine ähnliche Formel.Xi n
Prüfen
Ein Kommentator schlug vor, dies mit einer Simulation zu lösen. Obwohl dies keine Lösung wäre, ist es eine gute Möglichkeit, eine Lösung schnell zu überprüfen. Daher können
R
wir in die Eingaben der Simulation auf eine beliebige Weise als festlegenund simulieren Sie solche Daten und vergleichen Sie die Summen mit diesen beiden Zeilen:
Die Nachbearbeitung besteht darin, den Anteil der simulierten Datensätze zu ermitteln, in denen eine Summe die andere übersteigt, und diesen mit der theoretischen Lösung zu vergleichen:
Die Ausgabe in diesem Fall ist
Die Übereinstimmung ist eng und der kleine absolute Z-Score ermöglicht es uns, die Diskrepanz eher zufälligen Schwankungen als Fehlern in der theoretischen Ableitung zuzuschreiben.
quelle