Ich plane meine Hochzeit. Ich möchte abschätzen, wie viele Personen zu meiner Hochzeit kommen werden. Ich habe eine Liste mit Personen und deren prozentualer Teilnahme erstellt. Beispielsweise
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
Ich habe eine Liste von ungefähr 230 Leuten mit Prozentsätzen. Wie kann ich abschätzen, wie viele Personen an meiner Hochzeit teilnehmen werden? Kann ich die Prozentsätze einfach addieren und durch 100 dividieren? Wenn ich beispielsweise 10 Personen mit einer Wahrscheinlichkeit von jeweils 10% einlade, kann ich mit 1 Person rechnen? Kann ich mit 10 Personen rechnen, wenn ich 20 Personen mit einer 50% igen Chance einlade?
UPDATE: 140 Leute kamen zu meiner Hochzeit :). Mit den unten beschriebenen Techniken habe ich ungefähr 150 vorausgesagt. Nicht zu schäbig!
quelle
Antworten:
Unter der Annahme, dass die Entscheidungen der zur Hochzeit eingeladenen Personen unabhängig sind, kann die Anzahl der Gäste, die zur Hochzeit kommen, als die Summe der Bernoulli-Zufallsvariablen modelliert werden, die nicht unbedingt identische Erfolgswahrscheinlichkeiten haben. Dies entspricht der Poisson-Binomialverteilung .
Sei eine Zufallsvariable, die der Gesamtzahl der Personen entspricht, die aus eingeladenen Personen zu Ihrer Hochzeit kommen . Die erwartete Anzahl der Teilnehmer ist in der Tat die Summe der individuellen , Die Ableitung von Konfidenzintervallen ist angesichts der Form der Wahrscheinlichkeitsmassenfunktion nicht einfach . Mit Monte-Carlo- Simulationen sind sie jedoch leicht zu approximieren .X N pi
Die folgende Abbildung zeigt ein Beispiel für die Verteilung der Teilnehmerzahl auf die Hochzeit anhand von 10000 simulierten Szenarien (rechts), wobei für die 230 eingeladenen Personen (links) einige gefälschte Auftrittswahrscheinlichkeiten verwendet wurden. Der R-Code, der zum Ausführen dieser Simulation verwendet wird, ist unten dargestellt. es liefert Annäherungen der Vertrauensintervalle.
quelle
j
ich die Anzahl der "Auftauchungen" für jede der 20 Wahrscheinlichkeitsgruppen unter Verwendung einer Binomialverteilung und der Wahrscheinlichkeit, dass diese Gruppe auftaucht.Wie bereits erwähnt, tragen die Erwartungen einfach dazu bei.
Wenn Sie jedoch wissen, dass die Erwartung nicht viel Sinn macht, müssen Sie auch ein Gefühl für die wahrscheinlichen Abweichungen haben.
Es gibt drei Dinge, über die Sie sich Sorgen machen müssen:
Variation in den Individuen um ihre Erwartung herum (eine Person mit einer Wahrscheinlichkeit von 60% zu kommen erreicht ihre Erwartung nicht wirklich; sie ist immer entweder darüber oder darunter)
Abhängigkeit zwischen Menschen. Paare, die beide kommen könnten, tendieren dazu, entweder beide zu besuchen oder keine. Kleine Kinder werden ohne ihre Eltern nicht teilnehmen. In einigen Fällen kann es vorkommen, dass einige Personen nicht kommen, wenn sie wissen, dass eine andere Person anwesend ist.
Fehler bei der Schätzung der Wahrscheinlichkeiten. Diese Wahrscheinlichkeiten sind nur Vermutungen; Vielleicht möchten Sie den Effekt von etwas anderen Vermutungen berücksichtigen (vielleicht die Einschätzung dieser Zahlen durch eine andere Person).
Die erste Methode kann entweder durch normale Näherung oder durch Simulation berechnet werden. Die zweite kann unter verschiedenen Annahmen simuliert werden, entweder spezifisch für die Personen oder unter Berücksichtigung einer gewissen Verteilung der Abhängigkeiten. (Der dritte Punkt ist schwieriger.)
Bearbeitet, um nachfolgende Fragen in Kommentaren zu beantworten:
Wenn ich Ihre Formulierung richtig verstehe, haben Sie für die 4-köpfige Familie eine 50% ige Chance, dass 4 Personen oder keine kommen. Das ist sicherlich eine erwartete Zahl von 2, aber Sie möchten auch eine Vorstellung von der Variabilität um die Erwartung haben. In diesem Fall möchten Sie wahrscheinlich die tatsächliche Situation von 50% von 0/50% von 4 beibehalten.
Wenn Sie jeden in unabhängige Gruppen aufteilen können, wäre eine gute erste Annäherung (mit vielen solcher Gruppen), die Mittelwerte und Varianzen über unabhängige Gruppen zu addieren und die Summe dann wie normal zu behandeln (möglicherweise mit Kontinuitätskorrektur). Ein genauerer Ansatz wäre, den Prozess zu simulieren oder die Verteilung durch numerische Faltung genau zu berechnen. Beide Ansätze sind unkompliziert, dies ist jedoch ein unnötiges Maß an Präzision für diese spezielle Anwendung, da es bereits so viele Approximationsschichten gibt - es ist, als würde man die Abmessungen eines Raums auf den nächsten Fuß genau bestimmen und dann berechnen, wie viel Farbe Sie benötigen auf den nächsten Milliliter genau - die zusätzliche Präzision ist sinnlos.
Stellen Sie sich vor (der Einfachheit halber), wir hätten vier Gruppen:
1) Gruppe A (1 Person) - 70% Teilnahmechance
2) Gruppe B (1 Person) - 60% Teilnahmechance
3) Gruppe C (4-köpfige Familie) - 0: 0,5 4: 0,5 (wenn jemand zu Hause bleibt, kommt keiner)
4) Gruppe D (2er-Paar) - 0: 0,4 1: 0,1 2: 0,5 (dh 50% Chance von beiden, plus 10% Chance, dass genau einer kommt, z. B. wenn der andere Arbeitseinsätze hat oder krank ist)
Dann erhalten wir folgende Mittel und Abweichungen:
Eine normale Annäherung ist in diesem Fall ziemlich grob, würde jedoch darauf hindeuten, dass mehr als 7 Personen ziemlich unwahrscheinlich sind (in der Größenordnung von 5%), und 6 oder weniger würden in etwa 75-80% der Fälle auftreten.
[Ein genauerer Ansatz wäre, den Prozess zu simulieren, aber das vollständige Problem und nicht das reduzierte Beispiel sind wahrscheinlich unnötig, da es bereits so viele Approximationsebenen gibt.]
Wenn Sie eine kombinierte Verteilung haben, die solche Gruppenabhängigkeiten enthält, möchten Sie möglicherweise alle Quellen einer gemeinsamen Abhängigkeit (z. B. Unwetter) anwenden - oder Sie möchten solche Eventualitäten einfach versichern oder sogar ignorieren, je nach den Umständen .
quelle
(Ignorieren Sie meinen früheren Kommentar dazu - mir ist nur aufgefallen, dass ich die Erwartung mit etwas anderem verwechselt habe.) Da Sie im Wesentlichen versuchen, die Erwartung der Anzahl der auftauchenden Personen zu ermitteln, können Sie theoretisch die Wahrscheinlichkeit für jede auftauchende Person addieren zu tun.
Dies liegt daran, dass wir annehmen können, dass jemand den Wert oder annimmt , und dass die Erwartung ein linearer Operator ist.0 1
Dies gibt Ihnen jedoch nur den erwarteten Wert - ohne weitere Annahmen scheint es schwierig zu sein, die Varianz der auftauchenden Personen abzuschätzen, zumal anzunehmen ist, dass die auftauchende Person A nicht unbedingt unabhängig von der auftauchenden Person B ist.
Abgesehen davon ist hier ein vage relevanter BBC-Artikel.
quelle
Bei großen Stückzahlen sind 80% das, was Sie erwarten würden. Dies ist möglicherweise eine Situation, in der eine detaillierte Analyse, wie Sie sie vorschlagen, den Berechnungen nur Fehler hinzufügt.
Ist zum Beispiel Marc's potenzielle Anwesenheit wirklich 1/3 von Josephs? Und sind es wirklich 30% von Joseph oder vielleicht 25%? Dinge passieren, wenn Sie große Zahlen erreichen, die einfach 80% mehr Gültigkeit haben als all diese Analysen. Ich bin gerade von einer Hochzeit zurückgekommen. 550 eingeladen. 452 waren anwesend. Für die Planung der Halle und für Gespräche mit dem Caterer war die anfängliche Schätzung von 440 in Ordnung.
Darf ich dem Paar eine Zeile von meinem Toast anbieten? "Denken Sie daran, wenn Ihre Frau glücklich ist, aber Sie nicht glücklich sind, sind Sie noch viel glücklicher als wenn Ihre Frau unglücklich ist, aber Sie sind glücklich."
quelle
Als Statistiker, der gerade geheiratet hat, werde ich Ihnen sagen, dass JoeTaxpayer die richtige Antwort hat. Die Zahl von 80% scheint mir ein wenig hoch zu sein, könnte aber zutreffend sein, wenn die meisten Leute aus der Region stammen (unsere Hochzeit war ein Ziel und wir landeten näher an 65%).
Trotzdem gehen Sie davon aus, dass die vorherigen Wahrscheinlichkeiten, an denen die Teilnehmer teilnehmen, sehr unterschiedlich sind. Angenommen, Sie laden keine Leute ein, die Sie aktiv nicht mögen, dann sollten Sie davon ausgehen, dass fast jeder kommen wird, für den es im Rahmen seiner Möglichkeiten liegt und der keinen Konflikt hat (im weiteren Sinne), aber mindestens 10-20%. WIRD etwas haben, das sie davon abhält, daran teilzunehmen. Für diejenigen, die reisen müssen, erhöht sich der Zeit- und Geldaufwand, so dass 30-35% der Reisenden (je nach Entfernung) nicht teilnehmen. Andernfalls halten Sie die Wahrscheinlichkeiten konstant (selbst wenn Ihre Eltern sagen, dass "ach so und so nicht bis nach Austin fliegen werden, möchten wir sie nur einladen ..."). Wenn Sie einen lustigen Empfang haben, vor allem mit einer offenen Bar, werden die Leute das im Allgemeinen nicht überspringen, es sei denn, sie müssen.
Wie auch immer, herzlichen Glückwunsch zum Heiraten. Nun, was die Wahrscheinlichkeit angeht, dass Sie verheiratet bleiben, ist dies immer eine gute Lektüre: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
quelle
Addieren Sie alle Wahrscheinlichkeiten, das ist Ihre erwartete Anzahl an Personen.
Sie haben i = 1..N Ereignisse, jedes hat die Wahrscheinlichkeit . Die erwartete Anzahl der zu erwartenden Personen ist , wobei - Indikatorvariable gleich eins ist, wenn eine Person auftaucht, und ansonsten Null.Pi ∑i1iPi 1i
Natürlich gehen wir davon aus, dass es nicht von der Anwesenheit anderer abhängt, ob jemand kommt oder nicht. Diese Annahme ist einfach falsch. Betrachten Sie Paare, sie sind stark korreliert.
Da Sie keine Korrelationsdaten haben, können Sie Paare am besten als Einheit behandeln, dh , wobei die Wahrscheinlichkeit ist, mit der das Paar auftaucht.2×1iPi Pi
quelle
Für meine Hochzeit habe ich zwei Listen erstellt - wahrscheinlich (80%) und unwahrscheinlich (20%). Unabhängig von einer genaueren Einschätzung aus irgendeinem Grund habe ich alle eingeladenen Personen einer der beiden Gruppen zugeordnet. Ich war von 2 Leuten weg. N = 1. Rein heuristisch.
quelle
Mir ist aufgefallen, dass niemand darauf hingewiesen hat, dass Sie nicht durch 100 teilen müssen. Ihre Prozentsätze können als erwartete Teile einer Person angesehen werden, die angezeigt werden, mit der Maßgabe, dass Sie wie bei Schrödingers Katze keine Teile einer Person erhalten anwesend oder nicht anwesend, aber der Anwesenheitsstatus jeder Person wird zum Zeitpunkt der Veranstaltung vollständig geklärt.
Da der Bereich Ihrer Prozentsätze von 0% (keiner der angezeigten Personen) bis 100% (alle angezeigten Personen) reicht, haben Sie in Ihren beiden Beispielen mit 10 und 20 Personen den erwarteten Wert für den jeweiligen Teil summiert Person zu zeigen, und bekam eine Nummer, deren Einheiten "Menschen" waren.
Die herausragende Gleichung in QuantIbex 'hervorragender Antwort zeigt, dass die Summe der Prozentsätze die erwartete Personenzahl bei der Veranstaltung ergibt, ohne dass eine Aufteilung erforderlich ist.
quelle