Hilf mir zu berechnen, wie viele Leute zu meiner Hochzeit kommen werden! Kann ich jeder Person einen Prozentsatz zuweisen und sie hinzufügen?

37

Ich plane meine Hochzeit. Ich möchte abschätzen, wie viele Personen zu meiner Hochzeit kommen werden. Ich habe eine Liste mit Personen und deren prozentualer Teilnahme erstellt. Beispielsweise

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Ich habe eine Liste von ungefähr 230 Leuten mit Prozentsätzen. Wie kann ich abschätzen, wie viele Personen an meiner Hochzeit teilnehmen werden? Kann ich die Prozentsätze einfach addieren und durch 100 dividieren? Wenn ich beispielsweise 10 Personen mit einer Wahrscheinlichkeit von jeweils 10% einlade, kann ich mit 1 Person rechnen? Kann ich mit 10 Personen rechnen, wenn ich 20 Personen mit einer 50% igen Chance einlade?

UPDATE: 140 Leute kamen zu meiner Hochzeit :). Mit den unten beschriebenen Techniken habe ich ungefähr 150 vorausgesagt. Nicht zu schäbig!

Behacad
quelle
43
Ich sehe keine Zahl für die Person, die Sie heiraten. Das ist die wichtigste Größe.
Nick Cox
6
Ich habe deine Technik für meine Hochzeit benutzt und es hat gut funktioniert. Wir sagten ungefähr 80 Leute voraus und bekamen 85 oder so. Ich stelle fest, dass Sie, sobald Sie alle diese Personen in Ihrer Tabelle haben, dieselbe Tabelle auch verwenden können, um Dinge zu verfolgen, wie beispielsweise, an wen Sie Dankesnotizen gesendet haben, und so weiter.
Eric Lippert
2
Relevant: timharford.com/2013/10/guest-list-angst-a-statistical-approach . Für das, was es wert ist, habe ich den Link zum persönlichen Blog des Autors gewählt, aber der Artikel stammt aus seiner Kolumne in der Financial Times.
Steve Jessop
@EricLippert Ich habe für meine Hochzeit etwas Ähnliches ausprobiert, hatte aber nicht so viel Erfolg. Es gab ein sehr schweres Gewitter am Tag und jeder <30% ish mit einer Stunde pendeln oder mehr nicht angezeigt.
OSE
3
@ NickCox Auch sie haben ihre eigenen vergessen.
JFA

Antworten:

32

Unter der Annahme, dass die Entscheidungen der zur Hochzeit eingeladenen Personen unabhängig sind, kann die Anzahl der Gäste, die zur Hochzeit kommen, als die Summe der Bernoulli-Zufallsvariablen modelliert werden, die nicht unbedingt identische Erfolgswahrscheinlichkeiten haben. Dies entspricht der Poisson-Binomialverteilung .

Sei eine Zufallsvariable, die der Gesamtzahl der Personen entspricht, die aus eingeladenen Personen zu Ihrer Hochzeit kommen . Die erwartete Anzahl der Teilnehmer ist in der Tat die Summe der individuellen , Die Ableitung von Konfidenzintervallen ist angesichts der Form der Wahrscheinlichkeitsmassenfunktion nicht einfach . Mit Monte-Carlo- Simulationen sind sie jedoch leicht zu approximieren .XNpi

E(X)=i=1Npi.

Die folgende Abbildung zeigt ein Beispiel für die Verteilung der Teilnehmerzahl auf die Hochzeit anhand von 10000 simulierten Szenarien (rechts), wobei für die 230 eingeladenen Personen (links) einige gefälschte Auftrittswahrscheinlichkeiten verwendet wurden. Der R-Code, der zum Ausführen dieser Simulation verwendet wird, ist unten dargestellt. es liefert Annäherungen der Vertrauensintervalle.

Bildbeschreibung hier eingeben

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 
QuantIbex
quelle
1
Wow das ist fantastisch. Was für eine Simulation ist das genau?
Behacad
4
Es ist eine Monte-Carlo- Simulation
QuantIbex
Wie wandelt man "Gruppengröße" in Anzahl der Gäste um? Ich habe eine Figur wie deine auf der linken Seite, aber ich bin nicht sicher, wie ich sie in die Figur auf der rechten Seite
verwandeln soll
Dies geschieht in den Zeilen 11 bis 18 des in der Antwort angegebenen Codes. Für das Szenario erzeuge jich die Anzahl der "Auftauchungen" für jede der 20 Wahrscheinlichkeitsgruppen unter Verwendung einer Binomialverteilung und der Wahrscheinlichkeit, dass diese Gruppe auftaucht.
QuantIbex
18

Wie bereits erwähnt, tragen die Erwartungen einfach dazu bei.

Wenn Sie jedoch wissen, dass die Erwartung nicht viel Sinn macht, müssen Sie auch ein Gefühl für die wahrscheinlichen Abweichungen haben.

Es gibt drei Dinge, über die Sie sich Sorgen machen müssen:

  • Variation in den Individuen um ihre Erwartung herum (eine Person mit einer Wahrscheinlichkeit von 60% zu kommen erreicht ihre Erwartung nicht wirklich; sie ist immer entweder darüber oder darunter)

  • Abhängigkeit zwischen Menschen. Paare, die beide kommen könnten, tendieren dazu, entweder beide zu besuchen oder keine. Kleine Kinder werden ohne ihre Eltern nicht teilnehmen. In einigen Fällen kann es vorkommen, dass einige Personen nicht kommen, wenn sie wissen, dass eine andere Person anwesend ist.

  • Fehler bei der Schätzung der Wahrscheinlichkeiten. Diese Wahrscheinlichkeiten sind nur Vermutungen; Vielleicht möchten Sie den Effekt von etwas anderen Vermutungen berücksichtigen (vielleicht die Einschätzung dieser Zahlen durch eine andere Person).

Die erste Methode kann entweder durch normale Näherung oder durch Simulation berechnet werden. Die zweite kann unter verschiedenen Annahmen simuliert werden, entweder spezifisch für die Personen oder unter Berücksichtigung einer gewissen Verteilung der Abhängigkeiten. (Der dritte Punkt ist schwieriger.)


Bearbeitet, um nachfolgende Fragen in Kommentaren zu beantworten:

Wenn ich Ihre Formulierung richtig verstehe, haben Sie für die 4-köpfige Familie eine 50% ige Chance, dass 4 Personen oder keine kommen. Das ist sicherlich eine erwartete Zahl von 2, aber Sie möchten auch eine Vorstellung von der Variabilität um die Erwartung haben. In diesem Fall möchten Sie wahrscheinlich die tatsächliche Situation von 50% von 0/50% von 4 beibehalten.

Wenn Sie jeden in unabhängige Gruppen aufteilen können, wäre eine gute erste Annäherung (mit vielen solcher Gruppen), die Mittelwerte und Varianzen über unabhängige Gruppen zu addieren und die Summe dann wie normal zu behandeln (möglicherweise mit Kontinuitätskorrektur). Ein genauerer Ansatz wäre, den Prozess zu simulieren oder die Verteilung durch numerische Faltung genau zu berechnen. Beide Ansätze sind unkompliziert, dies ist jedoch ein unnötiges Maß an Präzision für diese spezielle Anwendung, da es bereits so viele Approximationsschichten gibt - es ist, als würde man die Abmessungen eines Raums auf den nächsten Fuß genau bestimmen und dann berechnen, wie viel Farbe Sie benötigen auf den nächsten Milliliter genau - die zusätzliche Präzision ist sinnlos.

Stellen Sie sich vor (der Einfachheit halber), wir hätten vier Gruppen:

1) Gruppe A (1 Person) - 70% Teilnahmechance

2) Gruppe B (1 Person) - 60% Teilnahmechance

3) Gruppe C (4-köpfige Familie) - 0: 0,5 4: 0,5 (wenn jemand zu Hause bleibt, kommt keiner)

4) Gruppe D (2er-Paar) - 0: 0,4 1: 0,1 2: 0,5 (dh 50% Chance von beiden, plus 10% Chance, dass genau einer kommt, z. B. wenn der andere Arbeitseinsätze hat oder krank ist)

Dann erhalten wir folgende Mittel und Abweichungen:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Eine normale Annäherung ist in diesem Fall ziemlich grob, würde jedoch darauf hindeuten, dass mehr als 7 Personen ziemlich unwahrscheinlich sind (in der Größenordnung von 5%), und 6 oder weniger würden in etwa 75-80% der Fälle auftreten.

[Ein genauerer Ansatz wäre, den Prozess zu simulieren, aber das vollständige Problem und nicht das reduzierte Beispiel sind wahrscheinlich unnötig, da es bereits so viele Approximationsebenen gibt.]


Wenn Sie eine kombinierte Verteilung haben, die solche Gruppenabhängigkeiten enthält, möchten Sie möglicherweise alle Quellen einer gemeinsamen Abhängigkeit (z. B. Unwetter) anwenden - oder Sie möchten solche Eventualitäten einfach versichern oder sogar ignorieren, je nach den Umständen .

Glen_b
quelle
5
+1 für die Erwähnung von Abhängigkeiten. Diese entstehen aus anderen Gründen als zwischenmenschlichen Beziehungen, wie z. B. Wetter- und Reisebedingungen. Viele von ihnen induzieren positive Korrelationen - was den Unsicherheitsbereich erweitert. Wenn die Schätzungen für die Bereitstellung der Logistik (Mahlzeiten, Sitzplätze usw.) verwendet werden, ist eine genaue Einschätzung der Abweichung von Nutzen. Obwohl man in einer Hochzeitsbewerbung nicht viel mehr tun kann, als eine Vermutung anzustellen, kann ein qualitatives Verständnis dieser statistischen Phänomene zu besseren Vermutungen führen.
Whuber
@whuber Guter Punkt zu anderen Abhängigkeitsquellen, wie zum Beispiel Wetter. Unter bestimmten Umständen können solche Dinge die von mir erwähnten Effekte leicht überschwemmen.
Glen_b
Wie könnte ich Abhängigkeiten einfach berücksichtigen? Zum Beispiel, wenn ich ein Paar mit zwei Kindern kenne und ich erwarte, dass die Eltern eine 50% ige Chance haben zu kommen. Ich weiß, dass sie ihre Kinder mitbringen werden, wenn sie kommen. Sparen Sie, wenn Sie jeder Person 50% zuschreiben und davon ausgehen, dass 2 Personen kommen?
Behacad
2
@Behacad: Wenn Sie wissen, dass es sich bei einer bestimmten Gruppe um Alles oder Nichts handelt, können Sie die Wahrscheinlichkeit, dass die Gruppe als einzelne Einheit auftritt, einfach abschätzen und die Gruppe anhand der Anzahl der Personen in der Gruppe gewichten. Ich bin damit einverstanden, dass Fehlerspannen auch in Ihre Schätzungen einbezogen werden sollten.
Nick Stauner
Vielen Dank. Ich habe einen kleinen Tisch mit Prozentsätzen und der Anzahl der Leute mit diesem Prozentsatz, aber ich weiß nicht genau, was ich jetzt tun soll. Was bedeutet, dass ich hinzufügen soll? Welche Abweichungen? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad
5

(Ignorieren Sie meinen früheren Kommentar dazu - mir ist nur aufgefallen, dass ich die Erwartung mit etwas anderem verwechselt habe.) Da Sie im Wesentlichen versuchen, die Erwartung der Anzahl der auftauchenden Personen zu ermitteln, können Sie theoretisch die Wahrscheinlichkeit für jede auftauchende Person addieren zu tun.

Dies liegt daran, dass wir annehmen können, dass jemand den Wert oder annimmt , und dass die Erwartung ein linearer Operator ist.01

Dies gibt Ihnen jedoch nur den erwarteten Wert - ohne weitere Annahmen scheint es schwierig zu sein, die Varianz der auftauchenden Personen abzuschätzen, zumal anzunehmen ist, dass die auftauchende Person A nicht unbedingt unabhängig von der auftauchenden Person B ist.

Abgesehen davon ist hier ein vage relevanter BBC-Artikel.


quelle
Danke! Um nur zu bestätigen, wenn ich denke, dass 10 Personen eine Chance von 10% haben, zu kommen, kann ich zum Beispiel davon ausgehen, dass 1 Person kommen wird.
Behacad
Theoretisch ja, aber es scheint schwierig zu sein, etwas Nützlicheres (z. B. Konfidenzintervalle) ohne weitere Annahmen zu konstruieren.
Vielen Dank. Wie könnte ich zu Vertrauensintervallen kommen?
Behacad
Dass ich mir aus mehreren Gründen nicht ganz sicher bin. (Ich würde wahrscheinlich mehr Zeit damit verbringen müssen, einige Dinge
4

Bei großen Stückzahlen sind 80% das, was Sie erwarten würden. Dies ist möglicherweise eine Situation, in der eine detaillierte Analyse, wie Sie sie vorschlagen, den Berechnungen nur Fehler hinzufügt.
Ist zum Beispiel Marc's potenzielle Anwesenheit wirklich 1/3 von Josephs? Und sind es wirklich 30% von Joseph oder vielleicht 25%? Dinge passieren, wenn Sie große Zahlen erreichen, die einfach 80% mehr Gültigkeit haben als all diese Analysen. Ich bin gerade von einer Hochzeit zurückgekommen. 550 eingeladen. 452 waren anwesend. Für die Planung der Halle und für Gespräche mit dem Caterer war die anfängliche Schätzung von 440 in Ordnung.

Darf ich dem Paar eine Zeile von meinem Toast anbieten? "Denken Sie daran, wenn Ihre Frau glücklich ist, aber Sie nicht glücklich sind, sind Sie noch viel glücklicher als wenn Ihre Frau unglücklich ist, aber Sie sind glücklich."

JTP - Entschuldige dich bei Monica
quelle
Danke! Eine Sorge ist, dass Menschen von überall und aus unterschiedlichen Entfernungen kommen. Einige ziemlich weit weg, andere die Straße runter.
Behacad
3
Diese Zahl könnte kulturabhängig sein.
Juho Kokkala
@Juho - das kann sein. Ich bin in den USA und in meinem jüngsten Beispiel war es eine Hochzeit am Bestimmungsort für ungefähr die Hälfte der eingeladenen Personen, dh die Hochzeit fand in der Heimatstadt der Braut statt. Ich frage mich, welche kulturellen Unterschiede sich auf die Wahlbeteiligung auswirken würden, aber ich vermute, Sie haben Recht.
JTP - Entschuldigen Sie sich bei Monica
4
Dies ist ein wunderbares Beispiel für einen Schätzer, der theoretisch existiert, in der Praxis jedoch ungewöhnlich zu sein scheint (bis Sie nach so etwas Ausschau halten): Bei jedem Datensatz wird eine vorbestimmte Zahl zurückgegeben (in diesem Fall 80%). Es ist einfach zu berechnen, sehr kostengünstig (die Kosten für die Datenerfassung können auf Null gesenkt werden) und hat keine Varianz. Es ist Bayes (für einen Atomprior) und zulässig. Es wird immer noch nörgelnde Fragen zu seiner Voreingenommenheit und Konsistenz geben, die schwierig zu beantworten sein können und die nicht dadurch verschwinden, dass eine "detaillierte Analyse" vermieden wird.
whuber
2

Als Statistiker, der gerade geheiratet hat, werde ich Ihnen sagen, dass JoeTaxpayer die richtige Antwort hat. Die Zahl von 80% scheint mir ein wenig hoch zu sein, könnte aber zutreffend sein, wenn die meisten Leute aus der Region stammen (unsere Hochzeit war ein Ziel und wir landeten näher an 65%).

Trotzdem gehen Sie davon aus, dass die vorherigen Wahrscheinlichkeiten, an denen die Teilnehmer teilnehmen, sehr unterschiedlich sind. Angenommen, Sie laden keine Leute ein, die Sie aktiv nicht mögen, dann sollten Sie davon ausgehen, dass fast jeder kommen wird, für den es im Rahmen seiner Möglichkeiten liegt und der keinen Konflikt hat (im weiteren Sinne), aber mindestens 10-20%. WIRD etwas haben, das sie davon abhält, daran teilzunehmen. Für diejenigen, die reisen müssen, erhöht sich der Zeit- und Geldaufwand, so dass 30-35% der Reisenden (je nach Entfernung) nicht teilnehmen. Andernfalls halten Sie die Wahrscheinlichkeiten konstant (selbst wenn Ihre Eltern sagen, dass "ach so und so nicht bis nach Austin fliegen werden, möchten wir sie nur einladen ..."). Wenn Sie einen lustigen Empfang haben, vor allem mit einer offenen Bar, werden die Leute das im Allgemeinen nicht überspringen, es sei denn, sie müssen.

Wie auch immer, herzlichen Glückwunsch zum Heiraten. Nun, was die Wahrscheinlichkeit angeht, dass Sie verheiratet bleiben, ist dies immer eine gute Lektüre: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)

Mike Nute
quelle
1

Addieren Sie alle Wahrscheinlichkeiten, das ist Ihre erwartete Anzahl an Personen.

Sie haben i = 1..N Ereignisse, jedes hat die Wahrscheinlichkeit . Die erwartete Anzahl der zu erwartenden Personen ist , wobei - Indikatorvariable gleich eins ist, wenn eine Person auftaucht, und ansonsten Null.Pii1iPi1i

Natürlich gehen wir davon aus, dass es nicht von der Anwesenheit anderer abhängt, ob jemand kommt oder nicht. Diese Annahme ist einfach falsch. Betrachten Sie Paare, sie sind stark korreliert.

Da Sie keine Korrelationsdaten haben, können Sie Paare am besten als Einheit behandeln, dh , wobei die Wahrscheinlichkeit ist, mit der das Paar auftaucht.2×1iPiPi

Aksakal
quelle
1

Für meine Hochzeit habe ich zwei Listen erstellt - wahrscheinlich (80%) und unwahrscheinlich (20%). Unabhängig von einer genaueren Einschätzung aus irgendeinem Grund habe ich alle eingeladenen Personen einer der beiden Gruppen zugeordnet. Ich war von 2 Leuten weg. N = 1. Rein heuristisch.

michaelcarniol
quelle
Darf ich fragen? Was war die endgültige Wahlbeteiligung?
JTP - Entschuldige dich bei Monica,
72% haben mit Ja geantwortet, aber ich habe vergessen, wie viele Tage storniert wurden.
Michaelcarniol
0

Mir ist aufgefallen, dass niemand darauf hingewiesen hat, dass Sie nicht durch 100 teilen müssen. Ihre Prozentsätze können als erwartete Teile einer Person angesehen werden, die angezeigt werden, mit der Maßgabe, dass Sie wie bei Schrödingers Katze keine Teile einer Person erhalten anwesend oder nicht anwesend, aber der Anwesenheitsstatus jeder Person wird zum Zeitpunkt der Veranstaltung vollständig geklärt.

Da der Bereich Ihrer Prozentsätze von 0% (keiner der angezeigten Personen) bis 100% (alle angezeigten Personen) reicht, haben Sie in Ihren beiden Beispielen mit 10 und 20 Personen den erwarteten Wert für den jeweiligen Teil summiert Person zu zeigen, und bekam eine Nummer, deren Einheiten "Menschen" waren.

Die herausragende Gleichung in QuantIbex 'hervorragender Antwort zeigt, dass die Summe der Prozentsätze die erwartete Personenzahl bei der Veranstaltung ergibt, ohne dass eine Aufteilung erforderlich ist.

Travis Bemrose
quelle