Was ist die wirkliche Antwort auf die Geburtstagsfrage?

13

"Wie groß muss eine Klasse sein, damit die Wahrscheinlichkeit, zwei Personen mit demselben Geburtstag zu finden, mindestens 50% beträgt?"

Ich habe 360 ​​Freunde auf Facebook und wie erwartet ist die Verteilung ihrer Geburtstage überhaupt nicht einheitlich. Ich habe einen Tag mit dem 9 Freunde mit dem gleichen Geburtstag haben. (9 Monate nach den großen Feiertagen und dem Valentinstag scheinen große zu sein, lol ..) Da einige Tage für einen Geburtstag wahrscheinlicher sind, gehe ich davon aus, dass die Zahl 23 eine Obergrenze darstellt.

Hat es eine bessere Schätzung für dieses Problem gegeben?

Adam
quelle
3
Eine Stichprobe von 360 Personen ist keine große Stichprobe für die Verteilung von Geburtstagen über 365 Tage im Jahr. Sie können mit Sicherheit nicht die Homogenität einer so kleinen Stichprobe überprüfen.
Xi'an,
Eine Person hat Geburtstag. Wie hoch ist die Wahrscheinlichkeit, dass eine zweite Person nicht denselben Geburtstag hat? 364/365Wie hoch ist die Wahrscheinlichkeit, dass eine dritte Person keinen Geburtstag hat? (364/365) * (363/365). Erweitern Sie dies, bis Sie eine Wahrscheinlichkeit haben < 50%. Dies würde bedeuten, dass niemand den gleichen Geburtstag hat, was wiederum bedeuten würde, dass die Wahrscheinlichkeit, dass sich mindestens zwei einen Geburtstag teilen, gleich ist > 50%.
zzzzBov
8
Sollen wir annehmen, dass Sie zufällige Freunde haben?
James
1
@zzzzBov - Sie verstehen nicht, wonach das OP fragt. Dies ist der Ansatz , bei dem wir jeden Geburtstag annehmen mit gleicher Wahrscheinlichkeit auf , die jeweils mit dem Zufall des Sein bei Ihnen. Das OP fragt nach , was die Schätzung wäre , wenn am 1. Jan. geboren sagt, ist nicht so wahrscheinlich wie am 15. Februar geboren1365
probabilityislogic

Antworten:

18

Glücklicherweise hat jemand echte Geburtstagsdaten mit ein wenig Diskussion über eine verwandte Frage gepostet (ist die Verteilungsuniform). Wir können dies und das Resampling verwenden, um zu zeigen, dass die Antwort auf Ihre Frage anscheinend 23 ist - dieselbe wie die theoretische Antwort .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Peter Ellis
quelle
8
Tatsächlich kann man durch Schur-Konvexität zeigen , dass für jede ungleichmäßige Verteilung von Geburtstagen die Wahrscheinlichkeit einer Übereinstimmung mindestens so groß ist wie im einheitlichen Fall. Dies ist Übung 13.7 von J. Michael Steele, Die Cauchy-Schwarz-Meisterklasse: Eine Einführung in die Kunst der mathematischen Ungleichungen , Cambridge University Press, 2004, S. 40. 206 .
Kardinal
2
@ Xi'an: In der Tat. Wenn ich nur jemanden kennen würde, der Buchbesprechungen für ein hochqualitatives Statistikmagazin mit hoher Leserschaft erstellt hat, würde ich vorschlagen, dass er diese bespricht, um die Sichtbarkeit für Statistiker zu verbessern ... aber wo finde ich eine solche Person?
Kardinal
3
(Für diejenigen, die sich vielleicht über meinen unmittelbar vorhergehenden Kommentar wundern, bezieht er sich auf die Tatsache, dass @ Xi'an der neu ernannte Buchkritiker für Chance ist .)
Kardinal
2
Diese out @ Xi'an, überprüfen und sehen , was Sie denken: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Mit Ausnahme von R cognoscenti ist wahrscheinlich nicht klar, dass der Code in früheren Kommentaren von @ Xi'an und mir die Situation des OP simuliert. Wenn man es durchführt, ist die Wahrscheinlichkeit, dass 9 oder mehr Personen von 360 zufällig aus einer gleichmäßig verteilten Population einen Geburtstag teilen , nur etwa 40 von 100.000. Der wahrscheinlichste Wert für die maximale Anzahl gemeinsamer Geburtstage ist 5.
whuber