K Erfolge in Bernoulli-Versuchen oder George Lucas Filmexperiment

23

Ich lese gerade "The Drunkard's Walk" und kann keine Geschichte daraus verstehen.

Hier kommt's:

Stellen Sie sich vor, George Lucas dreht einen neuen Star Wars-Film und entscheidet sich in einem Testmarkt für ein verrücktes Experiment. Er veröffentlicht den identischen Film unter zwei Titeln: "Star Wars: Episode A" und "Star Wars: Episode B". Jeder Film hat eine eigene Marketingkampagne und einen eigenen Vertriebsplan, wobei die entsprechenden Details identisch sind, mit der Ausnahme, dass in den Trailern und Anzeigen für einen Film "Episode A" und für den anderen "Episode B" steht.

Jetzt machen wir einen Wettbewerb daraus. Welcher Film wird beliebter sein? Nehmen wir an, wir schauen uns die ersten 20.000 Kinobesucher an und nehmen den Film auf, den sie sehen möchten (ohne die eingefleischten Fans zu beachten, die zu beiden gehen und dann darauf bestehen, dass es subtile, aber bedeutungsvolle Unterschiede zwischen den beiden gibt). Da die Filme und ihre Marketingkampagnen identisch sind, können wir das Spiel mathematisch folgendermaßen modellieren: Stellen Sie sich vor, Sie stellen alle Zuschauer hintereinander auf und werfen nacheinander eine Münze für jeden Zuschauer. Wenn die Münze auf dem Kopf landet, sieht er oder sie Episode A; Wenn die Münze am Ende landet, ist es Episode B. Da die Münze die gleiche Chance hat, in beide Richtungen zu kommen, könnte man denken, dass in diesem experimentellen Kassenkrieg jeder Film ungefähr die Hälfte der Zeit in der Hauptrolle sein sollte.

Die Mathematik der Zufälligkeit sagt jedoch etwas anderes aus: Die wahrscheinlichste Anzahl von Änderungen in der Hauptrolle ist 0, und es ist 88-mal wahrscheinlicher, dass einer der beiden Filme durch alle 20.000 Kunden führt, als dass die Hauptrolle beispielsweise ständig schwankt "

Ich schreibe dies wahrscheinlich fälschlicherweise einem einfachen Bernoulli-Versuchsproblem zu und muss sagen, dass ich nicht verstehe, warum der Anführer im Durchschnitt nicht wippt! Kann mir jemand erklären?

andreister
quelle

Antworten:

22

Hier ist ein R-Code zur Simulation des George Lucas-Experiments:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Wenn wir es laufen lassen, bekommen wir Bilder wie diese:

Bildbeschreibung hier eingeben

Dabei liegt der Unterschied zwischen A und B bei den verkauften Tickets auf der y-Achse.

Als nächstes führen wir so simuliert George Lucas Experimente. Für jedes Experiment berechnen wir den Zeitanteil 0 , dh den Anteil der aneinandergereihten Zuschauer, für die die Anzahl der an A verkauften Tickets größer oder gleich der Anzahl der an B verkauften Tickets ist sagen , dass dieser Anteil soll in etwa sein 1 / 2 . Hier ist ein Histogramm der Ergebnisse:10,00001/2

Bildbeschreibung hier eingeben

Der Anteil beträgt im Durchschnitt in dem Sinne , dass der Erwartungswert ist 1 / 2 , aber 1 / 2 ist ein unwahrscheinliches Wert im Vergleich zu Werten nahe 0 oder 1 . Bei den meisten Experimenten sind die Unterschiede die meiste Zeit entweder positiv oder negativ!1/21/21/201

Die rote Kurve ist die Dichtefunktion der Arcussinus Verteilung, auch bekannt als die VerteilungBeta(1/2,1/2) . Was im obigen Bild dargestellt ist, ist ein Theorem, das als erstes Arscine-Gesetz für Zufallsläufe bekannt ist. Es besagt, dass die Verteilung des Zeitanteils über gegen unendlich tendiert , wenn sich die Anzahl der Schritte des einfachen symmetrischen Zufallslaufs der Unendlichkeit nähert Arkussinusverteilung. Eine Standardreferenz für dieses Ergebnis ist Abschnitt III.4 der Einführung in die Wahrscheinlichkeitstheorie und ihre Anwendungen, Band 1 von William Feller.0


Der R-Code für die Simulationsstudie lautet

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)
MånsT
quelle
Vielen Dank! Ich habe R installiert und möchte alle Ihre Schritte wiederholen. Wie kann ich 10.000 Simulationen ausführen und den Zeitanteil berechnen?
andreister
@andreister: Ich habe meine Antwort bearbeitet und am Ende den Code für die Simulation hinzugefügt. Ich hoffe, Sie finden es nützlich!
MånsT
Danke, das ist sehr nützlich! Um sicherzugehen, dass ich das Zeug verstehe, habe ich pastebin.com/mtRdsPkP basierend auf Ihrem Code erstellt - können Sie trotzdem blättern?
andreister
cumsumsumcumsumii
(Forts.) Dies ist die Information, die uns interessiert, da wir sehen wollen, ob der Anführer wippt. sumwürde einfach alle Einsen und Einsen summieren, was das Endergebnis ergibt, nachdem alle 20.000 Zuschauer berücksichtigt wurden (dh das letzte Element des cumsumVektors).
MånsT
11

1/2tt=13/4t=3t

11

20,000

Wenn Sie einige der Wahrscheinlichkeiten berechnen möchten, müssen Sie etwas zählen, das Gitterläufen ähnelt, die die Diagonale nicht überschreiten. Es gibt eine großartige kombinatorische Methode, die für zufällige Spaziergänge (und für Brownsche Bewegungen) gilt, die eine solche Linie nicht überschreiten. Sie wird Reflexionsprinzip oder Reflexionsmethode genannt . Dies ist eine Methode zur Bestimmung der katalanischen Zahlen . Hier sind zwei weitere Anwendungen:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56

Douglas Zare
quelle
Vielen Dank! Ich muss die Notation verstehen, bevor ich Ihre Antwort verstehe! Was bedeutet "landet vor 10.200 - 9.800" usw. Woher beziehen Sie die Zahlen? Wie sehen Sie 20K ist der Modus?
andreister
10,2009,80011,0009,00010,0019,999.20,00000p000
0

"Es ist 88-mal wahrscheinlicher, dass einer der beiden Filme durch alle 20.000 Kunden führt, als dass der Film zum Beispiel ständig schwankt."

Im Klartext: Einer der Filme bekommt eine frühe Spur. Es muss, da der erste Kunde zu A oder B gehen muss. Dieser Film behält dann genauso wahrscheinlich seinen Vorsprung wie er verliert.

88-mal wahrscheinlicher , na ja, unwahrscheinlich, bis Sie sich daran erinnern, dass perfektes Wippen sehr unwahrscheinlich ist. Das Diagramm in MansTs Antwort , das dies grafisch darstellt, ist faszinierend, nicht wahr?

ASIDE: Persönlich denke ich, dass es mehr als 88 Mal sein wird - aufgrund von <buzzword-alert>viralem Marketing </buzzword-alert>. Jede Person fragt andere Personen, was sie gesehen haben, und besucht mit größerer Wahrscheinlichkeit denselben Film. Sie werden dies sogar unbewusst tun: Die Leute treten eher in eine lange Schlange, um etwas zu sehen. Dh sobald der Zufall unter den ersten Kunden einen Führer geschaffen hat, wird die menschliche Psychologie ihn als Führer behalten :-).

Darren Cook
quelle