Stellen Sie sich folgendes Setup vor: Sie haben 2 Münzen, Münze A, die garantiert fair ist, und Münze B, die fair sein kann oder nicht. Sie werden aufgefordert, 100 Münzen zu werfen, und Ihr Ziel ist es, die Anzahl der Köpfe zu maximieren .
Ihre vorherige Information über Münze B ist, dass sie dreimal geworfen wurde und 1 Kopf ergab. Wenn Ihre Entscheidungsregel lediglich auf dem Vergleich der erwarteten Wahrscheinlichkeit der Köpfe der 2 Münzen basiert, würden Sie die Münze A 100-mal werfen und damit fertig sein. Dies gilt auch dann, wenn vernünftige Bayes'sche Schätzungen (hintere Mittelwerte) der Wahrscheinlichkeiten verwendet werden, da Sie keinen Grund zu der Annahme haben, dass Münze B mehr Köpfe ergibt.
Was ist jedoch, wenn die Münze B tatsächlich zugunsten der Köpfe voreingenommen ist? Sicherlich sind die "potentiellen Köpfe", die Sie aufgeben, wenn Sie die Münze B ein paarmal umwerfen (und damit Informationen über ihre statistischen Eigenschaften erhalten), in gewisser Weise wertvoll und fließen daher in Ihre Entscheidung ein. Wie kann dieser "Informationswert" mathematisch beschrieben werden?
Frage: Wie konstruieren Sie in diesem Szenario mathematisch eine optimale Entscheidungsregel?
quelle
Antworten:
Mehrarmiger Bandit
Dies ist ein besonderer Fall eines mehrarmigen Banditenproblems . Ich sage einen bestimmten Fall, weil wir im Allgemeinen keine der Wahrscheinlichkeiten von Köpfen kennen (in diesem Fall wissen wir, dass eine der Münzen eine Wahrscheinlichkeit von 0,5 hat).
Das Problem, das Sie ansprechen, wird als Exploration-vs.-Exploitation- Dilemma bezeichnet: Untersuchen Sie die anderen Optionen oder bleiben Sie bei dem, was Sie für das Beste halten. Es gibt eine sofortige optimale Lösung, wenn Sie alle Wahrscheinlichkeiten kennen : Wählen Sie einfach die Münze mit der höchsten Gewinnwahrscheinlichkeit. Wie Sie angedeutet haben, besteht das Problem darin, dass wir uns nicht sicher sind, wie hoch die tatsächlichen Wahrscheinlichkeiten sind.
Es gibt viel Literatur zu diesem Thema und es gibt viele deterministische Algorithmen, aber da Sie diesen Bayesian markiert haben, möchte ich Ihnen von meiner persönlichen Lieblingslösung erzählen: dem Bayesianischen Banditen !
Die baysische Banditenlösung
Die bayesianische Herangehensweise an dieses Problem ist sehr natürlich. Wir sind interessiert an der Antwort "Wie groß ist die Wahrscheinlichkeit, dass die Münze X die bessere von beiden ist?".
A priori , vorausgesetzt , wir beobachtet haben , nicht die Wahrscheinlichkeit der Münze B Heads , auch sein mag, bezeichnen diese unbekannte Münze noch Flips, wir , was keine Ahnung haben , . Daher sollten wir dieser unbekannten Wahrscheinlichkeit eine vorherige Gleichverteilung zuweisen. Alternativ ist unsere vorherige (und hintere) für Münze A ganz auf 1/2 konzentriert.pB
Wie Sie angegeben haben, beobachten wir 2 Schwänze und 1 Köpfe von Münze B. Wir müssen unsere hintere Verteilung aktualisieren. Unter der Annahme, dass ein einheitlicher Prior und Flips Bernoulli-Coin-Flips sind, ist unser Posterior ein . Vergleich der posterioren Verteilungen von A und B:B e t a ( 1 + 1 , 1 + 2 )
Eine annähernd optimale Strategie finden
Was ist nun zu tun, da wir die Nachhut haben? Wir sind daran interessiert zu antworten: "Was ist die Wahrscheinlichkeit, dass Münze B die bessere der beiden ist?"
Die annähernd optimale Lösung besteht darin, B mit der Wahrscheinlichkeit und A mit der Wahrscheinlichkeit 1 - w B zu wählen . Dieses Schema maximiert die erwarteten Gewinne. w B kann numerisch berechnet werden, da wir die hintere Verteilung kennen, aber ein interessanter Weg ist der folgende:wB 1 - wB wB
Dieses Schema aktualisiert sich ebenfalls von selbst. Wenn wir das Ergebnis der Auswahl von Münze B beobachten, aktualisieren wir unseren hinteren Teil mit diesen neuen Informationen und wählen erneut aus. Auf diese Weise wählen wir die Münze B, wenn sie wirklich schlecht ist, seltener aus, und die Münze B ist in der Tat wirklich gut. Natürlich sind wir Bayesianer, daher können wir niemals absolut sicher sein, dass Münze B besser ist. Eine solche probabilistische Wahl ist die natürlichste Lösung für das Explorations-Exploitations-Dilemma.
Dies ist ein besonderes Beispiel für Thompson Sampling . Weitere Informationen und coole Anwendungen für Online-Werbung finden Sie in den Forschungsberichten von Google und Yahoo . Ich liebe dieses Zeug!
quelle
Dies ist ein einfacher Fall eines mehrarmigen Banditenproblems . Wie Sie bemerken, möchten Sie die gesammelten Informationen ausgleichen, indem Sie die unbekannte Münze ausprobieren, wenn Sie der Meinung sind, dass sie auf kurze Sicht nicht optimal ist, und nicht, wenn Sie das vorhandene Wissen ausnutzen.
Im Allgemeinen glaube ich, dass Sie nicht von einem dynamischen Programmierproblem loskommen können, obwohl es Sonderfälle geben kann, in denen die optimale Strategie einfacher gefunden und überprüft werden kann.
Mit einem Uniformprior sollten Sie hier aufhören:
Ich habe den folgenden Mathematica-Code verwendet, um die Aktien zu berechnen:
Zum Vergleich ergibt die von Cam Davidson Pilon als optimal bezeichnete Thompson-Stichprobenheuristik einen um 1.03915 niedrigeren Durchschnitt von 60.2907 Köpfen. Thompson Sampling hat das Problem, dass es manchmal B abtastet, wenn Sie genug Informationen haben, um zu wissen, dass es keine gute Wette ist, und es verschwendet oft die Chance, B früh abzutasten, wenn die Informationen die meisten wert sind. Bei dieser Art von Problem ist es Ihnen fast nie gleichgültig, welche Optionen Sie haben, und es gibt eine rein optimale Strategie.
quelle