Das Warren Buffett Problem

Hier ist eine Abstraktion eines Online-Lern- / Banditenproblems, an dem ich im Sommer gearbeitet habe. Ich habe so ein Problem noch nie gesehen und es sieht ziemlich interessant aus. Wenn Sie verwandte Arbeiten kennen, würde ich mich über Referenzen freuen.

Das Problem Die Einstellung ist die von mehrarmigen Banditen. Du hast N Arme. Jeder Arm hat eine unbekannte, aber feste Wahrscheinlichkeitsverteilung über Belohnungen, die durch das Spielen verdient werden können. Nehmen wir der Vollständigkeit halber an, dass jeder Arm, den ich bezahle, $ 10 mit der Wahrscheinlichkeit p [i] und $ 0 mit prob belohnt. 1-p [i] .

In jeder Runde t wählst du einen Satz S [t] von Armen zum Spielen aus. Für jeden Arm, den Sie auswählen, zahlen Sie im Voraus eine Gebühr von 1 USD . Für jeden ausgewählten Arm sammeln Sie eine Belohnung, die aus der (unbekannten) Wahrscheinlichkeitsverteilung für die Belohnung dieses Arms gezogen wird. Alle Belohnungen werden Ihrem Bankkonto gutgeschrieben und alle Gebühren werden von diesem Konto abgezogen. Zusätzlich erhalten Sie zu Beginn jeder Iteration ein Guthaben von 1 US-Dollar .

Das Problem besteht darin, eine Strategie zur Auswahl einer Teilmenge von Waffen zu entwickeln, die in jeder Iteration gespielt werden soll, um den Gewinn (dh die Belohnungen abzüglich der Spielgebühren) über einen ausreichend langen Zeitraum zu maximieren, vorbehaltlich der Einschränkung, dass ein nicht negativer Kontostand aufrechterhalten werden muss jederzeit.

Ich habe nicht angegeben, ob die Pro-Arm-Belohnungsverteilungen aus einer vorherigen Verteilung oder von einem Gegner ausgewählt wurden. Beide Entscheidungen sind sinnvoll. Die Formulierung des Gegners ist für mich ansprechender, aber wahrscheinlich schwieriger, Fortschritte zu erzielen. Hier wählt der Gegner einen Verteilungsvektor (D1, D2, .., DN). In Anbetracht der Verteilungen besteht die optimale Strategie für einen ausgeglichenen Haushalt darin, alle Waffen zu spielen, deren erwartete Belohnung über 1 USD liegt. Sei P der schrittweise Gewinn dieser optimalen allwissenden Politik. Ich möchte, dass meine Online-Richtlinie das Bedauern (dh den Gewinnverlust über ein Zeitfenster hinweg) dieser allwissenden Richtlinie minimiert.

machine-learning lg.learning online-learning Martin Pál
quelle

Sind Sie sicher, dass die beste Strategie darin besteht, alle Waffen zu spielen, deren erwartete Belohnung in jeder Runde über 1 $ liegt? Wenn Sie die strikte Einschränkung haben, dass Sie jederzeit einen nicht negativen Kontostand haben müssen, kann es Runden geben, in denen Sie nicht einmal spielen dürfen.

Matthias

Sie kennen also die Belohnungswahrscheinlichkeiten nicht, können aber die Auszahlung an jedem einzelnen Arm ablesen?

David Thornley

Sie kennen keine Wahrscheinlichkeiten und Sie kennen keine erwarteten Belohnungen. Eine allwissende "optimale" Politik, mit der ich mich vergleichen möchte, kann jedoch alle Waffen mit einer Belohnung von mehr als 1 spielen, da sie allwissend ist.

Martin Pál

Ich gehe davon aus, dass Sie nach

Runden Ihr erwartetes Einkommen auf einen konstanten Faktor des Optimums bringen können, wonach das Problem den größten Teil seines ungewöhnlichen Charakters verloren zu haben scheint. Eine Untergrenze von

ergibt sich aus einem Fall, in dem nur ein Arm eine Auszahlung ungleich Null hat. Ich sehe nicht sofort eine Obergrenze.

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

Warren Schudy

Korrektur: Nach

Runden können Sie wahrscheinlich nicht garantieren, dass Sie einen konstanten Faktor für ein optimales Einkommen erreichen. Sie können jedoch wahrscheinlich diese Garantie in Bezug auf das Einkommen erhalten, das von Waffen verfügbar ist, die eine Rendite von mindestens 2 Dollar erwartet haben.

Θ (N)

$\Theta(N)$

Warren Schudy

Ich stelle mir vor, dass es viele mögliche Ansätze für dieses Problem gibt (von denen ich sicher bin, dass Sie darüber nachgedacht haben) - hier sind einige Ideen / Referenzen.

$N$
$O(2^{N/2} T^{1/2})$
Saten Kale, Rob Schapire und ich betrachten in einem anstehenden NIPS 2010-Artikel den Fall, in dem man auf einmal mit dem Arm spielt. In unserer Arbeit ist jedoch die Größe des Schiefers festgelegt. Dieses Papier betrachtet auch ein ähnliches Problem. Eine andere ähnliche Arbeit erschien in ALT 2010. Vielleicht übertragen sich einige der Ideen.
$2^N$ $O(N\sqrt{T})$ $O(2^N T)$

BEARBEITEN Sie unten:

$0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

$B$ $0$ $2B$ $1/B$

Lev Reyzin
quelle

Hallo Lev, danke für die Hinweise. Ich stimme zu, dass wenn ich ein unbegrenztes anfängliches Budget hätte, N parallele Single-Arm-Banditen zu spielen, dies das Problem lösen würde. Die Budgetbeschränkung führt jedoch zu einer Kopplung zwischen Waffen und macht die Dinge interessant. Insbesondere im ersten Schritt haben Sie nur Budget, um einen Arm zu spielen. Im zweiten Schritt können Sie entweder 11 Arme oder nur 1 Arm spielen, je nachdem, ob Sie im ersten Schritt Glück hatten und so weiter. Es ist daher wichtig, frühzeitig eine Reihe profitabler Waffen zu finden, die Sie dann zur weiteren Erkundung einsetzen können.

Martin Pál

Ich wusste nicht, dass es ein anfängliches Budget gibt (ich verstehe jetzt den Teil "nicht negativer Saldo", aber vielleicht können Sie es in der Frage klarer machen?) - das macht das Problem interessanter. Auch die "kontextbezogene" oder Expertenversion könnte Spaß machen. Leider kenne ich keine relevanten Referenzen für dieses Problem.

Lev Reyzin

Wenn ich das Problem richtig formuliert habe, bekommst du pro Runde einen zusätzlichen Dollar. Martin, könnten Sie vielleicht die Frage klären?

Jukka Suomela

Ich denke, Sie gewinnen, was immer eine Maschine zahlt, wenn Sie sie spielen und gewinnen und verlieren 1 $, wenn Sie sich entscheiden zu spielen.

Lev Reyzin

Das Warren Buffett Problem

Antworten: