Multi-Arm-Banditen funktionieren gut in Situationen, in denen Sie die Wahl haben und nicht sicher sind, welche Banditen Ihr Wohlbefinden maximieren. Sie können den Algorithmus für einige reale Situationen verwenden. Lernen kann zum Beispiel ein gutes Feld sein:
Wenn ein Kind Tischlerei lernt und es schlecht darin ist, sagt ihm der Algorithmus, dass er / sie wahrscheinlich weitermachen muss. Wenn er / sie gut darin ist, fordert der Algorithmus ihn / sie auf, dieses Feld weiter zu lernen.
Dating ist auch ein gutes Feld:
Sie sind ein Mann, der große Anstrengungen unternimmt, um eine Frau zu verfolgen. Ihre Bemühungen sind jedoch definitiv unerwünscht. Der Algorithmus sollte Sie "leicht" (oder stark) zum Weitermachen anstoßen.
Für welche andere reale Situation können wir den Mehrarm-Banditen-Algorithmus verwenden?
PS: Wenn die Frage zu weit gefasst ist, hinterlassen Sie bitte einen Kommentar. Wenn es einen Konsens gibt, werde ich meine Frage entfernen.
Antworten:
Wenn Sie die ursprünglichen Pokemon-Spiele (Rot oder Blau und Gelb) spielen und Celadon City erreichen, haben die Team-Raketen-Spielautomaten unterschiedliche Gewinnchancen. Multi-Arm Bandit genau dort, wo Sie das Erreichen dieses Porygons wirklich schnell optimieren möchten.
Im Ernst, die Leute sprechen über das Problem bei der Auswahl von Tuning-Variablen beim maschinellen Lernen. Besonders wenn Sie viele Variablen haben, wird über Exploration und Exploitation gesprochen. Siehe wie Spearmint oder sogar das neue Paper in diesem Thema, das einen supereinfachen Algorithmus zur Auswahl von Stimmparametern verwendet (und andere Techniken für Stimmvariablen weit übertrifft).
quelle
Sie können in einem biomedizinischen Behandlungs- / Forschungsdesign verwendet werden. Ich glaube zum Beispiel, dass Q-Learning- Algorithmen in sequentiellen, mehrfachen und randomisierten Studien ( SMART-Studien ) verwendet werden. Die Idee ist, dass sich das Behandlungsregime optimal an den Fortschritt des Patienten anpasst. Es ist klar, wie dies für einen einzelnen Patienten am besten sein kann, aber es kann auch in randomisierten klinischen Studien effizienter sein.
quelle
Sie werden für A / B-Tests von Online-Werbung verwendet, bei denen unterschiedliche Anzeigen für unterschiedliche Nutzer geschaltet werden und auf der Grundlage der Ergebnisse Entscheidungen darüber getroffen werden, welche Anzeigen in Zukunft geschaltet werden sollen. Dies wird in einem guten Artikel von Google-Forscher Steven L. Scott beschrieben .
quelle
Ich habe die gleiche Frage zu Quora gestellt
Hier ist die Antwort
quelle