Betreutes Lernen, unbeaufsichtigtes Lernen und Bestärkungslernen: Workflow-Grundlagen

30

Überwachtes Lernen

  • 1) Ein menschliches baut einen Klassifizierer basierend auf Eingabe und Ausgabedaten
  • 2) Dieser Klassifikator wird mit einem Trainingsdatensatz trainiert
  • 3) Dieser Klassifikator wird mit einem Testdatensatz getestet
  • 4) Bereitstellung, wenn die Ausgabe zufriedenstellend ist

Um verwendet zu werden, wenn "Ich weiß, wie man diese Daten klassifiziert, ich brauche nur Sie (den Klassifizierer), um sie zu sortieren."

Methodenkomponente: Zum Klassifizieren von Beschriftungen oder zum Erzeugen reeller Zahlen

Unbeaufsichtigtes Lernen

  • 1) Ein menschliches baut einen Algorithmus basierend auf Eingangsdaten
  • 2) Dieser Algorithmus wird mit einem Testdatensatz getestet (in dem der Algorithmus den Klassifikator erstellt).
  • 3) Einsatz, wenn der Klassifikator zufriedenstellend ist

Um verwendet zu werden, wenn "Ich habe keine Ahnung, wie ich diese Daten klassifizieren soll. Können Sie (der Algorithmus) einen Klassifikator für mich erstellen?"

Methodenpunkt: Etiketten klassifizieren oder vorhersagen (PDF)

Verstärkung lernen

  • 1) Ein menschliches baut einen Algorithmus basierend auf Eingangsdaten
  • 2) Dieser Algorithmus stellt einen Zustand dar, der von den Eingabedaten abhängt, in denen ein Benutzer den Algorithmus über die vom Algorithmus ausgeführte Aktion belohnt oder bestraft. Dies setzt sich über die Zeit fort
  • 3) Dieser Algorithmus lernt aus der Belohnung / Bestrafung und aktualisiert sich, dies geht weiter
  • 4) Es ist immer in Produktion, es muss reale Daten lernen, um Aktionen von Staaten darstellen zu können

Zu verwenden, wenn: "Ich habe keine Ahnung, wie ich diese Daten klassifizieren soll. Können Sie diese Daten klassifizieren und ich werde Ihnen eine Belohnung geben, wenn sie korrekt sind, oder ich werde Sie bestrafen, wenn sie nicht korrekt sind."

Ist dies der Fluss dieser Praktiken? Ich höre viel darüber, was sie tun, aber die praktischen und beispielhaften Informationen sind erschreckend wenig!

Karl Morrison
quelle
Hat mir sehr gut gefallen, wie Sie Ihre Frage gestellt haben. Ich fand diese Antwort hilfreich: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Antworten:

3

Dies ist eine sehr schöne kompakte Einführung in die Grundideen!

Verstärkung lernen

Ich denke, dass Ihre Use-Case-Beschreibung des verstärkenden Lernens nicht genau richtig ist. Der Begriff klassifizieren ist nicht zutreffend. Eine bessere Beschreibung wäre:

Ich weiß nicht , wie zu handeln in dieser Umgebung , können Sie ein gutes finden Verhalten und in der Zwischenzeit werde ich Ihnen geben Feedback .

Mit anderen Worten, das Ziel ist eher, etwas gut zu kontrollieren , als etwas gut zu klassifizieren .

Eingang

  • Die Umgebung, die definiert wird durch
    • alle möglichen Zustände
    • mögliche Aktionen in den Staaten
  • Die Belohnungsfunktion ist abhängig vom Zustand und / oder der Aktion

Algorithmus

  • Der Agent
    • ist in einem Zustand
    • führt eine Aktion aus , um in einen anderen Status zu wechseln
    • bekommt eine Belohnung für die Aktion im Staat

Ausgabe

  • Der Agent möchte eine optimale Police finden , die die Belohnung maximiert
Elcombato
quelle
2

Haftungsausschluss: Ich bin kein Experte und habe (noch) nie etwas mit Verstärkung gelernt, daher wäre jedes Feedback willkommen ...

Hier ist eine Antwort, die Ihrer Liste ein paar winzige mathematische Notizen und einige andere Gedanken darüber hinzufügt, wann Sie was verwenden sollen. Ich hoffe, die Aufzählung ist selbsterklärend genug:

Überwacht

  1. Wir haben DatenD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Wir suchen für alle Punkte ein Modell , das ein Verlust- / Kostenmaß minimiertGL(yich,G(xich))0ich<l
  3. Wir werten das Modell aus, indem wir den Verlust / die Kosten für den Rest der Daten ( ) berechnen , um eine Vorstellung davon zu erhalten, wie gut sich das Modell verallgemeinertLlichn

Wir können Beispiele nennen, aber wir können keinen Algorithmus angeben, um von der Eingabe zur Ausgabe zu gelangen

Einstellung für Klassifizierung und Regression

Unbeaufsichtigt

  1. Wir haben DatenD={x0,x1,,xn}
  2. Wir suchen ein Modell , das uns einen Einblick in unsere Daten gibt.G
  3. Wir haben kaum oder gar nichts zu sagen, ob wir etwas Nützliches / Interessantes getan haben

Wir haben einige Daten, aber wir haben keine Ahnung, wo wir anfangen sollen, nach nützlichen / interessanten Dingen zu suchen

Einstellung für Clustering, Dimensionsreduktion, Auffinden versteckter Faktoren, generativer Modelle usw.

Verstärkung

  1. Wir haben keine Daten
  2. Wir bauen ein Modell , die Daten erzeugt (oft als Aktionen), die auf Messungen basieren , und / oder frühere Aktionen, in einem Versuch , eine Belohnung Maßnahme zu maximieren , Dies ist dem Modell im Allgemeinen nicht bekannt (es muss auch erlernt werden).x i R ( x i )GxichR(xich)
  3. Wir bewerten anhand der Belohnungsfunktion, nachdem sie einige Zeit zum Lernen hatte.

Wir haben keine Ahnung, wie etwas zu tun ist, aber wir können sagen, ob es richtig oder falsch gemacht wurde

Dies scheint besonders nützlich für sequentielle Entscheidungsaufgaben zu sein.

Literatur:
Si, J., Barto, A., Powell, W. und Wunsch, D. (2004) Bestärkungslernen und seine Beziehung zu überwachtem Lernen im Handbuch des Lernens und der ungefähren dynamischen Programmierung, John Wiley & Sons, Inc., Hoboken, New Jersey, USA. doi: 10.1002 / 9780470544785.ch2

Herr Tsjolder
quelle