Halbüberwachtes Lernen, aktives Lernen und tiefes Lernen für die Klassifizierung

19

Letzte Bearbeitung mit allen Ressourcen aktualisiert:

Für ein Projekt wende ich Algorithmen für maschinelles Lernen zur Klassifizierung an.

Herausforderung: Sehr begrenzte beschriftete Daten und viel mehr unbeschriftete Daten.

Tore:

  1. Wenden Sie eine halbüberwachte Klassifizierung an
  2. Wenden Sie einen halbüberwachten Etikettierungsprozess an (bekannt als aktives Lernen).

Ich habe viele Informationen aus Forschungsarbeiten gefunden, wie zum Beispiel die Anwendung von EM, Transductive SVM oder S3VM (Semi Supervised SVM) oder die Verwendung von LDA usw. Auch zu diesem Thema gibt es nur wenige Bücher.

Frage: Wo sind die Implementierungen und praktischen Quellen?


Letztes Update (basierend auf den Hilfen von mpiktas, bayer und Dikran Marsupial)

Teilüberwachtes Lernen:

Aktives Lernen:

  • Dualist : eine Implementierung des aktiven Lernens mit Quellcode zur Textklassifizierung
  • Diese Webseite bietet einen wunderbaren Überblick über aktives Lernen.
  • Ein experimenteller Design Workshop: hier .

Tiefes Lernen:

Flocke
quelle
Es gibt ein R-Paket RTextTools . Wenn ich mich nicht irre, werden mehrere der von Ihnen genannten Methoden implementiert.
mpiktas
Hallo mpiktas, danke für deine freundliche Hilfe. Es ist ein interessantes Toolkit. Es scheint sich jedoch nur um betreutes Lernen zu handeln, da ich lese "TextTools ist ein kostenloses Open-Source-Paket für maschinelles Lernen zur automatischen Textklassifizierung, das Anfängern und Fortgeschrittenen den Einstieg in das betreute Lernen erleichtert. Das Paket enthält neun Algorithmen für die Ensemble-Klassifikation (SVM, SVDA, Boosting, Bagging, zufällige Wälder, GLMnet, Entscheidungsbäume, neuronale Netze, maximale Entropie) "
Flake
Ok, hier ist ein weiterer Versuch: Weka . Die Autoren haben ein Buch geschrieben, und das Inhaltsverzeichnis erwähnt das halbüberwachte Lernen. Ich hoffe aufrichtig, dass das Kapitel nicht mit "... leider ist keiner dieser Algorithmen in Weka implementiert"
endet
Drat, ich habe die ältere Version des Buches! Vielen Dank für den Hinweis auf diese Quelle!
Flake

Antworten:

8

Es scheint, als ob Deep Learning für Sie sehr interessant sein könnte. Dies ist ein sehr junges Gebiet von Deep-Connection-Modellen, die unbeaufsichtigt trainiert und anschließend unter Aufsicht verfeinert werden. Die Feinabstimmung erfordert viel weniger Proben als das Vor-Trainieren.

Ich empfehle [Semantig Hashing Salakhutdinov, Hinton . Schauen Sie sich die Codes an, die darin enthalten sind, um eindeutige Dokumente des Reuters-Korpus zu finden: (unbeaufsichtigt!)

Bildbeschreibung hier eingeben

Wenn Sie Code benötigen, lesen Sie deeplearning.net . Ich glaube jedoch nicht, dass es Out-of-the-Box-Lösungen gibt.

bayerj
quelle
Das ist ziemlich interessant und neue Informationen für mich. Natürlich wären sofort einsatzbereite Implementierungen besser, aber das hilft mir wirklich, etwas näher zu wissen, was ich will. Vielen Dank.
Flake
5

Isabelle Guyon (und Kollegen) organisierten vor einiger Zeit eine Herausforderung zum aktiven Lernen, die Berichte werden hier veröffentlicht (Open Access). Dies hat den Vorteil, dass es sehr praktisch ist und dass Sie die Leistungen verschiedener Ansätze unter einem unvoreingenommenen (umgangssprachlichen) Protokoll direkt vergleichen können (die zufällige Auswahl von Mustern ist überraschend schwer zu übertreffen).

Dikran Beuteltier
quelle