Leistungsmetriken zur Bewertung unbeaufsichtigten Lernens

In gewissem Sinne halte ich diese Frage für unbeantwortet. Ich sage dies, weil die Leistung einer bestimmten unbeaufsichtigten Methode in hohem Maße davon abhängt, warum man überhaupt unbeaufsichtigt lernt, dh, ob die Methode im Kontext Ihres Endziels eine gute Leistung erbringt? Offensichtlich ist dies nicht ganz richtig, die Leute arbeiten an diesen Problemen und veröffentlichen Ergebnisse, die eine Art Bewertung beinhalten. Ich werde im Folgenden einige der mir bekannten Ansätze skizzieren.

Eine gute Ressource (mit Referenzen) für das Clustering ist die Dokumentationsseite von sklearn, Clustering Performance Evaluation . Dies deckt mehrere Methoden ab, aber alle bis auf eine, der Silhouette-Koeffizient, gehen davon aus, dass Grundwahrheitsbezeichnungen verfügbar sind. Diese Methode wird auch in der Frage Bewertungsmaß der Clusterbildung erwähnt , die in den Kommentaren zu dieser Frage verlinkt ist.

Wenn Ihre unbeaufsichtigte Lernmethode probabilistisch ist, können Sie auch ein Wahrscheinlichkeitsmaß (Log-Likelihood, Ratlosigkeit usw.) für durchgehaltene Daten auswerten. Die Motivation dabei ist, dass wenn Ihre unbeaufsichtigte Lernmethode ähnlichen Daten, die nicht für die Anpassung von Parametern verwendet wurden, mit hoher Wahrscheinlichkeit eine hohe Wahrscheinlichkeit zuweist, die Verteilung des Interesses wahrscheinlich gut erfasst hat. Eine Domäne, in der diese Art der Auswertung häufig verwendet wird, ist die Sprachmodellierung.

Die letzte Option, die ich erwähne, ist die Verwendung eines beaufsichtigten Lerners für eine verwandte Hilfsaufgabe. Wenn Ihre unbeaufsichtigte Methode latente Variablen erzeugt, können Sie sich diese latenten Variablen als Repräsentation der Eingabe vorstellen. Daher ist es sinnvoll, diese latenten Variablen als Eingabe für einen überwachten Klassifizierer zu verwenden, der eine Aufgabe ausführt, die sich auf die Domäne bezieht, aus der die Daten stammen. Die Leistung der überwachten Methode kann dann als Ersatz für die Leistung des unbeaufsichtigten Lernenden dienen. Dies ist im Wesentlichen der Aufbau, den Sie in den meisten Arbeiten zum Repräsentationslernen sehen.

Diese Beschreibung ist wahrscheinlich ein wenig nebulös, deshalb werde ich ein konkretes Beispiel geben. Nahezu alle Arbeiten zum Lernen von Wortrepräsentationen verwenden den folgenden Bewertungsansatz:

Lernen Sie die Darstellung von Wörtern mit einem unbeaufsichtigten Lernenden.
Verwenden Sie die erlernten Darstellungen als Eingabe für einen beaufsichtigten Lernenden, der eine NLP-Aufgabe ausführt, z. B. Teile der Sprachkennzeichnung oder der Erkennung benannter Entitäten.
Bewerten Sie die Leistung des unbeaufsichtigten Lernenden anhand seiner Fähigkeit, die Leistung des betreuten Lernenden im Vergleich zu einer Grundlinie zu verbessern, indem Sie als Eingabe eine Standarddarstellung verwenden, z. B. Funktionen für die Anwesenheit von Binärwörtern.

Ein Beispiel für diesen Ansatz in Aktion finden Sie in der Veröffentlichung Training Restricted Boltzmann Machines on Word Observations von Dahl et al.

Alt
quelle

+1 " Wie gut eine bestimmte unbeaufsichtigte Methode abschneidet, hängt weitgehend davon ab, warum man überhaupt unbeaufsichtigt lernt ", fasst das ziemlich gut zusammen. Suchen Sie nicht nach einer magischen Zahl, mit der Sie ein bestimmtes Ergebnis irgendwie rechtfertigen können, ohne das Ergebnis tatsächlich zu interpretieren .

Marc Claesen

Ich möchte auch hinzufügen, dass die Verwendung eines überwachten Ansatzes als Proxy dafür, wie gut ein unbeaufsichtigter Ansatz funktioniert, nicht die Entdeckung neuer Funktionen erfordert. Beispielsweise werden beim Clustering keine neuen Funktionen erlernt. Das Clustering wird jedoch häufig verwendet, um die Vorhersagegenauigkeit eines beaufsichtigten Lernenden zu verbessern, wobei zusätzlich erläutert wird, warum dies möglicherweise der Fall ist. Beispielsweise kann k-means Clustering k-Vorhersagen erzeugen, die jeweils durch Ausnutzen der ermittelten Struktur und Komprimierung aus dem Clustering verbessert werden. Siehe ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf

Cybernetic

Leistungsmetriken zur Bewertung unbeaufsichtigten Lernens

Antworten: