Wie kann ich die Leistung einer halbüberwachten Lernmethode beurteilen?

7

Ich arbeite mit einer halbüberwachten Lernaufgabe, bei der ich nur positive und unbeschriftete Daten habe (PU-Lernen).

Ich habe einige Algorithmen getestet und möchte deren Leistung bewerten.

Für betreutes Lernen verwende ich normalerweise:

  1. Fehlklassifizierungsfehler
  2. Richtigkeit
  3. ROC-Kurven

Leistung zu bewerten.

Da meine Trainings- und Validierungssätze jedoch nur positive und unbeschriftete Daten enthalten, bin ich mir nicht sicher, ob diese Metriken sinnvoll sind.

Welche Metriken kann ich verwenden, um die Leistung einer halbüberwachten Lernmethode richtig einzuschätzen?

enricoferrero
quelle

Antworten:

5

Wir haben dieses Problem bei der Bewertung von Binärklassifikatoren nur mit positiven und unbeschrifteten Daten behoben . Insbesondere zeigen wir, wie strenge Grenzen für jede Metrik basierend auf Kontingenztabellen (Genauigkeit, Präzision, ROC / PR-Kurven, ...) berechnet werden. Unsere Arbeit wurde von allen Gutachtern auf der diesjährigen NIPS-Konferenz angenommen, dann aber vom Herausgeber wegen mangelnder Bedeutung abgelehnt (siehe Abbildung). Wir werden es dem kommenden KDD vorlegen.

Unser Ansatz basiert auf der vernünftigen Annahme, dass bekannte Positive aus allen Positiven völlig zufällig ausgewählt werden. Wenn Sie sich nicht auf diese Annahme verlassen können, ist jede Form der Leistungsbewertung nicht möglich. Zusätzlich benötigen wir eine Schätzung des Anteils der Positiven in der unbeschrifteten Menge, die Sie häufig durch Domänenwissen oder durch explizites Erhalten von Beschriftungen für eine kleine, zufällige Teilmenge der unbeschrifteten Menge erwerben können.

Marc Claesen
quelle
2

Hier ist eine seitwärts denkende Idee: Sie haben einige positive Bezeichnungen und können die natürliche Gruppierung von Daten mithilfe von unbeaufsichtigtem Lernen abschätzen. Versuchen Sie, die Überlappung zwischen den bekannten Informationen und der Art und Weise, wie die Datengruppen zusammengeführt werden, zu messen. Verwenden Sie die Überlappung als Grundwahrheitsmaß.

Führen Sie also unbeaufsichtigtes Lernen durch und sehen Sie, wie die beschrifteten Daten den Clustern entsprechen. Wenn Sie Glück haben, korrelieren die Beschriftungen nur mit einem der Cluster oder mit Ausreißern (die sich bei mehr Daten als Cluster herausstellen können).

Ergebnis A - disjunkte Datengruppen

Angenommen, Sie haben 10 Beschriftungen aus 100 unbeschrifteten Beispielen. Nach dem Clustering stellt sich heraus, dass die 10 Beschriftungen zu einem Cluster mit 20 Datenpunkten gehören. Dies ist der glückliche Fall und Sie können jetzt alle 20 mit 1 und alles andere als 0 kennzeichnen. Problem gelöst, verwenden Sie einfach AUC.

Ergebnis B - mehr als 2 Gruppen, Fuzzy-Cluster

Was ist, wenn dies nicht der Fall ist? Was ist mit den anderen Gruppen?

Wenn nicht, nehmen wir an, Sie haben 9 Labels im Cluster mit 20 und 1 in einem der anderen Cluster (hoffentlich der einzige andere). Wiederholen Sie dies mehrmals und zählen Sie, wie oft ein Label in einer bestimmten Gruppe "gelandet" ist. Berechnen Sie die gegenseitige Information zwischen den gekennzeichneten Daten (positive Beispiele)X. und die anderen Gruppen Y. über mehrere Cluster.

ich(X.;;Y.)=yY.xX.p(x,y)Log(p(x,y)p(x)p(y)),

Mit Clustern haben Sie also endlich für jede Gruppe. Angenommen, diese Werte sind die Grundwahrheit (Zielwerte), wenn Sie Ihr endgültiges Modell bewerten.K.=3ichk(X.;;Y.)

Dies basiert auf der Annahme, dass bei Ihrer Vorhersage auch die positiven Bezeichnungen (jetzt mehr davon) auf bestimmte Weise in der unbeaufsichtigten Gruppierung von Daten verteilt sind.

shuriken x blau
quelle