Hier ist eine seitwärts denkende Idee: Sie haben einige positive Bezeichnungen und können die natürliche Gruppierung von Daten mithilfe von unbeaufsichtigtem Lernen abschätzen. Versuchen Sie, die Überlappung zwischen den bekannten Informationen und der Art und Weise, wie die Datengruppen zusammengeführt werden, zu messen. Verwenden Sie die Überlappung als Grundwahrheitsmaß.
Führen Sie also unbeaufsichtigtes Lernen durch und sehen Sie, wie die beschrifteten Daten den Clustern entsprechen. Wenn Sie Glück haben, korrelieren die Beschriftungen nur mit einem der Cluster oder mit Ausreißern (die sich bei mehr Daten als Cluster herausstellen können).
Ergebnis A - disjunkte Datengruppen
Angenommen, Sie haben 10 Beschriftungen aus 100 unbeschrifteten Beispielen. Nach dem Clustering stellt sich heraus, dass die 10 Beschriftungen zu einem Cluster mit 20 Datenpunkten gehören. Dies ist der glückliche Fall und Sie können jetzt alle 20 mit 1 und alles andere als 0 kennzeichnen. Problem gelöst, verwenden Sie einfach AUC.
Ergebnis B - mehr als 2 Gruppen, Fuzzy-Cluster
Was ist, wenn dies nicht der Fall ist? Was ist mit den anderen Gruppen?
Wenn nicht, nehmen wir an, Sie haben 9 Labels im Cluster mit 20 und 1 in einem der anderen Cluster (hoffentlich der einzige andere). Wiederholen Sie dies mehrmals und zählen Sie, wie oft ein Label in einer bestimmten Gruppe "gelandet" ist. Berechnen Sie die gegenseitige Information zwischen den gekennzeichneten Daten (positive Beispiele)X. und die anderen Gruppen Y. über mehrere Cluster.
ich( X.;; Y.) =∑y∈ Y.∑x ∈ X.p ( x , y) log(p ( x , y)p ( x )p ( y)) ,
Mit Clustern haben Sie also endlich für jede Gruppe. Angenommen, diese Werte sind die Grundwahrheit (Zielwerte), wenn Sie Ihr endgültiges Modell bewerten.K.= 3ichk( X.;; Y.)
Dies basiert auf der Annahme, dass bei Ihrer Vorhersage auch die positiven Bezeichnungen (jetzt mehr davon) auf bestimmte Weise in der unbeaufsichtigten Gruppierung von Daten verteilt sind.