Die zweite Frage ist, dass ich in einer Diskussion irgendwo im Internet über "überwachtes Clustering" gesprochen habe. Soweit ich weiß, ist Clustering nicht überwacht. Was genau bedeutet "überwachtes Clustering"? Was ist der Unterschied zur "Klassifizierung"?
Es gibt viele Links, die darüber sprechen:
http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf
http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf
http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf
http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf
http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf
http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf
http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
etc ...
Antworten:
Mein naives Verständnis ist, dass eine Klassifizierung durchgeführt wird, wenn Sie eine bestimmte Menge von Klassen haben und ein neues Objekt / einen neuen Datensatz in eine dieser angegebenen Klassen klassifizieren möchten .
Alternativ hat das Clustering zunächst nichts zu tun, und Sie verwenden alle Daten (einschließlich der neuen), um sie in Cluster aufzuteilen.
Beide verwenden Distanzmetriken , um zu entscheiden, wie Cluster gebildet / klassifiziert werden sollen. Der Unterschied besteht darin, dass die Klassifizierung auf einer zuvor definierten Menge von Klassen basiert, während das Clustering die Cluster basierend auf den gesamten Daten entscheidet.
Ich verstehe noch einmal naiv, dass überwachtes Clustering immer noch Cluster auf der Basis der gesamten Daten sind und daher eher Clustering als Klassifizierung sind.
In Wirklichkeit bin ich sicher, dass die Theorie, die hinter Clustering und Klassifikation steckt, eine wechselseitige Beziehung eingeht.
quelle
Ich glaube nicht, dass ich mehr weiß als Sie, aber die Links, die Sie gepostet haben, geben Antworten. Ich nehme als Beispiel http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf . Grundsätzlich heißt es: 1) Clustering hängt von einer Entfernung ab. 2) Der erfolgreiche Einsatz von k-means erfordert einen sorgfältig gewählten Abstand. 3) Wenn Trainingsdaten in Form von Gruppen von Elementen mit der gewünschten Unterteilung vorliegen, stellen wir eine strukturelle SVM-Methode bereit, die ein Abstandsmaß lernt, so dass k-means die gewünschten Cluster erzeugt.In diesem Fall gibt es eine überwachte Phase für das Clustering, die sowohl Trainingsdaten als auch Lernergebnisse enthält. In dieser Phase soll eine Distanzfunktion erlernt werden, damit die Anwendung von k-Means-Clustering mit dieser Distanz hoffentlich optimal ist, je nachdem, wie gut die Trainingsdaten der Anwendungsdomäne ähneln. Alle für maschinelles Lernen und Clustering üblichen Einschränkungen gelten weiterhin.
Ein weiteres Zitat aus dem Artikel: Überwachtes Clustering ist die Aufgabe, einen Clustering-Algorithmus mit Hilfe eines Trainings-Sets, bestehend aus Item-Sets und vollständigen Partitionen dieser Item-Sets, automatisch anzupassen. . Das scheint eine vernünftige Definition zu sein.
quelle
Einige Definitionen: Auf klassifizierte Beispiele wird
überwachtes Clustering angewendet, um Cluster mit hoher Wahrscheinlichkeitsdichte für eine einzelne Klasse zu identifizieren.
Unbeaufsichtigtes Clustering ist ein Lernframework, das bestimmte Objektfunktionen verwendet , z. B. eine Funktion, die die Abstände innerhalb eines Clusters minimiert, um den Cluster dicht zu halten.
Halbüberwachtes Clustering dient dazu, einen Clustering-Algorithmus durch die Verwendung von Nebeninformationen im Clustering-Prozess zu verbessern.
Fortschritte in neuronalen Netzen - ISNN 2010
Ohne zu viel Fachsprache zu verwenden, da ich ein Anfänger in diesem Bereich bin, ist die Art und Weise, wie ich das überwachte Clustering verstehe, umso weniger:
Beim überwachten Clustering beginnen Sie von oben nach untenMit einigen vordefinierten Klassen und einem Bottom-Up- Ansatz finden Sie heraus, welche Objekte besser in Ihre Klassen passen.
Sie haben beispielsweise eine Studie zum bevorzugten Orangentyp in einer Population durchgeführt.
Aus den vielen Orangensorten haben Sie herausgefunden, dass eine bestimmte Orangensorte die bevorzugte ist.
Diese Art von Orange ist jedoch sehr empfindlich und labil gegenüber Infektionen, Klimawandel und anderen Umweltfaktoren.
Sie möchten es also mit anderen Arten kreuzen, die sehr resistent gegen diese Beleidigungen sind.
Dann ging man ins Labor und fand einige Gene, die für den saftigen und süßen Geschmack des einen Typs und für die Widerstandsfähigkeit des anderen Typs verantwortlich sind.
Sie führen mehrere Experimente durch und enden mit etwa hundert verschiedenen Orangensubtypen.
Jetzt interessieren Sie sich nur noch für die Untertypen, die perfekt zu den beschriebenen Eigenschaften passen.
Sie möchten nicht wieder dieselbe Studie in Ihrer Population durchführen ...
Sie kennen die Eigenschaften, die Sie suchen, in Ihrer perfekten Orange.
Sie führen also Ihre Cluster-Analyse durch und wählen diejenigen aus, die Ihren Erwartungen am besten entsprechen.
quelle