Beaufsichtigtes Clustering oder Klassifikation?

Die zweite Frage ist, dass ich in einer Diskussion irgendwo im Internet über "überwachtes Clustering" gesprochen habe. Soweit ich weiß, ist Clustering nicht überwacht. Was genau bedeutet "überwachtes Clustering"? Was ist der Unterschied zur "Klassifizierung"?

Es gibt viele Links, die darüber sprechen:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

etc ...

clustering classification unsupervised-learning statistical-learning shn
quelle

Bitte geben Sie den Link "Diskussion irgendwo im Web"

Atilla Ozgur

@AtillaOzgur Es gibt viele Links, die sich mit überwachtem Clustering befassen. Ich habe einige zu meinem Beitrag hinzugefügt: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: books.nips .cc / papers / files / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/… [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

sHN

"Clustering" ist gleichbedeutend mit "unbeaufsichtigter Klassifizierung", daher ist "überwachtes Clustering" ein Oxymoron. Man könnte jedoch argumentieren, dass selbstorganisierende Karten eine überwachte Technik sind, die für eine unbeaufsichtigte Klassifizierung verwendet wird, was dem "überwachten Clustering" am nächsten kommen würde.

Digio,

Soweit ich bisher verstanden habe, ist "Wir verwenden Clustering, um die Daten so anzuordnen, dass sie für die weitere Verarbeitung oder zumindest für die weitere Analyse bereit sind". Wir unterteilen die Daten in die Klassen A, B, C und so weiter ... Jetzt werden diese Daten auf irgendeine Weise überwacht. Jetzt hängt es von der Anforderung ab, was Sie mit diesen Daten tun möchten oder wie diese Daten für Sie nützlich sein können, ob für Klassifizierungsoperationen oder für Regressionsoperationen. Korrigiere mich, wenn ich falsch liege.

Sak

Antworten:

Mein naives Verständnis ist, dass eine Klassifizierung durchgeführt wird, wenn Sie eine bestimmte Menge von Klassen haben und ein neues Objekt / einen neuen Datensatz in eine dieser angegebenen Klassen klassifizieren möchten .

Alternativ hat das Clustering zunächst nichts zu tun, und Sie verwenden alle Daten (einschließlich der neuen), um sie in Cluster aufzuteilen.

Beide verwenden Distanzmetriken , um zu entscheiden, wie Cluster gebildet / klassifiziert werden sollen. Der Unterschied besteht darin, dass die Klassifizierung auf einer zuvor definierten Menge von Klassen basiert, während das Clustering die Cluster basierend auf den gesamten Daten entscheidet.

Ich verstehe noch einmal naiv, dass überwachtes Clustering immer noch Cluster auf der Basis der gesamten Daten sind und daher eher Clustering als Klassifizierung sind.

In Wirklichkeit bin ich sicher, dass die Theorie, die hinter Clustering und Klassifikation steckt, eine wechselseitige Beziehung eingeht.

adunaic
quelle

Demütig widerspreche ich. Sie schlagen vor, dass "Klassifizierung" per Definition und standardmäßig ein beaufsichtigter Prozess ist, was nicht der Fall ist. Die Klassifizierung ist in überwachte und nicht überwachte Fälle unterteilt, wobei letzterer als Synonym für Clustering gilt.

Digio

Ich glaube nicht, dass ich mehr weiß als Sie, aber die Links, die Sie gepostet haben, geben Antworten. Ich nehme als Beispiel http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf . Grundsätzlich heißt es: 1) Clustering hängt von einer Entfernung ab. 2) Der erfolgreiche Einsatz von k-means erfordert einen sorgfältig gewählten Abstand. 3) Wenn Trainingsdaten in Form von Gruppen von Elementen mit der gewünschten Unterteilung vorliegen, stellen wir eine strukturelle SVM-Methode bereit, die ein Abstandsmaß lernt, so dass k-means die gewünschten Cluster erzeugt.In diesem Fall gibt es eine überwachte Phase für das Clustering, die sowohl Trainingsdaten als auch Lernergebnisse enthält. In dieser Phase soll eine Distanzfunktion erlernt werden, damit die Anwendung von k-Means-Clustering mit dieser Distanz hoffentlich optimal ist, je nachdem, wie gut die Trainingsdaten der Anwendungsdomäne ähneln. Alle für maschinelles Lernen und Clustering üblichen Einschränkungen gelten weiterhin.

Ein weiteres Zitat aus dem Artikel: Überwachtes Clustering ist die Aufgabe, einen Clustering-Algorithmus mit Hilfe eines Trainings-Sets, bestehend aus Item-Sets und vollständigen Partitionen dieser Item-Sets, automatisch anzupassen. . Das scheint eine vernünftige Definition zu sein.

micans
quelle

Das Problem ist einfach: Warum möchten Sie ein Distanzmaß aus einem Satz gekennzeichneter Trainingsdaten lernen und dieses Distanzmaß dann mit einer Cluster-Methode anwenden? warum würden Sie nicht einfach eine überwachte Methode anwenden. Mit anderen Worten, Sie möchten Clustering ausführen (dh Ihr Dataset in Cluster unterteilen), gehen jedoch davon aus, dass Sie bereits über die vollständige gewünschte Partitionierung verfügen und diese verwenden, um ein Entfernungsmaß zu ermitteln. Wenden Sie anschließend Clustering auf dieses Dataset an Entfernung. Bestenfalls erhalten Sie die Partitionen, mit denen Sie das Entfernungsmaß gelernt haben! Sie haben bereits

shn

Wenn Sie "dann Clustering auf diese Datenbank anwenden" schreiben, ersetzen Sie "dann Clustering auf ähnliche Datensätze anwenden". Es ist dieses Szenario: In Experiment X haben wir die Daten A und B. A dient zum Clustering, B hilft beim Lernen der Distanz. B setzt einen Goldstandard und ist vermutlich teuer in der Anschaffung. In nachfolgenden Experimenten X2, X3 ... erhalten wir A, können es uns aber nicht leisten, um

micans

Ok, wenn Sie jetzt "Lernen einer Entfernung" aus einem Datensatz B sagen: Bedeuten Sie "Lernen eines Entfernungsschwellenwerts" oder "Lernen einer Entfernungsmetrikfunktion" (eine Art parametrisiertes Unähnlichkeitsmaß)?

Shn

Ich meine die zweite, "eine Distanzmetrikfunktion lernen". Übrigens finden Sie meine einfache Formulierung von A und B oben im zitierten Manuskript: "Anhand von Übungsbeispielen für Objektgruppen mit ihren korrekten Gruppierungen besteht das Ziel darin, ein Ähnlichkeitsmaß zu erlernen, damit zukünftige Objektgruppen gruppiert werden In ähnlicher weise."

micans

Nun, es scheint, dass "überwachtes Clustering" dem sehr ähnlich ist, was als "halbüberwachtes Clustering" bezeichnet wird. Bis jetzt sehe ich keinen wirklichen Unterschied. Übrigens bezieht sich in einigen anderen Veröffentlichungen das "(halb-) überwachte Clustering" nicht auf "Erstellen einer modifizierten Distanzfunktion", um zukünftige Datensätze auf ähnliche Weise zu clustern. es geht vielmehr darum, "den clustering-algorithmus selbst zu modifizieren", ohne die entfernungsfunktion zu verändern!

Shn

Einige Definitionen: Auf klassifizierte Beispiele wird

überwachtes Clustering angewendet, um Cluster mit hoher Wahrscheinlichkeitsdichte für eine einzelne Klasse zu identifizieren.

Unbeaufsichtigtes Clustering ist ein Lernframework, das bestimmte Objektfunktionen verwendet , z. B. eine Funktion, die die Abstände innerhalb eines Clusters minimiert, um den Cluster dicht zu halten.

Halbüberwachtes Clustering dient dazu, einen Clustering-Algorithmus durch die Verwendung von Nebeninformationen im Clustering-Prozess zu verbessern.

Fortschritte in neuronalen Netzen - ISNN 2010

Ohne zu viel Fachsprache zu verwenden, da ich ein Anfänger in diesem Bereich bin, ist die Art und Weise, wie ich das überwachte Clustering verstehe, umso weniger:

Beim überwachten Clustering beginnen Sie von oben nach untenMit einigen vordefinierten Klassen und einem Bottom-Up- Ansatz finden Sie heraus, welche Objekte besser in Ihre Klassen passen.

Sie haben beispielsweise eine Studie zum bevorzugten Orangentyp in einer Population durchgeführt.
Aus den vielen Orangensorten haben Sie herausgefunden, dass eine bestimmte Orangensorte die bevorzugte ist.
Diese Art von Orange ist jedoch sehr empfindlich und labil gegenüber Infektionen, Klimawandel und anderen Umweltfaktoren.
Sie möchten es also mit anderen Arten kreuzen, die sehr resistent gegen diese Beleidigungen sind.
Dann ging man ins Labor und fand einige Gene, die für den saftigen und süßen Geschmack des einen Typs und für die Widerstandsfähigkeit des anderen Typs verantwortlich sind.
Sie führen mehrere Experimente durch und enden mit etwa hundert verschiedenen Orangensubtypen.
Jetzt interessieren Sie sich nur noch für die Untertypen, die perfekt zu den beschriebenen Eigenschaften passen.
Sie möchten nicht wieder dieselbe Studie in Ihrer Population durchführen ...
Sie kennen die Eigenschaften, die Sie suchen, in Ihrer perfekten Orange.
Sie führen also Ihre Cluster-Analyse durch und wählen diejenigen aus, die Ihren Erwartungen am besten entsprechen.

Diego
quelle