Ich versuche, Clustering-Methoden zu verstehen.
Was ich glaube, habe ich verstanden:
Beim überwachten Lernen sind die Kategorien / Labels, denen Daten zugewiesen werden, vor der Berechnung bekannt. Die Bezeichnungen, Klassen oder Kategorien werden also verwendet, um die Parameter zu "lernen", die für diese Cluster wirklich wichtig sind.
Beim unbeaufsichtigten Lernen werden Datensätze Segmenten zugeordnet, ohne dass die Cluster bekannt sind.
Bedeutet das, dass ich beaufsichtigtes Lernen vorziehen sollte, wenn ich nicht einmal weiß, welche Parameter für eine Segmentierung entscheidend sind?
Antworten:
Der Unterschied besteht darin, dass beim überwachten Lernen die "Kategorien", "Klassen" oder "Labels" bekannt sind. Beim unbeaufsichtigten Lernen ist dies nicht der Fall, und der Lernprozess versucht, geeignete "Kategorien" zu finden. Bei beiden Arten des Lernens werden alle Parameter berücksichtigt, um zu bestimmen, welche zur Durchführung der Klassifizierung am besten geeignet sind.
Ob Sie sich für überwacht oder unbeaufsichtigt entschieden haben, sollte davon abhängen, ob Sie die "Kategorien" Ihrer Daten kennen oder nicht. Wenn Sie es wissen, wenden Sie beaufsichtigtes Lernen an. Wenn Sie nicht wissen, verwenden Sie unbeaufsichtigt.
Da Sie über eine große Anzahl von Parametern verfügen und nicht wissen, welche relevant sind, können Sie die relevanten Parameter mithilfe der Hauptkomponentenanalyse ermitteln.
quelle
Beachten Sie, dass es mehr als 2 Überwachungsgrade gibt. Siehe zum Beispiel die Seiten 24-25 (6-7) in der Dissertation von Christian Biemann, Unüberwachte und wissensfreie Verarbeitung natürlicher Sprache im Strukturentdeckungsparadigma, 2007.
Die Dissertation identifiziert 4 Grade: beaufsichtigt, semi-beaufsichtigt, schwach beaufsichtigt und unbeaufsichtigt und erklärt die Unterschiede im Kontext der Verarbeitung natürlicher Sprache. Hier sind die relevanten Definitionen:
quelle
Beim betreuten Lernen sind die Klassen im Voraus bekannt und auch ihre Arten, beispielsweise zwei Klassen, gute und schlechte Kunden. Wenn ein neues Objekt (Kunde) aufgrund seiner Attribute eintritt, kann der Kunde einer schlechten oder einer guten Kundenklasse zugeordnet werden.
Beim unbeaufsichtigten Lernen sind die Gruppen / Klassen nicht bereits bekannt, wir haben Objekte (Kunden), also gruppieren Sie die Kunden mit ähnlichen Kaufgewohnheiten, daher werden unterschiedliche Gruppen der Kunden gebildet, dh sie sind aufgrund ähnlicher Kaufgewohnheiten nicht bereits bekannt.
quelle
Beim überwachten Lernen hängt die Ausgabe (abhängige Variable) von der Eingabevariable (unabhängige Variable) ab. Bei einigen vorgegebenen Überwachungen versucht der Responder, das gewünschte Ziel zu berechnen.
Beim unbeaufsichtigten Lernen gibt es keine Aufsicht, daher versucht das System, sich an die Situation anzupassen und lernt auf der Grundlage einer bestimmten Maßnahme manuell.
Beispiel: Lehrer in einer Klasse - Aufsicht - überwachtes Lernen Ein Selbststudium, das in der Klasse gewählt wird - keine Aufsicht - unbeaufsichtigtes Lernen
quelle