Kann jemand erklären, was der Unterschied zwischen Klassifizierung und Clustering beim Data Mining ist?
Wenn Sie können, geben Sie bitte Beispiele für beides, um die Hauptidee zu verstehen.
Kann jemand erklären, was der Unterschied zwischen Klassifizierung und Clustering beim Data Mining ist?
Wenn Sie können, geben Sie bitte Beispiele für beides, um die Hauptidee zu verstehen.
Im Allgemeinen haben Sie bei der Klassifizierung eine Reihe vordefinierter Klassen und möchten wissen, zu welcher Klasse ein neues Objekt gehört.
Beim Clustering wird versucht, eine Reihe von Objekten zu gruppieren und festzustellen, ob zwischen den Objekten eine Beziehung besteht.
Im Kontext des maschinellen Lernens wird die Klassifizierung als überwachtes Lernen und das Clustering als unbeaufsichtigtes Lernen bezeichnet .
Schauen Sie sich auch Classification and Clustering bei Wikipedia an.
Bitte lesen Sie die folgenden Informationen:
quelle
Wenn Sie diese Frage an Data Mining- oder maschinell lernende Personen gestellt haben, verwenden diese den Begriff überwachtes Lernen und unbeaufsichtigtes Lernen, um Ihnen den Unterschied zwischen Clustering und Klassifizierung zu erklären. Lassen Sie mich zunächst das Schlüsselwort überwacht und unbeaufsichtigt erläutern.
Betreutes Lernen: Angenommen, Sie haben einen Korb, der mit frischen Früchten gefüllt ist, und Ihre Aufgabe ist es, die gleichen Obstsorten an einem Ort zu arrangieren. Angenommen, die Früchte sind Apfel, Banane, Kirsche und Traube. Sie wissen also bereits aus Ihrer vorherigen Arbeit, dass die Form jeder einzelnen Frucht so einfach ist, die gleiche Art von Früchten an einem Ort anzuordnen. Hier wird Ihre vorherige Arbeit als trainierte Daten im Data Mining bezeichnet. Sie lernen also bereits die Dinge aus Ihren trainierten Daten. Dies liegt daran, dass Sie eine Antwortvariable haben, die besagt, dass es sich bei einigen Früchten um Trauben handelt, die für jede einzelne Frucht so sind.
Diese Art von Daten erhalten Sie aus den trainierten Daten. Diese Art des Lernens wird als überwachtes Lernen bezeichnet. Dieses Problem zur Typlösung fällt unter Klassifizierung. Sie lernen also bereits die Dinge, damit Sie Ihre Arbeit sicher erledigen können.
unbeaufsichtigt: Angenommen, Sie haben einen Korb, der mit frischen Früchten gefüllt ist, und Ihre Aufgabe ist es, die gleichen Obstsorten an einem Ort zu arrangieren.
Dieses Mal wissen Sie nichts über diese Früchte. Sie sehen diese Früchte zum ersten Mal. Wie werden Sie also die gleiche Art von Früchten arrangieren?
Was Sie zuerst tun werden, ist, dass Sie die Frucht annehmen und einen beliebigen physischen Charakter dieser bestimmten Frucht auswählen. Angenommen, Sie haben Farbe genommen.
Dann werden Sie sie basierend auf der Farbe anordnen, dann werden die Gruppen so etwas sein. RED COLOR GROUP: Äpfel & Kirschfrüchte. GRÜNE FARBGRUPPE: Bananen & Trauben. Jetzt nimmst du einen anderen physischen Charakter als Größe, und jetzt sind die Gruppen so ähnlich. ROTE FARBE UND GROSSE GRÖSSE: Apfel. ROTE FARBE UND KLEINE GRÖSSE: Kirschfrüchte. GRÜNE FARBE UND GROSSE GRÖSSE: Bananen. GRÜNE FARBE UND KLEINE GRÖSSE : Trauben. Arbeit erledigt Happy End.
hier hast du vorher nichts gelernt, heißt keine zugdaten und keine antwortvariable. Diese Art des Lernens ist als unbeaufsichtigtes Lernen bekannt. Clustering fällt unter unbeaufsichtigtes Lernen.
quelle
+ Klassifizierung: Sie erhalten einige neue Daten, für die Sie eine neue Bezeichnung festlegen müssen.
Beispielsweise möchte ein Unternehmen seine potenziellen Kunden klassifizieren. Wenn ein neuer Kunde kommt, muss er feststellen, ob dies ein Kunde ist, der seine Produkte kaufen wird oder nicht.
+ Clustering: Sie erhalten eine Reihe von Verlaufstransaktionen, in denen aufgezeichnet wird, wer was gekauft hat.
Mithilfe von Clustering-Techniken können Sie die Segmentierung Ihrer Kunden ermitteln.
quelle
Ich bin sicher, einige von Ihnen haben von maschinellem Lernen gehört. Ein Dutzend von Ihnen könnte sogar wissen, was es ist. Und einige von Ihnen haben möglicherweise auch mit Algorithmen für maschinelles Lernen gearbeitet. Sie sehen, wohin das führt? Nicht viele Menschen sind mit der Technologie vertraut, die in 5 Jahren unbedingt erforderlich sein wird. Siri lernt maschinell. Amazons Alexa ist maschinelles Lernen. Empfehlungssysteme für Anzeigen und Einkaufsartikel sind maschinelles Lernen. Versuchen wir, maschinelles Lernen mit einer einfachen Analogie eines 2-jährigen Jungen zu verstehen. Nennen wir ihn nur zum Spaß Kylo Ren
Nehmen wir an, Kylo Ren hat einen Elefanten gesehen. Was wird ihm sein Gehirn sagen? (Denken Sie daran, dass er nur über eine minimale Denkfähigkeit verfügt, auch wenn er der Nachfolger von Vader ist.) Sein Gehirn wird ihm sagen, dass er eine große, sich bewegende Kreatur gesehen hat, die eine graue Farbe hatte. Als nächstes sieht er eine Katze und sein Gehirn sagt ihm, dass es sich um eine kleine sich bewegende Kreatur handelt, die eine goldene Farbe hat. Schließlich sieht er als nächstes ein Lichtschwert und sein Gehirn sagt ihm, dass es ein nicht lebendes Objekt ist, mit dem er spielen kann!
Sein Gehirn weiß zu diesem Zeitpunkt, dass sich der Säbel vom Elefanten und der Katze unterscheidet, weil der Säbel etwas zum Spielen ist und sich nicht von alleine bewegt. Sein Gehirn kann so viel herausfinden, auch wenn Kylo nicht weiß, was beweglich bedeutet. Dieses einfache Phänomen wird als Clustering bezeichnet.
Maschinelles Lernen ist nichts anderes als die mathematische Version dieses Prozesses. Viele Leute, die Statistiken studieren, haben erkannt, dass sie einige Gleichungen genauso funktionieren lassen können wie das Gehirn. Das Gehirn kann ähnliche Objekte gruppieren, das Gehirn kann aus Fehlern lernen und das Gehirn kann lernen, Dinge zu identifizieren.
All dies kann mit Statistiken dargestellt werden, und die computergestützte Simulation dieses Prozesses wird als maschinelles Lernen bezeichnet. Warum brauchen wir die computergestützte Simulation? weil Computer schwerer rechnen können als das menschliche Gehirn. Ich würde gerne auf den mathematisch-statistischen Teil des maschinellen Lernens eingehen, aber Sie möchten nicht darauf eingehen, ohne vorher einige Konzepte zu klären.
Kommen wir zurück zu Kylo Ren. Nehmen wir an, Kylo nimmt den Säbel und beginnt damit zu spielen. Er trifft versehentlich einen Sturmtruppler und der Sturmtruppler wird verletzt. Er versteht nicht, was los ist und spielt weiter. Als nächstes schlägt er eine Katze und die Katze wird verletzt. Diesmal ist Kylo sicher, dass er etwas Schlechtes getan hat und versucht, etwas vorsichtig zu sein. Aber aufgrund seiner schlechten Säbelfähigkeiten schlägt er den Elefanten und ist sich absolut sicher, dass er in Schwierigkeiten ist. Danach wird er äußerst vorsichtig und schlägt seinen Vater nur absichtlich, wie wir in Force Awakens gesehen haben !!
Dieser gesamte Prozess des Lernens aus Ihrem Fehler kann mit Gleichungen nachgeahmt werden, bei denen das Gefühl, etwas falsch zu machen, durch einen Fehler oder Kosten dargestellt wird. Dieser Prozess der Identifizierung, was nicht mit einem Säbel zu tun ist, wird als Klassifizierung bezeichnet. Clustering und Klassifizierung sind die absoluten Grundlagen des maschinellen Lernens. Schauen wir uns den Unterschied zwischen ihnen an.
Kylo unterschied zwischen Tieren und Lichtschwert, weil sein Gehirn entschied, dass Lichtschwerter sich nicht von selbst bewegen können und daher unterschiedlich sind. Die Entscheidung basierte ausschließlich auf den vorhandenen Objekten (Daten) und es wurde keine externe Hilfe oder Beratung bereitgestellt. Im Gegensatz dazu unterschied Kylo die Wichtigkeit des Umgangs mit Lichtschwertern, indem er zunächst beobachtete, was das Schlagen eines Objekts bewirken kann. Die Entscheidung basierte nicht vollständig auf dem Säbel, sondern darauf, was er mit verschiedenen Objekten tun konnte. Kurz gesagt, hier gab es etwas Hilfe.
Aufgrund dieses Unterschieds beim Lernen wird Clustering als unbeaufsichtigte Lernmethode und Klassifizierung als überwachte Lernmethode bezeichnet. Sie sind in der Welt des maschinellen Lernens sehr unterschiedlich und werden oft von der Art der vorhandenen Daten bestimmt. Es ist oft nicht einfach, beschriftete Daten zu erhalten (oder Dinge, die uns beim Lernen helfen, wie Sturmtruppler, Elefant und Katze in Kylos Fall) und wird sehr kompliziert, wenn die zu differenzierenden Daten groß sind. Auf der anderen Seite kann das Lernen ohne Etiketten seine eigenen Nachteile haben, z. B. nicht zu wissen, was die Etikettentitel sind. Wenn Kylo lernen würde, ohne Beispiele oder Hilfe vorsichtig mit dem Säbel umzugehen, würde er nicht wissen, was er tun würde. Er würde nur wissen, dass es nicht angenommen wird, dass es getan wird. Es ist eine Art lahme Analogie, aber Sie verstehen es!
Wir fangen gerade erst mit maschinellem Lernen an. Die Klassifizierung selbst kann die Klassifizierung fortlaufender Nummern oder die Klassifizierung von Etiketten sein. Wenn Kylo beispielsweise die Größe jedes Sturmtrupplers klassifizieren müsste, gäbe es viele Antworten, da die Höhen 5,0, 5,01, 5,011 usw. betragen können. Eine einfache Klassifizierung wie Arten von Lichtschwertern (rot, blau, grün) hätte sehr begrenzte Antworten. Tatsächlich können sie mit einfachen Zahlen dargestellt werden. Rot kann 0 sein, Blau kann 1 sein und Grün kann 2 sein.
Wenn Sie sich mit Grundlagen der Mathematik auskennen, wissen Sie, dass 0,1,2 und 5,1,5,01,5.011 unterschiedlich sind und als diskrete bzw. kontinuierliche Zahlen bezeichnet werden. Die Klassifizierung diskreter Zahlen wird als logistische Regression bezeichnet, und die Klassifizierung fortlaufender Zahlen wird als Regression bezeichnet. Logistische Regression wird auch als kategoriale Klassifizierung bezeichnet. Seien Sie also nicht verwirrt, wenn Sie diesen Begriff an anderer Stelle lesen
Dies war eine sehr grundlegende Einführung in das maschinelle Lernen. Ich werde in meinem nächsten Beitrag auf die statistische Seite eingehen. Bitte lassen Sie mich wissen, wenn ich Korrekturen benötige :)
Zweiter Teil hier gepostet .
quelle
Ich bin ein Neuling in Data Mining, aber wie in meinem Lehrbuch steht, soll KLASSIKIERUNG überwachtes Lernen und unbeaufsichtigtes Lernen sein. Der Unterschied zwischen überwachten Lernen und nicht überwachtes Lernen findet sich hier .
quelle
Einstufung
Ist die Zuordnung vordefinierter Klassen zu neuen Beobachtungen , basierend auf dem Lernen aus Beispielen.
Es ist eine der Schlüsselaufgaben beim maschinellen Lernen.
Clustering (oder Clusteranalyse)
Während im Volksmund als "unbeaufsichtigte Klassifizierung" abgetan, ist es ganz anders.
Im Gegensatz zu dem, was viele maschinelle Lernende Ihnen beibringen, geht es nicht darum, Objekten "Klassen" zuzuweisen, sondern sie nicht vordefinieren zu lassen. Dies ist die sehr eingeschränkte Sichtweise von Menschen, die zu viele Klassifizierungen vorgenommen haben. Ein typisches Beispiel dafür , dass bei einem Hammer (Klassifikator) alles für Sie wie ein Nagel (Klassifizierungsproblem) aussieht . Aber es ist auch der Grund, warum Klassifizierungsleute keine Ahnung von Clustering haben.
Betrachten Sie es stattdessen als Strukturerkennung . Die Aufgabe des Clusters besteht darin, eine Struktur (z. B. Gruppen) in Ihren Daten zu finden, die Sie zuvor nicht kannten . Clustering war erfolgreich, wenn Sie etwas Neues gelernt haben. Es ist fehlgeschlagen, wenn Sie nur die Struktur erhalten haben, die Sie bereits kannten.
Die Clusteranalyse ist eine Schlüsselaufgabe des Data Mining (und das hässliche Entlein beim maschinellen Lernen. Hören Sie also nicht auf maschinelle Lernende, die das Clustering ablehnen).
"Unbeaufsichtigtes Lernen" ist ein Oxymoron
Dies wurde in der Literatur auf und ab wiederholt, aber unbeaufsichtigtes Lernen ist nicht möglich . Es existiert nicht, aber es ist ein Oxymoron wie "militärischer Geheimdienst".
Entweder lernt der Algorithmus aus Beispielen (dann ist es "überwachtes Lernen") oder er lernt nicht. Wenn alle Clustering-Methoden "lernen", ist die Berechnung des Minimums, Maximums und Durchschnitts eines Datensatzes auch "unbeaufsichtigtes Lernen". Dann "lernte" jede Berechnung ihre Ausgabe. So der ‚nicht überwachtes Lernen‘ Begriff ist völlig sinnlos , bedeutet dies alles und nichts.
Einige "unbeaufsichtigte Lern" -Algorithmen fallen jedoch in die Optimierungskategorie . Zum Beispiel k-Mittel ist eine Least-Squares - Optimierung. Solche Methoden sind überall in der Statistik zu finden, daher denke ich nicht, dass wir sie als "unbeaufsichtigtes Lernen" bezeichnen müssen, sondern sie weiterhin als "Optimierungsprobleme" bezeichnen sollten. Es ist präziser und aussagekräftiger. Es gibt viele Clustering-Algorithmen, die keine Optimierung beinhalten und die nicht gut in Paradigmen des maschinellen Lernens passen. Also hör auf, sie dort unter dem Dach "unbeaufsichtigtes Lernen" zusammenzudrücken.
Mit Clustering ist etwas "Lernen" verbunden, aber es ist nicht das Programm, das lernt. Es ist der Benutzer, der neue Dinge über seinen Datensatz lernen soll.
quelle
Durch Clustering können Sie Daten mit Ihren gewünschten Eigenschaften wie Anzahl, Form und anderen Eigenschaften extrahierter Cluster gruppieren. Während bei der Klassifizierung die Anzahl und die Form der Gruppen festgelegt sind. Die meisten Clustering-Algorithmen geben die Anzahl der Cluster als Parameter an. Es gibt jedoch einige Ansätze, um die geeignete Anzahl von Clustern herauszufinden.
quelle
Zunächst einmal, wie viele Antworten hier sagen: Klassifizierung wird überwachtes Lernen und Clustering wird nicht überwacht. Das heisst:
Für die Klassifizierung sind beschriftete Daten erforderlich, damit die Klassifizierer auf diese Daten trainiert werden können. Danach können Sie neue unsichtbare Daten basierend auf dem, was er weiß, klassifizieren. Unbeaufsichtigtes Lernen wie Clustering verwendet keine gekennzeichneten Daten, und tatsächlich werden intrinsische Strukturen in den Daten wie Gruppen entdeckt.
Ein weiterer Unterschied zwischen beiden Techniken (im Zusammenhang mit der vorherigen) ist die Tatsache, dass die Klassifizierung eine Form des diskreten Regressionsproblems ist, bei dem die Ausgabe eine kategorial abhängige Variable ist. Während die Ausgabe von Clustering eine Reihe von Teilmengen ergibt, die als Gruppen bezeichnet werden. Die Art und Weise, diese beiden Modelle zu bewerten, ist aus demselben Grund auch unterschiedlich: Bei der Klassifizierung müssen Sie häufig die Präzision und den Rückruf überprüfen, z. B. Über- und Unteranpassung usw. Diese Dinge zeigen Ihnen, wie gut das Modell ist. Beim Clustering benötigen Sie jedoch normalerweise die Vision und den Experten, um zu interpretieren, was Sie finden, da Sie nicht wissen, welche Art von Struktur Sie haben (Art der Gruppe oder des Clusters). Aus diesem Grund gehört Clustering zur explorativen Datenanalyse.
Schließlich würde ich sagen, dass Anwendungen der Hauptunterschied zwischen beiden sind. Die Klassifizierung wird, wie das Wort sagt, verwendet, um Fälle zu unterscheiden, die zu einer oder einer anderen Klasse gehören, z. B. ein Mann oder eine Frau, eine Katze oder ein Hund usw. Clustering wird häufig bei der Diagnose von medizinischen Erkrankungen, der Entdeckung von Mustern usw. verwendet. etc.
quelle
Klassifizierung : Vorhersage der Ergebnisse in einer diskreten Ausgabe => Zuordnung von Eingabevariablen zu diskreten Kategorien
Beliebte Anwendungsfälle:
E-Mail-Klassifizierung: Spam oder Nicht-Spam
Sanktionsdarlehen an den Kunden: Ja, wenn er in der Lage ist, EMI für den genehmigten Darlehensbetrag zu bezahlen. Nein, wenn er nicht kann
Identifizierung von Krebstumorzellen: Ist es kritisch oder unkritisch?
Stimmungsanalyse von Tweets: Ist der Tweet positiv oder negativ oder neutral?
Klassifizierung von Nachrichten: Klassifizieren Sie die Nachrichten in eine der vordefinierten Klassen - Politik, Sport, Gesundheit usw.
Clustering : ist die Aufgabe, eine Gruppe von Objekten so zu gruppieren, dass Objekte in derselben Gruppe (als Cluster bezeichnet) einander (in gewissem Sinne) ähnlicher sind als Objekte in anderen Gruppen (Cluster).
Beliebte Anwendungsfälle:
Marketing: Entdecken Sie Kundensegmente für Marketingzwecke
Biologie: Einteilung in verschiedene Pflanzen- und Tierarten
Bibliotheken: Clustering verschiedener Bücher anhand von Themen und Informationen
Versicherung: Bestätigen Sie die Kunden, ihre Richtlinien und identifizieren Sie die Betrugsfälle
Stadtplanung: Bilden Sie Gruppen von Häusern und untersuchen Sie deren Werte anhand ihrer geografischen Lage und anderer Faktoren.
Erdbebenstudien: Identifizieren Sie gefährliche Zonen
Empfehlungssystem :
Verweise:
geeksforgeeks
Datenaspirant
3 Blattknoten
quelle
Klassifizierung - Prognostiziert kategoriale Klassenbezeichnungen - Klassifiziert Daten (erstellt ein Modell) basierend auf einem Trainingssatz und den Werten (Klassenbezeichnungen) in einem Klassenbezeichnungsattribut. - Verwendet das Modell zum Klassifizieren neuer Daten
Cluster: Eine Sammlung von Datenobjekten - ähnlich wie im selben Cluster - unähnlich zu den Objekten in anderen Clustern
quelle
Clustering zielt darauf ab, Gruppen in Daten zu finden. "Cluster" ist ein intuitives Konzept und hat keine mathematisch strenge Definition. Die Mitglieder eines Clusters sollten einander ähnlich und den Mitgliedern anderer Cluster unähnlich sein. Ein Clustering-Algorithmus arbeitet mit einem unbeschrifteten Datensatz Z und erzeugt eine Partition darauf.
Bei Klassen und Klassenbeschriftungen enthält die Klasse ähnliche Objekte, während Objekte aus verschiedenen Klassen unterschiedlich sind. Einige Klassen haben eine eindeutige Bedeutung und schließen sich im einfachsten Fall gegenseitig aus. Bei der Signaturüberprüfung ist die Signatur beispielsweise entweder echt oder gefälscht. Die wahre Klasse ist eine der beiden, egal, ob wir aus der Beobachtung einer bestimmten Signatur möglicherweise nicht richtig raten können.
quelle
Clustering ist eine Methode zum Gruppieren von Objekten, sodass Objekte mit ähnlichen Merkmalen zusammenkommen und Objekte mit unterschiedlichen Merkmalen auseinanderfallen. Es ist eine übliche Technik zur statistischen Datenanalyse, die beim maschinellen Lernen und beim Data Mining verwendet wird.
Die Klassifizierung ist ein Kategorisierungsprozess, bei dem Objekte anhand des Trainingsdatensatzes erkannt, differenziert und verstanden werden. Die Klassifizierung ist eine überwachte Lerntechnik, bei der ein Trainingssatz und korrekt definierte Beobachtungen verfügbar sind.
quelle
Aus dem Buch Mahout in Action, und ich denke, es erklärt den Unterschied sehr gut:
quelle
Ein Liner für die Klassifizierung:
Klassifizierung von Daten in vordefinierte Kategorien
Ein Liner für Clustering:
Gruppieren von Daten in eine Reihe von Kategorien
Hauptunterschied:
Bei der Klassifizierung werden Daten erfasst und in vordefinierte Kategorien eingeteilt. Beim Clustering der Gruppe von Kategorien, in die Sie die Daten gruppieren möchten, ist dies nicht im Voraus bekannt.
Fazit:
Ich habe einen langen Beitrag zum gleichen Thema geschrieben, den Sie hier finden:
https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/
quelle
Wenn Sie versuchen, eine große Anzahl von Blättern in Ihrem Regal abzulegen (basierend auf dem Datum oder einer anderen Spezifikation der Datei), klassifizieren Sie.
Wenn Sie Cluster aus dem Satz von Blättern erstellen würden, würde dies bedeuten, dass sich unter den Blättern etwas Ähnliches befindet.
quelle
Im Data Mining gibt es zwei Definitionen: "Überwacht" und "Nicht überwacht". Wenn jemand dem Computer, dem Algorithmus, dem Code usw. mitteilt, dass dieses Ding wie ein Apfel und dieses Ding wie eine Orange ist, wird dies überwacht überwacht und überwachtes Lernen (wie Tags für jede Probe in einem Datensatz) zur Klassifizierung des Daten erhalten Sie Klassifizierung. Wenn Sie jedoch den Computer herausfinden lassen, was was ist, und zwischen Merkmalen des angegebenen Datensatzes unterscheiden, und zwar unbeaufsichtigt lernen, um den Datensatz zu klassifizieren, wird dies als Clustering bezeichnet. In diesem Fall haben Daten, die dem Algorithmus zugeführt werden, keine Tags, und der Algorithmus sollte verschiedene Klassen ermitteln.
quelle
Maschinelles Lernen oder KI wird weitgehend von der Aufgabe wahrgenommen, die es ausführt / erfüllt.
Meiner Meinung nach kann das Nachdenken über Clustering und Klassifizierung im Begriff der Aufgabe, die sie erreichen, wirklich dazu beitragen, den Unterschied zwischen beiden zu verstehen.
Clustering dient dazu, Dinge zu gruppieren, und Klassifizierung dient dazu, Dinge zu kennzeichnen.
Nehmen wir an, Sie befinden sich in einem Partyraum, in dem alle Männer in Anzügen und Frauen in Kleidern sind.
Jetzt stellst du deinem Freund ein paar Fragen:
Q1: Heyy, kannst du mir helfen, Leute zu gruppieren?
Mögliche Antworten, die Ihr Freund geben kann, sind:
1: Er kann Personen nach Geschlecht, Mann oder Frau gruppieren
2: Er kann Personen anhand ihrer Kleidung gruppieren, 1 trägt Anzüge, andere tragen Kleider
3: Er kann Menschen anhand ihrer Haarfarbe gruppieren
4: Er kann Personen nach ihrer Altersgruppe usw. usw. usw. gruppieren.
Es gibt zahlreiche Möglichkeiten, wie Ihr Freund diese Aufgabe erledigen kann.
Natürlich können Sie seinen Entscheidungsprozess beeinflussen, indem Sie zusätzliche Eingaben wie:
Können Sie mir helfen, diese Personen nach Geschlecht (oder Altersgruppe, Haarfarbe oder Kleid usw.) zu gruppieren?
Q2:
Vor dem zweiten Quartal müssen Sie einige Vorarbeiten durchführen.
Sie müssen Ihren Freund unterrichten oder informieren, damit er eine fundierte Entscheidung treffen kann. Nehmen wir also an, Sie haben Ihrem Freund gesagt:
Menschen mit langen Haaren sind Frauen.
Menschen mit kurzen Haaren sind Männer.
Q2. Jetzt weisen Sie eine Person mit langen Haaren darauf hin und fragen Ihren Freund: Ist es ein Mann oder eine Frau?
Die einzige Antwort, die Sie erwarten können, ist: Frau.
Natürlich kann es Männer mit langen Haaren und Frauen mit kurzen Haaren auf der Party geben. Die Antwort ist jedoch richtig, basierend auf dem Lernen, das Sie Ihrem Freund gegeben haben. Sie können den Prozess weiter verbessern, indem Sie Ihrem Freund mehr darüber beibringen, wie man zwischen beiden unterscheidet.
Im obigen Beispiel ist
Q1 repräsentiert die Aufgabe, die Clustering erfüllt.
Beim Clustering stellen Sie die Daten (Personen) dem Algorithmus (Ihrem Freund) zur Verfügung und bitten ihn, die Daten zu gruppieren.
Nun liegt es am Algorithmus, zu entscheiden, wie man am besten gruppiert. (Geschlecht, Farbe oder Altersgruppe).
Auch hier können Sie die vom Algorithmus getroffene Entscheidung definitiv beeinflussen, indem Sie zusätzliche Eingaben bereitstellen.
Q2 repräsentiert die Aufgabe, die die Klassifizierung erfüllt.
Dort geben Sie Ihrem Algorithmus (Ihrem Freund) einige Daten (Personen), die als Trainingsdaten bezeichnet werden, und lassen ihn lernen, welche Daten welchem Etikett entsprechen (männlich oder weiblich). Anschließend verweisen Sie Ihren Algorithmus auf bestimmte Daten, die als Testdaten bezeichnet werden, und fragen ihn, ob er männlich oder weiblich ist. Je besser Ihr Unterricht ist, desto besser ist seine Vorhersage.
Und die Vorarbeit in Q2 oder Klassifizierung ist nichts anderes als nur das Training Ihres Modells, damit es lernen kann, wie man differenziert. In Clustering oder Q1 ist diese Vorarbeit Teil der Gruppierung.
Hoffe das hilft jemandem.
Vielen Dank
quelle
Klassifizierung - Ein Datensatz kann verschiedene Gruppen / Klassen haben. rot, grün und schwarz. Die Klassifizierung versucht, Regeln zu finden, die sie in verschiedene Klassen unterteilen.
Custering - Wenn ein Datensatz keine Klasse enthält und Sie sie einer Klasse / Gruppierung zuordnen möchten, führen Sie Clustering durch. Die lila Kreise oben.
Wenn die Klassifizierungsregeln nicht gut sind, haben Sie beim Testen eine Fehlklassifizierung oder Ihre Regeln sind nicht korrekt genug.
Wenn das Clustering nicht gut ist, haben Sie viele Ausreißer, z. Datenpunkte können nicht in einen Cluster fallen.
quelle
Die Hauptunterschiede zwischen Klassifizierung und Clustering sind: Bei der Klassifizierung werden die Daten mithilfe von Klassenbezeichnungen klassifiziert. Auf der anderen Seite ähnelt Clustering der Klassifizierung, es gibt jedoch keine vordefinierten Klassenbezeichnungen. Die Klassifizierung ist auf überwachtes Lernen ausgerichtet. Im Gegensatz dazu wird Clustering auch als unbeaufsichtigtes Lernen bezeichnet. Das Trainingsmuster wird in der Klassifizierungsmethode bereitgestellt, während im Fall des Clustering keine Trainingsdaten bereitgestellt werden.
Hoffe das wird helfen!
quelle
Ich glaube, Klassifizierung klassifiziert Datensätze in einem Datensatz in vordefinierte Klassen oder definiert sogar Klassen für unterwegs. Ich betrachte es als Voraussetzung für wertvolles Data Mining. Ich denke gerne an unbeaufsichtigtes Lernen, dh man weiß nicht, wonach er sucht, während das Mining der Daten und die Klassifizierung als guter Ausgangspunkt dienen
Clustering am anderen Ende fällt unter überwachtes Lernen, dh man weiß, nach welchen Parametern zu suchen ist, die Korrelation zwischen ihnen und kritischen Ebenen. Ich glaube, es erfordert ein gewisses Verständnis von Statistik und Mathematik
quelle