Gibt es "nicht parametrische" Clustering-Methoden, für die die Anzahl der Cluster nicht angegeben werden muss? Und andere Parameter wie die Anzahl der Punkte pro Cluster usw.
quelle
Gibt es "nicht parametrische" Clustering-Methoden, für die die Anzahl der Cluster nicht angegeben werden muss? Und andere Parameter wie die Anzahl der Punkte pro Cluster usw.
Clustering-Algorithmen, bei denen Sie die Anzahl der Cluster im Voraus festlegen müssen, sind eine kleine Minderheit. Es gibt eine Vielzahl von Algorithmen, die dies nicht tun. Sie sind schwer zusammenzufassen; Es ist ein bisschen so, als würde man nach einer Beschreibung von Organismen fragen, die keine Katzen sind.
Clustering-Algorithmen werden häufig in große Königreiche eingeteilt:
Es kann zusätzliche Kategorien geben, und die Leute können mit diesen Kategorien nicht einverstanden sein und welche Algorithmen in welche Kategorie fallen, da dies heuristisch ist. Trotzdem ist so etwas üblich. Davon ausgehend erfordern in erster Linie nur die Partitionierungsmethoden (1) die Vorgabe der Anzahl der zu findenden Cluster. Welche anderen Informationen vordefiniert werden müssen (z. B. die Anzahl der Punkte pro Cluster) und ob es sinnvoll erscheint, verschiedene Algorithmen als "nichtparametrisch" zu bezeichnen, ist ebenfalls sehr variabel und schwer zusammenzufassen.
Beim hierarchischen Clustering müssen Sie die Anzahl der Cluster nicht wie bei k-means vorab angeben , sondern Sie wählen eine Anzahl von Clustern aus Ihrer Ausgabe aus. Auf der anderen Seite erfordert DBSCAN auch keine Angabe (aber es erfordert die Angabe einer Mindestanzahl von Punkten für eine "Nachbarschaft" - obwohl es Standardwerte gibt. In gewissem Sinne können Sie also die Angabe dieser Punkte überspringen -, wodurch ein Stockwerk entsteht die Anzahl der Muster in einem Cluster). GMM benötigt nicht einmal eines dieser drei Verfahren, sondern erfordert parametrische Annahmen zum Datenerzeugungsprozess. Soweit ich weiß, gibt es keinen Cluster-Algorithmus, bei dem Sie niemals eine Anzahl von Clustern, eine Mindestanzahl von Daten pro Cluster oder ein beliebiges Muster / eine beliebige Anordnung von Daten innerhalb von Clustern angeben müssen. Ich sehe nicht ein, wie es sein könnte.
Es kann hilfreich sein, einen Überblick über verschiedene Arten von Clustering-Algorithmen zu erhalten. Folgendes könnte ein Ausgangspunkt sein:
Mclust
zur Optimierung des BIC, der AIC kann jedoch auch als Folge von Likelihood-Ratio-Tests verwendet werden. Ich nehme an, Sie könnten es einen Meta-Algorithmus nennen, b / c, er hat konstituierende Schritte (z. B. EM), aber das ist der Algorithmus, den Sie verwenden, und auf jeden Fall müssen Sie k nicht vorab angeben. Sie können in meinem verknüpften Beispiel deutlich sehen, dass ich k dort nicht vorab angegeben habe.Das einfachste Beispiel ist hierarchisches Clustering , wo Sie jeden Punkt mit jedem anderen Punkt zu vergleichen , einige mit Abstandsmessung , und kommt dann zusammen das Paar, das den kleinsten Abstand hat zu verbindendem pseudo-Punkt (zB erstellen b und c macht bc wie auf dem Bild unten). Als Nächstes wiederholen Sie den Vorgang, indem Sie die Punkte und Pseudopunkte anhand ihrer paarweisen Abstände verbinden, bis jeder Punkt mit dem Diagramm verbunden ist.
(Quelle: https://en.wikipedia.org/wiki/Hierarchical_clustering )
Das Verfahren ist nicht parametrisch und das einzige, was Sie dafür benötigen, ist das Abstandsmaß. Am Ende müssen Sie entscheiden, wie Sie den mit diesem Verfahren erstellten Baumgraphen bereinigen möchten , sodass eine Entscheidung über die erwartete Anzahl von Clustern getroffen werden muss.
quelle
Parameter sind gut!
Eine "parameterfreie" Methode bedeutet, dass Sie nur eine einzige Aufnahme erhalten (mit Ausnahme von Zufälligkeiten), ohne Anpassungsmöglichkeiten .
Jetzt ist Clustering eine explorative Technik. Sie dürfen nicht davon ausgehen, dass es nur ein einziges "echtes" Clustering gibt . Sie sollten eher daran interessiert sein , verschiedene Cluster mit denselben Daten zu untersuchen, um mehr darüber zu erfahren. Clustering als Black Box zu behandeln, funktioniert nie gut.
Sie möchten beispielsweise die verwendete Distanzfunktion in Abhängigkeit von Ihren Daten anpassen können (dies ist auch ein Parameter!). Wenn das Ergebnis zu grob ist, möchten Sie ein feineres Ergebnis erzielen, oder wenn es zu fein ist erhalten Sie eine gröbere Version davon.
Die besten Methoden sind häufig solche, mit denen Sie das Ergebnis gut navigieren können, z. B. das Dendrogramm in hierarchischen Clustern. Sie können dann problemlos Unterstrukturen erkunden.
quelle
Schauen Sie sich Dirichlet-Mischungsmodelle an . Sie bieten eine gute Möglichkeit, die Daten zu verstehen, wenn Sie die Anzahl der Cluster vorher nicht kennen. Sie treffen jedoch Annahmen über die Formen von Clustern, gegen die Ihre Daten möglicherweise verstoßen.
quelle