Derzeit versuche ich, einen Textdokumentdatensatz zu analysieren, der keine fundamentale Wahrheit enthält. Mir wurde gesagt, dass Sie die k-fache Kreuzvalidierung verwenden können, um verschiedene Clustering-Methoden zu vergleichen. Die Beispiele, die ich in der Vergangenheit gesehen habe, verwenden jedoch eine Grundwahrheit. Gibt es eine Möglichkeit, k-fach Mittel für diesen Datensatz zu verwenden, um meine Ergebnisse zu überprüfen?
Ich versuche zu verstehen, wie Sie die Kreuzvalidierung auf Clustering-Methoden wie das k-means anwenden würden, da die neuen kommenden Daten den Schwerpunkt und sogar die Clustering-Verteilungen auf Ihrer vorhandenen ändern werden.
In Bezug auf die unbeaufsichtigte Validierung beim Clustering müssen Sie möglicherweise die Stabilität Ihrer Algorithmen mit unterschiedlichen Clusternummern für die erneut abgetasteten Daten quantifizieren.
Die Grundidee der Clusterstabilität ist in der folgenden Abbildung dargestellt:
Sie können beobachten, dass mit der Clustering-Nummer 2 oder 5 mindestens zwei unterschiedliche Clustering-Ergebnisse vorliegen (siehe die Strichlinien in den Abbildungen), aber mit der Clustering-Nummer 4 ist das Ergebnis relativ stabil.
Clusterstabilität: Ein Überblick von Ulrike von Luxburg könnte hilfreich sein.
quelle
Zur Erleichterung der Erklärung und Klarheit würde ich das Clustering bootstrappen.
Im Allgemeinen können Sie solche neu abgetasteten Cluster verwenden, um die Stabilität Ihrer Lösung zu messen: Ändert sich diese kaum oder vollständig?
Auch wenn Sie keine fundamentale Wahrheit haben, können Sie das Clustering, das sich aus verschiedenen Läufen derselben Methode ergibt (Resampling), oder die Ergebnisse verschiedener Clustering-Algorithmen vergleichen, indem Sie beispielsweise Folgendes tabellieren:
Da die Cluster nominal sind, kann sich ihre Reihenfolge beliebig ändern. Das bedeutet aber, dass Sie die Reihenfolge ändern dürfen, damit die Cluster übereinstimmen. Dann zählen die diagonalen * Elemente Fälle, die demselben Cluster zugewiesen sind, und die nicht diagonalen Elemente zeigen, wie sich die Zuweisungen geändert haben:
Ich würde sagen, dass das Resampling gut ist, um festzustellen, wie stabil Ihr Clustering innerhalb der einzelnen Methoden ist. Ohne das macht es nicht allzu viel Sinn, die Ergebnisse mit anderen Methoden zu vergleichen.
Sie mischen nicht k-fach Kreuzvalidierung und k-Mittelwert-Clustering, oder?
quelle
Kürzlich wurde eine Bi-Cross-Validierungsmethode veröffentlicht, mit der die Anzahl der Cluster ermittelt werden kann .
und jemand versucht , mit Sci-Kit lernen zu implementieren hier .
Obwohl ihr Erfolg etwas begrenzt ist. Wie aus den Veröffentlichungen hervorgeht, funktioniert diese Methode nicht gut, wenn die Clusterzentren stark korreliert sind, was bei großen Clustern in niedrigdimensionalen Systemen vorkommen kann. (z.B7 Cluster in 2 D funktioniert nicht gut.)
quelle