Eine "Vorstellung" von der optimalen Anzahl von Clustern in k-means zu bekommen, ist also gut dokumentiert. Ich habe einen Artikel darüber in Gaußschen Gemischen gefunden, bin mir aber nicht sicher, ob ich davon überzeugt bin, verstehe ihn nicht sehr gut. Gibt es eine ... sanftere Möglichkeit, dies zu tun?
10
Antworten:
Nur eine Erweiterung des Kommentars von Dikran Marsupial (Kreuzvalidierung). Die Hauptidee besteht darin, Ihre Daten auf irgendeine Weise in Trainings- und Validierungssätze aufzuteilen, eine unterschiedliche Anzahl von Komponenten auszuprobieren und die besten basierend auf den entsprechenden Trainings- und Validierungswahrscheinlichkeitswerten auszuwählen.
Die Wahrscheinlichkeit für GMM ist per Definition nur , wobei die Anzahl der Komponenten (Cluster) und ist. , sind Modellparameter. Durch Ändern des Werts von Sie die GMM-Wahrscheinlichkeit für Trainings- und Validierungssätze wie folgt darstellen.p ( x | π, μ , Σ ) = ∑K.πkN.( x | μk, Σk) K. π μ Σ K.
In diesem Beispiel sollte es offensichtlich sein, dass die optimale Anzahl von Komponenten bei etwa 20 liegt. Es gibt ein schönes Video dazu auf Coursera, und von dort habe ich das obige Bild erhalten.
Eine andere häufig verwendete Methode ist das Bayes'sche Informationskriterium (BIC) : wobei die Wahrscheinlichkeit, K die Anzahl der Parameter und die Anzahl der Datenpunkte ist. Es kann so verstanden werden, dass der Protokollwahrscheinlichkeit eine Strafe für die Anzahl der Parameter hinzugefügt wird.
quelle