Optimale Anzahl von Komponenten in einer Gaußschen Mischung

10

Eine "Vorstellung" von der optimalen Anzahl von Clustern in k-means zu bekommen, ist also gut dokumentiert. Ich habe einen Artikel darüber in Gaußschen Gemischen gefunden, bin mir aber nicht sicher, ob ich davon überzeugt bin, verstehe ihn nicht sehr gut. Gibt es eine ... sanftere Möglichkeit, dies zu tun?

JEquihua
quelle
4
Könnten Sie den Artikel zitieren oder zumindest die vorgeschlagene Methodik skizzieren? Es ist schwer, einen "sanfteren" Weg zu finden, wenn wir die Grundlinie nicht kennen :)
Jbowman
1
Geoff McLachlan und andere haben Bücher über Mischungsverteilungen geschrieben. Ich bin sicher, dass dies Ansätze zur Bestimmung der Anzahl von Komponenten in einer Mischung beinhaltet. Sie könnten wahrscheinlich dort suchen. Ich stimme jbowman zu, dass eine Linderung Ihrer Verwirrung am besten erreicht werden kann, wenn Sie uns mitteilen, worüber Sie verwirrt sind.
Michael R. Chernick
Die Schätzung der optimalen Anzahl von Gaußschen Gemischen basierend auf inkrementellen k-Mitteln zur Sprecheridentifikation .... Ist der Titel, kann er kostenlos heruntergeladen werden. Grundsätzlich wird die Anzahl der Cluster um 1 erhöht, bis Sie sehen, dass zwei Cluster voneinander abhängig werden. Vielen Dank!
JEquihua
Warum nicht einfach die Anzahl der Komponenten auswählen, die die Kreuzvalidierungsschätzung der Wahrscheinlichkeit maximieren? Es ist rechenintensiv, aber die Kreuzvalidierung ist in den meisten Fällen für die Modellauswahl schwer zu übertreffen, es sei denn, es gibt eine große Anzahl von Parametern, die eingestellt werden müssen.
Dikran Beuteltier
Können Sie ein wenig erklären, wie hoch die Kreuzvalidierungsschätzung der Wahrscheinlichkeit ist? Das Konzept ist mir nicht bekannt. Vielen Dank.
JEquihua

Antworten:

5

Nur eine Erweiterung des Kommentars von Dikran Marsupial (Kreuzvalidierung). Die Hauptidee besteht darin, Ihre Daten auf irgendeine Weise in Trainings- und Validierungssätze aufzuteilen, eine unterschiedliche Anzahl von Komponenten auszuprobieren und die besten basierend auf den entsprechenden Trainings- und Validierungswahrscheinlichkeitswerten auszuwählen.

Die Wahrscheinlichkeit für GMM ist per Definition nur , wobei die Anzahl der Komponenten (Cluster) und ist. , sind Modellparameter. Durch Ändern des Werts von Sie die GMM-Wahrscheinlichkeit für Trainings- und Validierungssätze wie folgt darstellen.p(x|π,μ,Σ)=K.πkN.(x|μk,Σk)K.πμΣK.

Geben Sie hier die Bildbeschreibung ein

In diesem Beispiel sollte es offensichtlich sein, dass die optimale Anzahl von Komponenten bei etwa 20 liegt. Es gibt ein schönes Video dazu auf Coursera, und von dort habe ich das obige Bild erhalten.


Eine andere häufig verwendete Methode ist das Bayes'sche Informationskriterium (BIC) : wobei die Wahrscheinlichkeit, K die Anzahl der Parameter und die Anzahl der Datenpunkte ist. Es kann so verstanden werden, dass der Protokollwahrscheinlichkeit eine Strafe für die Anzahl der Parameter hinzugefügt wird.

B.ichC.=- -2Log(L.)+K.Log(n)
L.n
dontloo
quelle