F: Was ist die Standardmethode zum Clustering von Daten mithilfe eines Dirichlet-Prozesses?
Bei Verwendung von Gibbs treten während der Probenahme Cluster auf und verschwinden. Außerdem haben wir ein Identifizierungsproblem, da die posteriore Verteilung für Cluster-Relabelings nicht relevant ist. Wir können also nicht sagen, welches der Cluster eines Benutzers ist, sondern dass sich zwei Benutzer in demselben Cluster befinden (dh ).
Können wir die Klassenzuordnungen so zusammenfassen, dass wir, wenn die Clusterzuordnung von Punkt , nicht nur sondern auch ? i c i = c j
Dies sind die Alternativen, die ich gefunden habe und warum ich denke, dass sie unvollständig oder falsch sind.
(1) DP-GMM + Gibbs-Abtastung + paarbasierte Verwirrungsmatrix
Um ein Dirichlet-Prozess-Gauß-Mischungsmodell (DP-GMM) für ein Clustering zu verwenden, implementierte ich dieses Papier, in dem die Autoren ein DP-GMM für die Dichteschätzung unter Verwendung von Gibbs-Stichproben vorschlagen .
Um die Clustering-Leistung zu untersuchen, heißt es:
Da sich die Anzahl der Komponenten über die [MCMC] -Kette ändert, müsste eine Verwirrungsmatrix gebildet werden, die die Häufigkeit jedes Datenpaars angibt, das derselben Komponente für die gesamte Kette zugewiesen ist (siehe 6).
Nachteile : Dies ist kein echtes "vollständiges" Clustering, sondern ein paarweises Clustering. Die Abbildung sieht so gut aus, weil wir die realen Cluster kennen und die Matrix entsprechend anordnen.
(2) DP-GMM + Gibbs-Probenahme + Probe, bis sich nichts mehr ändert
Ich habe gesucht und einige Leute gefunden, die behaupteten, mit einem Gibbs-Sampler Clustering auf der Basis des Dirichlet-Prozesses durchzuführen. In diesem Beitrag wird beispielsweise davon ausgegangen, dass die Kette konvergiert, wenn sich weder die Anzahl der Cluster noch die Mittelwerte geändert haben, und daher die Zusammenfassungen von dort abgerufen.
Nachteile : Ich bin mir nicht sicher, ob dies erlaubt ist, wenn ich mich nicht irre:
(a) Während der MCMC kann es zu Etikettenwechseln kommen.
(b) Selbst in der stationären Verteilung kann der Sampler von Zeit zu Zeit einen Cluster erzeugen.
(3) DP-GMM + Gibbs-Sampling + Sample mit der wahrscheinlichsten Partition auswählen
In diesem Artikel sagen die Autoren:
Nach einer Einbrennphase können aus dem Gibbs-Probenehmer unverfälschte Proben aus der posterioren Verteilung des IGMM entnommen werden. Eine harte Clusterbildung kann festgestellt werden, indem viele solcher Stichproben gezogen und die Stichprobe mit der höchsten gemeinsamen Wahrscheinlichkeit der Klassenindikatorvariablen verwendet werden. Wir verwenden eine modifizierte IGMM-Implementierung von M. Mandel .
Nachteile : Sofern es sich nicht um einen Collapsed Gibbs-Sampler handelt, bei dem nur die Zuordnungen abgetastet werden, können wir berechnen , nicht jedoch das marginale p ( c ) . (Wäre es eine gute Übung, stattdessen den Zustand mit dem höchsten p ( c , θ ) zu erhalten ?)
(4) DP-GMM mit variatonaler Inferenz :
Ich habe gesehen, dass einige Bibliotheken Variationsinferenz verwenden. Ich kenne Variational Inference nicht sehr gut, aber ich vermute, dass Sie dort keine Identifizierungsprobleme haben. Ich möchte mich jedoch (wenn möglich) an MCMC-Methoden halten.
Jeder Hinweis wäre hilfreich.
Antworten:
Meine vorläufige Antwort wäre, als Parameter zu behandeln, so dass p ( c , θ ) einfach der hintere Modus ist. Ich vermute, dass Niekum und Barto dies getan haben (das in Option 3 genannte Papier). Der Grund, warum sie vage waren, ob sie p verwendetenc p(c,θ) p(c,θ) p(c|θ)
Der Grund, warum ich diese Antwort als "vorläufig" bezeichne, ist, dass ich nicht sicher bin, ob die Bezeichnung eines Wertes als "Parameter" nur eine Frage der Semantik ist oder ob es eine technisch / theoretischere Definition gibt, als einer der Doktoranden hier wäre zu klären.
quelle
Ich wollte nur einige Ressourcen zum Thema teilen, in der Hoffnung, dass einige von ihnen bei der Beantwortung dieser Frage hilfreich sein könnten. Es gibt viele Tutorials zu Dirichlet-Prozessen (DP) , darunter einige zur Verwendung von DP für Clustering . Sie reichen von "sanft", wie in diesem Präsentationstutorial , bis zu fortgeschritteneren, wie in diesem Präsentationstutorial . Letzteres ist eine aktualisierte Version des gleichen Tutorials, das Yee Whye Teh auf der MLSS'07 vorgestellt hat. Das Video zu diesem Gespräch mit synchronisierten Folien können Sie hier ansehen . Sprechen über Videos, können Sie ein weiteren interessanten und relevanten Vortrag mit Dia von Tom Griffith sehen hier . In Bezug auf die papierformatierten Tutorials ist dieses Tutorial ist eine schöne und sehr beliebte.
Abschließend möchte ich noch einige verwandte Arbeiten vorstellen. Dieses Papier über hierarchische EP scheint wichtig und relevant zu sein. Gleiches gilt für dieses Papier von Radford Neal. Wenn Sie interessiert sind Thema Modellierung , latente Dirichlet Allocation (LDA) sollte höchstwahrscheinlich auch auf dem Radar sein. In diesem Fall präsentiert dieses kürzlich erschienene Papier einen neuartigen und stark verbesserten LDA-Ansatz. In Bezug auf das Thema Modellierung würde ich empfehlen, Forschungsarbeiten von David Blei und seinen Mitarbeitern zu lesen. Dieser Artikel ist eine Einführung, den Rest finden Sie auf seiner Seite mit Forschungspublikationen. Mir ist klar, dass einige der von mir empfohlenen Materialien zu einfach für Sie sein könnten, aber ich dachte, dass Sie die Chance erhöhen würden, eine Antwort zu finden, wenn Sie alles einbeziehen, was ich zu diesem Thema gesagt habe .
quelle