Warum ein Gaußsches Mischungsmodell verwenden?

9

Ich lerne etwas über Gaußsche Mischungsmodelle (GMM), bin aber verwirrt darüber, warum jemand diesen Algorithmus jemals verwenden sollte.

  1. Wie ist dieser Algorithmus besser als andere Standard-Clustering-Algorithmen wie Mittel, wenn es um Clustering geht? Der bedeutet, dass der Algorithmus Daten in Cluster mit eindeutigen Gruppenmitgliedschaften partitioniert , während das Gaußsche Mischungsmodell nicht für jeden Datenpunkt eine eindeutige Gruppenzugehörigkeit erzeugt. Was ist die Metrik, um zu sagen, dass ein Datenpunkt mit GMM näher an einem anderen liegt?K.K.K.

  2. Wie kann ich die endgültige Wahrscheinlichkeitsverteilung verwenden, die GMM erzeugt? Angenommen, ich erhalte meine endgültige Wahrscheinlichkeitsverteilung wobei die Gewichte sind, na und? Ich habe eine Wahrscheinlichkeitsverteilung erhalten, die zu meinen Daten passt . Was kann ich damit machen?f(x|w)wx

  3. Um mit meinem vorherigen Punkt , erhalten wir für am Ende eine Menge von Clustern, die wir als die Menge , die Dinge sind. Aber für GMM, alles , was ich erhalten , ist eine Verteilung , das ist Ding. Wie kann dies jemals zum Clustering von Dingen in Cluster verwendet werden?K.K.{S.1,,S.K.}}K.f(x|w)=ich=1N.wichN.(x|μich,Σich)1K.

Olórin
quelle
1
GMM hat andere Bedeutungen, nicht zuletzt in der Ökonometrie. Abkürzung aus dem Titel entfernt, um die Ablenkung zu verringern.
Nick Cox

Antworten:

11

Ich werde die Notation aus (1) ausleihen, die meiner Meinung nach GMMs recht gut beschreibt. Angenommen, wir haben eine Funktion . Um die Verteilung von zu modellieren, können wir ein GMM des Formulars anpassenXRdX.

f(x)=m=1M.αmϕ(x;;μm;;Σm)
mit die Anzahl der Komponenten in der Mischung, das Mischungsgewicht der Komponente und ist die Gaußsche Dichtefunktion mit dem Mittelwert und der Kovarianzmatrix . Mit dem EM-Algorithmus ( seine Verbindung zu K-Means wird in dieser Antwort erläutert ) können wir Schätzungen der Modellparameter erhalten, die ich hier mit einem Hut bezeichnen werde ( . Also, unser GMM wurde jetzt an angepasst , lass es uns benutzen!M.αmmϕ(x;;μm;;Σm)μmΣmα^m,μ^m,Σ^m)X.

Dies befasst sich mit Ihren Fragen 1 und 3

Was ist die Metrik, um zu sagen, dass ein Datenpunkt mit GMM näher an einem anderen liegt?
[...]
Wie kann dies jemals zum Clustering von Dingen in K-Cluster verwendet werden?

Da wir nun ein probabilistisches Modell der Verteilung haben, können wir unter anderem die hintere Wahrscheinlichkeit einer gegebenen Instanz berechnen, die zur Komponente , die manchmal als "Verantwortung" der Komponente für das (Produzieren) (2) bezeichnet wird ), bezeichnet alsxichmmxichr^ichm

r^ichm=α^mϕ(xich;;μm;;Σm)k=1M.α^kϕ(xich;;μk;;Σk)

Dies gibt uns die Wahrscheinlichkeiten von die zu den verschiedenen Komponenten gehören. Genau so kann ein GMM zum Clustering Ihrer Daten verwendet werden.xich

K-Mittel können auf Probleme stoßen, wenn die Wahl von K für die Daten nicht gut geeignet ist oder die Formen der Subpopulationen unterschiedlich sind. Die Scikit-Learn-Dokumentation enthält eine interessante Illustration solcher Fälle

Geben Sie hier die Bildbeschreibung ein

Die Wahl der Form der Kovarianzmatrizen des GMM beeinflusst, welche Formen die Komponenten annehmen können. Auch hier zeigt die Dokumentation zum Scikit-Lernen eine Illustration

Geben Sie hier die Bildbeschreibung ein

Während eine schlecht gewählte Anzahl von Clustern / Komponenten auch ein EMM-angepasstes GMM beeinflussen kann, kann ein Bayes-angepasstes GMM gegen diese Auswirkungen etwas widerstandsfähig sein, so dass die Mischungsgewichte einiger Komponenten (nahe) Null sein können. Mehr dazu finden Sie hier .

Verweise

(1) Friedman, Jerome, Trevor Hastie und Robert Tibshirani. Die Elemente des statistischen Lernens. Vol. 1. Nr. 10. New York: Springer-Reihe in der Statistik, 2001.
(2) Bishop, Christopher M. Mustererkennung und maschinelles Lernen. Springer, 2006.

deemel
quelle
7
  1. Wie ist dieser Algorithmus besser als andere Standard-Clustering-Algorithmen wie Mittel, wenn es um Clustering geht?K.
  • k-means eignet sich gut für grobkugelförmige Cluster gleicher Größe. Es kann fehlschlagen, wenn diese Bedingungen verletzt werden (obwohl es möglicherweise immer noch funktioniert, wenn die Cluster sehr weit voneinander entfernt sind). GMMs können Cluster mit einer größeren Vielfalt an Formen und Größen anpassen. Keiner der Algorithmen eignet sich jedoch gut für Daten mit gekrümmten / nicht konvexen Clustern.

  • GMMs geben eine probabilistische Zuordnung von Punkten zu Clustern. Dadurch können wir die Unsicherheit quantifizieren. Wenn sich ein Punkt beispielsweise in der Nähe der 'Grenze' zwischen zwei Clustern befindet, ist es oft besser zu wissen, dass er für diese Cluster nahezu gleiche Zugehörigkeitswahrscheinlichkeiten aufweist, als ihn blind dem nächsten zuzuweisen.

  • Die probabilistische Formulierung von GMMs ermöglicht es uns, Vorkenntnisse unter Verwendung von Bayes'schen Methoden einzubeziehen. Zum Beispiel wissen wir möglicherweise bereits etwas über die Formen oder Positionen der Cluster oder wie viele Punkte sie enthalten.

  • Die probabilistische Formulierung bietet eine Möglichkeit, mit fehlenden Daten umzugehen (z. B. unter Verwendung des Algorithmus zur Erwartungsmaximierung, der normalerweise zur Anpassung von GMMs verwendet wird). Wir können einen Datenpunkt immer noch gruppieren, auch wenn wir seinen Wert in einigen Dimensionen nicht beobachtet haben. Und wir können daraus schließen, was diese fehlenden Werte gewesen sein könnten.

  1. ... bedeutet, dass der Algorithmus Daten in Cluster mit eindeutigen Gruppenmitgliedschaften aufteilt, während das Gaußsche Mischungsmodell nicht für jeden Datenpunkt eine eindeutige Gruppenzugehörigkeit erzeugt. Was ist die Metrik, um zu sagen, dass ein Datenpunkt mit GMM näher an einem anderen liegt?K.K.

GMMs geben eine Wahrscheinlichkeit an, dass jeder Punkt zu jedem Cluster gehört (siehe unten). Diese Wahrscheinlichkeiten können mithilfe einer Entscheidungsregel in "harte Zuweisungen" umgewandelt werden. Am einfachsten ist es beispielsweise, jeden Punkt dem wahrscheinlichsten Cluster zuzuweisen (dh dem mit der höchsten Mitgliedschaftswahrscheinlichkeit).

  1. Wie kann ich die endgültige Wahrscheinlichkeitsverteilung verwenden, die GMM erzeugt? Angenommen, ich erhalte meine endgültige Wahrscheinlichkeitsverteilung wobei die Gewichte sind, na und? Ich habe eine Wahrscheinlichkeitsverteilung erhalten, die zu meinen Daten passt . Was kann ich damit machen?f(x|w)wx

Hier sind nur einige Möglichkeiten. Du kannst:

  • Führen Sie Clustering durch (einschließlich harter Zuweisungen wie oben).

  • Fehlende Werte unterstellen (wie oben).

  • Erkennen Sie Anomalien (dh Punkte mit geringer Wahrscheinlichkeitsdichte).

  • Erfahren Sie etwas über die Struktur der Daten.

  • Beispiel aus dem Modell, um neue synthetische Datenpunkte zu generieren.

  1. Um mit meinem vorherigen Punkt , erhalten wir für am Ende eine Menge von Clustern, die wir als die Menge , die Dinge sind. Aber für GMM, alles , was ich erhalten , ist eine Verteilung , das ist Ding. Wie kann dies jemals zum Clustering von Dingen in Cluster verwendet werden?K.K.{S.1,,S.K.}}K.f(x|w)=ich=1N.wichN.(x|μich,Σich)1K.

Der von Ihnen geschriebene Ausdruck ist die Verteilung für die beobachteten Daten. Ein GMM kann jedoch als latentes Variablenmodell betrachtet werden. Jeder Datenpunkt ist einer latenten Variablen zugeordnet, die angibt, zu welchem ​​Cluster er gehört. Beim Anpassen eines GMM lernen wir eine Verteilung über diese latenten Variablen. Dies gibt eine Wahrscheinlichkeit an, dass jeder Datenpunkt ein Mitglied jedes Clusters ist.

user20160
quelle