Wann soll das Gaußsche Mischungsmodell verwendet werden?

9

Ich bin neu in der Verwendung von GMMs. Ich konnte online keine geeignete Hilfe finden. Könnte mir bitte jemand die richtige Ressource zum Thema "Wie kann ich entscheiden, ob die Verwendung von GMM zu meinem Problem passt?" Bereitstellen. oder bei Klassifizierungsproblemen "Wie kann ich entscheiden, ob ich eine SVM-Klassifizierung oder eine GMM-Klassifizierung verwenden muss?"

Vinay
quelle
Was ist dein Datensatz und was ist dein genaues Problem? Es wird verwendet, wenn Daten mehr als einer Normalverteilung folgen (eine Mischung aus diesen sind). Siehe eine andere Frage - stats.stackexchange.com/questions/236295/…
Arpit Sisodia
Sie können sich das als eine Form der Clusterbildung vorstellen, bei der Sie keine Daten beschriftet haben und glauben, dass die latenten Gruppierungen vollkommen multivariat normal sind.
Gung - Reinstate Monica
@ arpit-sisodia, Wir arbeiten an der Machbarkeit eines Hardware-Tastatur-Setups, das bestimmte Funktionen zu haben scheint, und planen, es mit GMM zu modellieren. Wir kennen den zugrunde liegenden Prozess nicht genau und versuchen daher, mithilfe von Methoden des maschinellen Lernens zu modellieren. Wir sind uns also nicht sicher, ob der zugrunde liegende Prozess tatsächlich eine Mischung von Gaußschen enthält. Darüber hinaus ist es mehrdimensional und wir können es nicht visualisieren, um zu sehen, ob es eine Mischung aus Gaußschen ist
Vinay
@ arpit-sisodia, Der von Ihnen bereitgestellte Link schlägt mehr Versuchs- und Fehlermethoden vor, um festzustellen, ob GMM zu meinen Daten passt. Gibt es eine schlüssige Möglichkeit / Daumenregel, um über die zu verwendenden Modelle zu entscheiden? Die Trial-and-Error-Methode zum Spielen mit mehr Mischungen kann zu meinen Daten passen. Aber gibt es eine bestimmte Art, sich zu entscheiden? Als ob wir eine lineare Trennbarkeit von Daten für die SVM-Klassifizierung benötigen
Vinay

Antworten:

4

Meiner Meinung nach können Sie GMM durchführen, wenn Sie wissen, dass die Datenpunkte Mischungen einer Gaußschen Verteilung sind. Grundsätzlich bilden sich Cluster mit unterschiedlichen Mittelwerten und Standardabweichungen. Es gibt ein schönes Diagramm auf der Scikit-Learn-Website. L.

GMM-Klassifizierung

Ein Ansatz besteht darin, die Cluster mithilfe von Soft-Clustering-Methoden zu finden und dann zu prüfen, ob sie Gauß'sch sind. Wenn dies der Fall ist, können Sie ein GMM-Modell anwenden, das den gesamten Datensatz darstellt.

Jägerin
quelle
1
Oft wissen wir nicht, ob Datenpunkte eine Mischung aus Gaußschen sind. Das ist also eher ein Spiel mit Gauß und MoG und ob es passt. Aber es gibt keine Anweisungen / Daumenregeln, um GMM richtig zu verwenden
Vinay
2
Nach meiner Erfahrung müssen Sie das Muster in Daten finden, bei denen es sich um ein Mischungsmodell handelt. Ein schönes Papier zum Lesen wäre: stat.cmu.edu/~cshalizi/uADA/12/lectures/ch20.pdf
Slayer
0

GMMs sind normalerweise ein guter Ausgangspunkt, wenn Sie entweder (1) Cluster-Beobachtungen durchführen, (2) ein generatives Modell angeben oder (3) Dichten schätzen möchten. Tatsächlich sind GMMs für das Clustering eine Obermenge von k-Mitteln.

1_e
quelle