Ich habe einen Datensatz mit Benutzeraktivitäten mit 168 Dimensionen, in dem ich Cluster mithilfe von unbeaufsichtigtem Lernen extrahieren möchte. Es ist mir nicht klar, ob ich einen Themenmodellierungsansatz in der Latent Dirichlet Allocation (LDA) oder in Gaussian Mixture Models (GMM) verwenden soll, der eher ein Bayes'scher Ansatz ist. In dieser Hinsicht habe ich 2 verwandte Fragen:
Was ist das Hauptunterscheidungsmerkmal zwischen den beiden Methoden? Ich kenne die Grundlagen der beiden Modelle, bin aber gespannt, was das eine wirklich vom anderen unterscheidet. Kann mir etwas in den Problemen / Daten sagen, ob ein Modell besser passt?
Wie kann ich die Ergebnisse vergleichen, wenn ich beide Methoden auf meine Daten anwende, um festzustellen, welche Methode besser ist?
Aktualisieren
Die Aktivitätsvariablen der 168 Benutzer sind Zählungen einer Aktivität, wodurch positive diskrete Werte gespeichert werden. Es gibt keinen Maximalwert, aber ungefähr 90% der Variablen erreichen Werte im Intervall .
Es mag sinnvoll sein, alle diese Aktivitätsvariablen einfach als binäre Variablen zu modellieren, die beschreiben, ob sie Null oder Nicht-Null sind, aber wir wissen noch nicht genug über das Problem, um dies zu bestimmen. Die Hauptsache, nach der wir suchen, sind Einblicke in die verschiedenen Cluster von Benutzeraktivitäten.
Antworten:
Ich würde keine Gaußschen Mischungsmodelle verwenden, da sie erfordern, dass die Verteilungen der Bestandteile alle normal sind. Sie haben Zählungen, daher ist GMM per Definition unangemessen.
Die latente Dirichlet-Zuweisung (vollständige Offenlegung: Ich kenne die Themenmodellierung nicht wirklich) erfordert, dass Ihre Daten multinomial sind. In diesem Fall können Sie jedoch Zählungen vornehmen - dies sind Zählungen des Auftretens verschiedener Kategorien einer Variablen. Eine andere Möglichkeit besteht darin, dass Ihre Zählungen Zählungen verschiedener Variablen sind, wie bei mehreren Poisson- Variablen. Dies ist eine ontologische Frage, wie Sie über Ihre Daten denken.
Stellen Sie sich ein einfaches Beispiel vor, in dem ich zum Lebensmittelgeschäft gehe, weil ich etwas Obst möchte. Ich werde eine bestimmte Anzahl von Äpfeln, Orangen, Pfirsichen und Bananen kaufen. Jede davon kann als separate Poisson-Variable betrachtet werden. Wenn ich nach Hause komme, lege ich sie alle in eine Obstschale. Später, wenn ich Lust auf einen Snack habe, greife ich vielleicht in die Schüssel, ohne hinzuschauen, und nehme zwei Fruchtstücke (z. B. einen Apfel und einen Pfirsich). Dies kann als Unentschieden aus einer multinomialen Verteilung angesehen werden. In beiden Fällen habe ich eine Anzahl von Kategorien, aber wir sehen sie anders. Im ersten Fall sind die Früchte, die ich kaufen werde, bekannt, bevor ich zum Lebensmittelgeschäft komme, aber die Anzahl der in jeder Kategorie gekauften Früchte kann variieren. Im zweiten Fall weiß ich nicht, welche Früchte ich pflücken werde, aber ich weiß, dass ich zwei von den möglichen Sorten nehme.
Wenn Ihre Daten dem Beispiel einer Obstschale entsprechen, ist LDA möglicherweise für Sie geeignet. Wenn sie jedoch dem Beispiel eines Lebensmittelgeschäfts ähneln, können Sie Poisson Finite Mixing Modeling ausprobieren . Das heißt, Sie können die Mischungsmodellierung mit anderen Verteilungen als Gauß / Normal verwenden. GMMs sind bei weitem die häufigsten; andere Distributionen (wie Poisson) sind exotischer. Ich weiß nicht, wie weit sie in Software implementiert sind. Wenn Sie R verwenden, führte Googeln zur Entdeckung von ? PoisMixClus im HTSCluster- Paket und im Rebmix- Paket (Hinweis, den ich weder verwendet noch Poisson-Mischungsmodellierung durchgeführt habe). Möglicherweise können auch Implementierungen für andere Software gefunden werden.
Einige Besonderheiten hinzufügen: Ich würde sagen, LDA ist mindestens genauso eine Bayes'sche Technik wie GMM.
Ich würde Ihre Daten nicht in Null / Nicht-Null dichotomisieren.
quelle