Bewertung von Clustern von Markov-Ketten erster Ordnung

10

Ich habe meinen Datensatz mit mehreren tausend Markov-Ketten erster Ordnung in etwa 10 Cluster zusammengefasst.

Gibt es eine empfohlene Methode, wie ich diese Cluster bewerten und herausfinden kann, was die Elemente in den Clustern gemeinsam haben und wie sie sich von anderen Clustern unterscheiden? Daher kann ich eine Aussage wie "Prozesse in Cluster A bleiben in der Regel im Zustand Y, sobald sie dort ankommen, was für Prozesse in anderen Clustern nicht gilt."

Die Übergangsmatrizen dieser Markov-Ketten sind zu groß, um nur "schauen und sehen" zu können. Sie sind relativ spärlich, wenn das helfen kann.

Meine Idee war es, alle Übergangsmatrizen in einem Cluster zu summieren und als Intensität in einem Bild darzustellen (auf einer Skala von 0 bis 255). Gibt es etwas "professionelleres", das ich ausprobieren sollte?

user7610
quelle
Wissen Sie , dass diese Prozesse Marktketten erster Ordnung sind (und wenn ja, wie)? Angenommen, die Antwort darauf ist positiv. Welche zusätzlichen A-priori- Informationen kennen Sie dann über die Struktur? Ich versuche herauszufinden, warum Sie überhaupt an Clustering interessiert sind. Ich vermute, dass dies unseren Lesern helfen wird, Sie effizienter zu einer Lösung zu führen.
Kardinal
Die ursprünglichen Daten waren Clickstreams, die von Benutzern auf meiner Website generiert wurden. Ich habe die Markov-Prozesse so erstellt, dass jeder Prozess den Clickstream eines Benutzers beschreibt. Ich weiß, dass es Bücher und Papiere gibt, die besagen, dass Markov-Ketten dafür nicht geeignet sind, aber meine Daten enthalten keine genaue URL, die der Benutzer angefordert hat, sondern nur die "Anwendung", zu der die URL gehört. (Meine Site ist ein Informationssystem, das in 105 sogenannte "Anwendungen" unterteilt ist, die größtenteils in sich geschlossene Teile der Site sind und auf jeder Seite über eine Homepage und ein
Seitenmenü verlinkt sind.
Ich interessiere mich für Clustering, weil ich Benutzergruppen aufdecken möchte, die ähnliche Muster bei der Verwendung der Site haben. Ich stellte die Hypothese auf, dass Muster, die die Markov-Kette erfasst, ausreichen, um solche Gruppen zu unterscheiden. Ich habe überprüft, wie die von mir erstellten Cluster den Rollen entsprechen, die Benutzer auf der Site haben, und es sieht immer so aus, als ob in einem Cluster viele Benutzer aus einer Rolle und nur ein paar aus anderen Rollen vorhanden sind. Das sieht also vielversprechend aus. Hoffe das hilft
user7610
Hallo, ich habe das gleiche Problem. Wie haben Sie das Problem gelöst?
Nan
@nan habe ich nicht, ich brauchte das nur in einem Semesterprojekt, also habe ich einfach etwas anderes gemacht. Wenn ich es jetzt lösen müsste, würde ich versuchen, auf en.wikipedia.org/wiki/… nach dem ersten Clustering zu suchen . t-SNE ist heutzutage sehr beliebt und IMO geeignet. Ich hoffe, dass das Ergebnis, das ich erhalten würde, aussagekräftiger ist als die Ergebnisse, die ich mit meinem Ad-hoc-Ansatz erzielt habe. Und mit relativ neuen super coolen Dingen würde der Lehrer zufrieden sein;)
user7610

Antworten:

1

Um eine Aussage über das stationäre Verhalten jedes Clusters zu treffen, können Sie die stationären Verteilungen jeder Übergangsmatrix durch Eigenvektoren berechnen und dann Box-Plots nach Cluster vergleichen. Es ist wahrscheinlich, dass Sie bei der Berechnung des stationären Zustands auf Probleme stoßen, ohne vorher eine Art Glättung anzuwenden.

Wie gruppieren Sie die Übergangsmatrizen? Wenn ich es wäre, würde ich jede Zeile additiv glätten, dann die zentrierte Log-Ratio-Transformation jeder Zeile durchführen und dann die Matrizen abflachen.

Wenn Sie mit K-Mitteln oder einer Variante gruppieren, können Sie die normalisierten Clusterzentren analysieren. Oder wählen Sie einfach einige Beobachtungen aus jedem Cluster aus und analysieren Sie sie.

Jessica Collins
quelle
0

Um sich ein Bild zu machen, stimmen Ihre Matrizen mit den Abmessungen 105 x 105 mit den von Ihnen genannten Anwendungen überein? Wenn Sie "im Zustand Y bleiben" sagen, bedeutet dies, dass Sie bei der Anwendung Y bleiben?

Dann würde ich annehmen, dass Ergebnisse wie "Prozesse in Cluster A neigen dazu, im Zustand Y zu bleiben, wenn sie dort ankommen, was für Prozesse in anderen Clustern nicht gilt" mit nur 10 Clustern etwas zu feinkörnig sind. Haben Sie versucht, die Anwendungsdomäne zu gruppieren? Wenn ich das richtig verstehe, können Sie die 105 Anwendungen basierend auf dem Benutzerverhalten gruppieren. Haben Sie sich als Nächstes eher mit der einfachen Anwesenheit von Benutzern als mit dem Übergang befasst, dh mit den Benutzerprofilen in den 105 Anwendungen? Es hört sich so an, als könnten Sie den Pearson-Koeffizienten zwischen Benutzerprofilen verwenden. entweder auf Anwendungsclustern oder auf den Anwendungen selbst. Dies könnte möglicherweise auf Übergänge zwischen Anwendungen ausgedehnt werden, aber derzeit besteht meines Erachtens ein großes Missverhältnis zwischen der Anzahl der Cluster und der Art des Ergebnisses, an dem Sie interessiert sind.

micans
quelle