Ich habe meinen Datensatz mit mehreren tausend Markov-Ketten erster Ordnung in etwa 10 Cluster zusammengefasst.
Gibt es eine empfohlene Methode, wie ich diese Cluster bewerten und herausfinden kann, was die Elemente in den Clustern gemeinsam haben und wie sie sich von anderen Clustern unterscheiden? Daher kann ich eine Aussage wie "Prozesse in Cluster A bleiben in der Regel im Zustand Y, sobald sie dort ankommen, was für Prozesse in anderen Clustern nicht gilt."
Die Übergangsmatrizen dieser Markov-Ketten sind zu groß, um nur "schauen und sehen" zu können. Sie sind relativ spärlich, wenn das helfen kann.
Meine Idee war es, alle Übergangsmatrizen in einem Cluster zu summieren und als Intensität in einem Bild darzustellen (auf einer Skala von 0 bis 255). Gibt es etwas "professionelleres", das ich ausprobieren sollte?
quelle
Antworten:
Um eine Aussage über das stationäre Verhalten jedes Clusters zu treffen, können Sie die stationären Verteilungen jeder Übergangsmatrix durch Eigenvektoren berechnen und dann Box-Plots nach Cluster vergleichen. Es ist wahrscheinlich, dass Sie bei der Berechnung des stationären Zustands auf Probleme stoßen, ohne vorher eine Art Glättung anzuwenden.
Wie gruppieren Sie die Übergangsmatrizen? Wenn ich es wäre, würde ich jede Zeile additiv glätten, dann die zentrierte Log-Ratio-Transformation jeder Zeile durchführen und dann die Matrizen abflachen.
Wenn Sie mit K-Mitteln oder einer Variante gruppieren, können Sie die normalisierten Clusterzentren analysieren. Oder wählen Sie einfach einige Beobachtungen aus jedem Cluster aus und analysieren Sie sie.
quelle
Um sich ein Bild zu machen, stimmen Ihre Matrizen mit den Abmessungen 105 x 105 mit den von Ihnen genannten Anwendungen überein? Wenn Sie "im Zustand Y bleiben" sagen, bedeutet dies, dass Sie bei der Anwendung Y bleiben?
Dann würde ich annehmen, dass Ergebnisse wie "Prozesse in Cluster A neigen dazu, im Zustand Y zu bleiben, wenn sie dort ankommen, was für Prozesse in anderen Clustern nicht gilt" mit nur 10 Clustern etwas zu feinkörnig sind. Haben Sie versucht, die Anwendungsdomäne zu gruppieren? Wenn ich das richtig verstehe, können Sie die 105 Anwendungen basierend auf dem Benutzerverhalten gruppieren. Haben Sie sich als Nächstes eher mit der einfachen Anwesenheit von Benutzern als mit dem Übergang befasst, dh mit den Benutzerprofilen in den 105 Anwendungen? Es hört sich so an, als könnten Sie den Pearson-Koeffizienten zwischen Benutzerprofilen verwenden. entweder auf Anwendungsclustern oder auf den Anwendungen selbst. Dies könnte möglicherweise auf Übergänge zwischen Anwendungen ausgedehnt werden, aber derzeit besteht meines Erachtens ein großes Missverhältnis zwischen der Anzahl der Cluster und der Art des Ergebnisses, an dem Sie interessiert sind.
quelle