Cluster-Clickstream-Daten

8

Ich bin kürzlich in den Bereich des maschinellen Lernens eingetreten. Für ein Projekt, an dem ich arbeite, muss ich Benutzer anhand der Reihenfolge gruppieren, in der sie Webseiten auf einer Website besucht haben. Ich habe Daten in Form von:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Dabei ist jede Nummer eine Kategorie / Seite, die der Benutzer besucht hat. Außerdem ist die Datenlänge für jeden Benutzer nicht gleich, dh einige Benutzer besuchen mehr Seiten als andere.

Mir ist klar, dass dies wirklich vage ist und es schwierig ist, Ähnlichkeit zu definieren. Ich habe versucht, dem Beispiel in diesem Forschungsbericht zu folgen, und um ehrlich zu sein, ging mir vieles über den Kopf.

Ich brauche Hilfe bei der Lösung dieses Problems und bin offen für neue Ideen und Vorschläge.

Arjun Aletty
quelle

Antworten:

3

Es ist eine gute Frage mit vielen praktischen Anwendungen.

Ihre Daten sind sequentiell, daher benötigen wir ein Ähnlichkeitsmaß zwischen jedem Sequenzpaar. Ich empfehle die Levensthein-Distanz, da sie sehr intuitiv und sehr gut definiert ist. Siehe auch diese schöne Bachelorarbeit mit einem Überblick über weitere Maßnahmen für sequentielle Daten.

Wenn man schließlich die Abstände zwischen allen Sequenzpaaren hat, können wir jeden Clustering-Algorithmus verwenden, der eine Abstandsmatrix als Eingabe verwendet (zum Beispiel jeden hierarchischen Algorithmus).

Miroslav Sabo
quelle
2

Sie können das Paket clickstream oder clickclust in der Sprache R verwenden. Es bietet genau das, was Sie suchen.

Sagar
quelle
2
Dies ist wirklich besser als Kommentar als als Antwort geeignet.
Silverfish