Data Mining-Ansätze zur Analyse sequentieller Daten mit nominalen Attributen

8

Frage an die erfahrenen Data Miner da draußen:

Angesichts dieses Szenarios:

  • Es gibt N Einkaufswagen
  • Jeder Einkaufswagen ist mit einer beliebigen Anzahl von M Artikeln aus einem unendlich großen Satz gefüllt (mit der aktuellen Datenmenge, die ich habe, kann diese beliebige Anzahl Zahlen um 1500 treffen).
  • Die Reihenfolge, in der jeder Wagen gefüllt wird, ist von Bedeutung
  • Es gibt andere Attribute wie die Geolokalisierung des Käufers, aber diese können (und werden derzeit) verworfen werden, um den Algorithmus zu vereinfachen

Ich muss einfach:

  • Identifizieren Sie zu einem bestimmten Zeitpunkt, wenn nur die bestellten Sätze von Artikeln in jedem Wagen enthalten sind, "ähnliche" Wagen ohne vorherige Kenntnis der Klassenetiketten
  • Nachdem eine bestimmte Datenmenge erfasst wurde und ein Plack die Daten durchgearbeitet und Beschriftungen zugewiesen hat, erstellen Sie einen Klassifizierer, der schnell mit zukünftigen unsichtbaren Daten arbeiten kann

Erster Ansatz:

  • Bisher konzentrierte sich mein Ansatz auf den ersten Punkt. Meine Methode verwendet k-means Clustering und behandelt die sequentielle Natur der Daten mithilfe einer Distanzmatrix, die durch Berechnung der Hamming-Distanz zwischen Wagen generiert wird. Auf diese Weise unterscheidet sich [Apfel, Banane, Birne] von [Birne, Apfel, Banane], aber [Apfel, Banane, Birne] unterscheidet sich weniger von [Apfel, Banane, Antilope]. Der geeignete Wert von k wird durch Untersuchung des Silhouette-Koeffizienten bestimmt. Die daraus generierten Cluster scheinen sinnvoll zu sein, aber die Laufzeit meiner Methode ist definitiv unerschwinglich, da mein Datensatz skaliert.

Frage:

  • Würde jemand Vorschläge für einen neuen Data Miner für dieses Problem haben?

Bearbeitungen mit mehr Infos:

  • Ich habe Vorschläge gefunden, die die Verwendung von n-Gramm-Funktionen und deren paarweisen Vergleich in Betracht ziehen. Ein Problem, das ich diesbezüglich habe, ist die Reihenfolge: Wird die Reihenfolge der Sequenzen beibehalten, wenn n-Gramm-Modelle verwendet werden? Ich sehe auch, dass Leistungsprobleme bei dieser Methode eine größere Möglichkeit darstellen.
Don
quelle
Interessante Frage, aber wahrscheinlich besser geeignet für stats.stackexchange.com
Matt Parker
Ich habe dies ursprünglich bei stats.stackexchange.com eingereicht und sehe es von dort aus ... wird es an anderer Stelle angezeigt?
Don
Oh Mann, es war eine lange Woche. Ich öffne gewöhnlich eine Reihe von StackOverflow- und CrossValidated-Fragen in benachbarten Registerkarten, und dies war am Ende einer Reihe von StackOverflow-Fragen. Als ich dann zur Aufmerksamkeit auf mich aufmerksam machte, gab es mir die Möglichkeit, vorzuschlagen, dass es zu stats.stackexchange verschoben wird - außer dass dies tatsächlich META.stats.stackexchange war. Ich sollte jetzt wahrscheinlich ins Bett gehen.
Matt Parker
Sie klingen für mich nicht wie ein neuer Data Miner.
Rolando2
@ Rolando2: Ich nehme an, es ist alles relativ, heh. Ich habe immer noch das Gefühl, dass ich nur die Oberfläche des Motivs abgekratzt habe ...
Don

Antworten:

1

Ich bin auch ein unerfahrener Data Miner, aber darf ich vorschlagen, dass die explorative Datenanalyse immer ein guter erster Schritt ist? Ich würde sehen, ob Artikeln eine Art 'Prioritätswert' zugewiesen werden kann, der dazu dienen kann, vorherzusagen, wie früh sie im Warenkorb erscheinen, da Sie aufgrund eines solchen Ergebnisses möglicherweise einfachere Modelle verwenden können. Etwas so Einfaches wie eine lineare Regression auf (# Bestellung im Warenkorb / # Anzahl der Artikel im Warenkorb) für alle Wagen, die Artikel X besitzen, gibt Ihnen eine Vorstellung davon, ob dies möglich ist. Angenommen, Sie stellen fest, dass ein bestimmter Anteil der Elemente immer früh oder später erscheint und einige völlig zufällig erscheinen: Dies würde Sie bei Ihrem späteren Modellbau leiten.

charles.y.zheng
quelle