Ich habe Daten, die äquivalent sind zu:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Ich möchte diesen Datensatz analysieren, um eine Korrelationsmatrix zu erhalten, die ähnliche Auswirkungen hat: Wenn Sie x gekauft haben, werden Sie wahrscheinlich y kaufen.
Wie kann ich mit Python (oder vielleicht etwas anderem als MATLAB) vorgehen? Einige grundlegende Richtlinien oder Hinweise darauf, wo ich suchen sollte, würden helfen.
Vielen Dank,
Bearbeiten - Was ich gelernt habe:
Diese Art von Problemen wird als Assoziationsregelerkennung bezeichnet. Wikipedia hat einen guten Artikel , der einige der gängigen Algorithmen dafür behandelt. Der klassische Algorithmus dafür scheint Apriori zu sein, aufgrund von Agrawal et. al.
Das führte mich zu Orange , einem Data Mining-Paket mit Python-Schnittstelle. Für Linux scheint die beste Möglichkeit zur Installation die Verwendung der mitgelieferten Datei setup.py aus dem Quellcode zu sein
Orange liest standardmäßig Eingaben aus Dateien, die auf eine von mehreren unterstützten Arten formatiert sind.
Schließlich ist ein einfaches Lernen der Apriori-Assoziationsregeln in Orange einfach .
quelle
arules
wäre es einen Blick wert. Vielleicht ist "Assoziationsregeln" ein guter SuchbegriffAntworten:
Zusätzlich zu den Links, die in den Kommentaren angegeben wurden, gibt es hier einige weitere Hinweise:
Über Python, ich denke , jetzt haben Sie eine Vorstellung davon , was Sie suchen sollen, aber das orange Data - Mining - Paket verfügt über ein Paket auf Assoziationsregeln und Itemsets (obwohl für letztere kann ich keinen Hinweis auf der Website).
Bearbeiten:
Ich bin vor kurzem auf pysuggest gestoßen, das ist
quelle