Wie man eine Korrelationsanalyse für Bier und Windeln durchführt

8

Ich habe Daten, die äquivalent sind zu:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Ich möchte diesen Datensatz analysieren, um eine Korrelationsmatrix zu erhalten, die ähnliche Auswirkungen hat: Wenn Sie x gekauft haben, werden Sie wahrscheinlich y kaufen.

Wie kann ich mit Python (oder vielleicht etwas anderem als MATLAB) vorgehen? Einige grundlegende Richtlinien oder Hinweise darauf, wo ich suchen sollte, würden helfen.

Vielen Dank,

Bearbeiten - Was ich gelernt habe:

  1. Diese Art von Problemen wird als Assoziationsregelerkennung bezeichnet. Wikipedia hat einen guten Artikel , der einige der gängigen Algorithmen dafür behandelt. Der klassische Algorithmus dafür scheint Apriori zu sein, aufgrund von Agrawal et. al.

  2. Das führte mich zu Orange , einem Data Mining-Paket mit Python-Schnittstelle. Für Linux scheint die beste Möglichkeit zur Installation die Verwendung der mitgelieferten Datei setup.py aus dem Quellcode zu sein

  3. Orange liest standardmäßig Eingaben aus Dateien, die auf eine von mehreren unterstützten Arten formatiert sind.

  4. Schließlich ist ein einfaches Lernen der Apriori-Assoziationsregeln in Orange einfach .

Azarias R.
quelle
3
Wenn Sie nach einem R-Paket suchen, aruleswäre es einen Blick wert. Vielleicht ist "Assoziationsregeln" ein guter Suchbegriff
Karsten W.
2
Siehe auch den Apriori-Algorithmus für den "Standard" -Ansatz für dieses Problem.
Kardinal

Antworten:

7

Zusätzlich zu den Links, die in den Kommentaren angegeben wurden, gibt es hier einige weitere Hinweise:

Über Python, ich denke , jetzt haben Sie eine Vorstellung davon , was Sie suchen sollen, aber das orange Data - Mining - Paket verfügt über ein Paket auf Assoziationsregeln und Itemsets (obwohl für letztere kann ich keinen Hinweis auf der Website).

Bearbeiten:

Ich bin vor kurzem auf pysuggest gestoßen, das ist

Eine Top-N-Empfehlungs-Engine, die eine Vielzahl von Empfehlungsalgorithmen implementiert. Top-N-Empfehlungssysteme, eine personalisierte Informationsfiltertechnologie, werden verwendet, um einen Satz von N Elementen zu identifizieren, die für einen bestimmten Benutzer von Interesse sind. In den letzten Jahren wurden Top-N-Empfehlungssysteme in einer Reihe verschiedener Anwendungen verwendet, um Produkte zu empfehlen, die ein Kunde höchstwahrscheinlich kaufen wird. Filme, Fernsehprogramme oder Musik empfehlen, die einem Benutzer gefallen werden; Webseiten identifizieren, die von Interesse sein werden; oder sogar alternative Möglichkeiten für die Suche nach Informationen vorschlagen.

chl
quelle
Ich frage mich, wie viele Produkte müssen beteiligt sein, bevor eine einfache Korrelationsmatrix nicht ausreicht?
Rolando2