Was ist der praktische Unterschied zwischen Zuordnungsregeln und Entscheidungsbäumen beim Data Mining?

19

Gibt es eine wirklich einfache Beschreibung der praktischen Unterschiede zwischen diesen beiden Techniken?

Beide scheinen für überwachtes Lernen verwendet zu werden (obwohl Assoziationsregeln auch mit unbeaufsichtigtem Lernen umgehen können).
Beide können zur Vorhersage verwendet werden

Die beste Beschreibung, die ich gefunden habe, stammt aus dem Statsoft-Lehrbuch . Sie sagen, Assoziationsregeln werden verwendet, um:

... erkennen Zusammenhänge oder Assoziationen zwischen bestimmten Werten von kategorialen Variablen in großen Datenmengen.

Während Decision Tree-Klassifikatoren beschrieben werden, um:

... die Zugehörigkeit von Fällen oder Objekten zu den Klassen einer kategorienabhängigen Variablen anhand ihrer Messungen an einer oder mehreren Prädiktorvariablen vorhersagen.

Bei R Data Mining geben sie jedoch ein Beispiel für die Verwendung von Zuordnungsregeln mit einem Zielfeld .

Beides kann also zur Vorhersage der Gruppenmitgliedschaft verwendet werden. Ist der Hauptunterschied, dass Entscheidungsbäume nicht kategoriale Eingabedaten verarbeiten können, während Zuordnungsregeln dies nicht können? Oder gibt es etwas grundlegenderes? Einer Website ( sqlserverdatamining.com ) zufolge ist der Hauptunterschied:

Die Entscheidungsbaumregeln basieren auf dem Informationsgewinn, während die Zuordnungsregeln auf Beliebtheit und / oder Vertrauen basieren.

Bedeutet dies (möglicherweise durch Beantwortung meiner eigenen Frage), dass Zuordnungsregeln nur danach bewertet werden, wie oft sie im Datensatz erscheinen (und wie oft sie "wahr" sind), während Entscheidungsbäume tatsächlich versuchen, die Varianz zu minimieren?

Wenn jemand eine gute Beschreibung kennt, wäre er bereit, mich darauf hinzuweisen, dann wäre das großartig.

data-mining association-rules Stürzen
quelle

14

$\mathcal{F} = {F_1 , \dots, F_m }$ $C$ $\mathcal{F}$ $C$ $F$

t_{1} = {{ich}_{1}, {ich}_{2}} t_{2} = {{ich}_{1}, {ich}_{3}, {ich}_{4}, {ich}_{5}} t_{3} = {{ich}_{2}, {ich}_{3}, {ich}_{4}, {ich}_{5}} ⋮ t_{n} = {{ich}_{2}, {ich}_{3}, {ich}_{4}, {ich}_{5}}

$t_1 = \{i_1,i_2 \} \\ t_2 = \{i_1, i_3, i_4, i_5 \} \\ t_3 = \{i_2, i_3, i_4, i_5 \} \\ \vdots \\ t_n = \{ i_2, i_3, i_4, i_5 \}$

{{ich}_{3}, {ich}_{5}} \to {{ich}_{4}}

$\{ i_3, i_5 \} \rightarrow \{ i_4 \}$

Es stellt sich heraus, dass Sie die Assoziationsanalyse für einige bestimmte Klassifizierungsaufgaben verwenden können, beispielsweise wenn alle Ihre Features kategorisch sind. Sie müssen Elemente nur als Features betrachten, aber dafür wurde keine Assoziationsanalyse entwickelt.

Simone
quelle

3

Assoziationsregeln zielen darauf ab, alle Regeln über den vorgegebenen Schwellenwerten zu finden, die überlappende Teilmengen von Datensätzen beinhalten, während Entscheidungsbäume Bereiche im Raum finden, in denen die meisten Datensätze derselben Klasse angehören Wenn eine von einem Entscheidungsbaum gefundene Regel nicht von Zuordnungsregeln gefunden wird, liegt dies entweder daran, dass eine Einschränkung den Suchbereich beschnitten hat, oder dass die Unterstützung oder das Vertrauen zu hoch ist. "
"Algorithmen für Assoziationsregeln können trotz vieler in der Literatur vorgeschlagener Optimierungen langsam sein, da sie in einem kombinatorischen Raum arbeiten, während Entscheidungsbäume vergleichsweise viel schneller sein können, da bei jeder Aufteilung nacheinander kleinere Teilmengen von Datensätzen erhalten werden."
Ein weiteres Problem besteht darin, dass Entscheidungsbäume dasselbe Attribut für dieselbe Regel mehrere Male wiederholen können, da ein solches Attribut ein guter Diskriminator ist. Dies ist kein großes Problem, da Regeln Konjunktionen sind und daher die Regel für das Attribut auf ein Intervall vereinfacht werden kann, aber ein solches Intervall ist im Allgemeinen klein und die Regel zu spezifisch. "

Auszüge aus:

Ordonez, C. & Zhao, K. (2011). Auswerten von Zuordnungsregeln und Entscheidungsbäumen zur Vorhersage mehrerer Zielattribute. Intelligent Data Analysis, 15 (2), 173–192.

Ein schöner Artikel zu diesem Thema, auf jeden Fall lesenswert.

Roy van der Valk
quelle

2

Wir können argumentieren, dass sowohl Zuordnungsregeln als auch Entscheidungsbäume dem Benutzer einen Satz von Regeln vorschlagen und daher beide ähnlich sind, aber wir müssen den theoretischen Unterschied zwischen Entscheidungsbäumen und Zuordnungsregeln verstehen und ferner, wie die von beiden vorgeschlagenen Regeln unterschiedliche Bedeutungen haben oder haben in Benutzung.

Erstens ist der Entscheidungsbaum ein überwachter Ansatz, bei dem der Algorithmus versucht, ein "Ergebnis" vorherzusagen. Ein typisches Beispiel für ein "Ergebnis" in realen Situationen könnte beispielsweise Abwanderung, Betrug, Reaktion auf eine Kampagne usw. sein. Daher werden Entscheidungsbaumregeln verwendet, um ein Ergebnis vorherzusagen.

Das Lernen von Assoziationsregeln ist ein unbeaufsichtigter Ansatz, bei dem der Algorithmus versucht, Assoziationen zwischen Elementen zu finden, häufig in großen kommerziellen Datenbanken. Ein typisches Beispiel für eine große kommerzielle Datenbank ist eine, die Transaktionen von Einzelhändlern enthält, z. B. die Kaufhistorie von Kunden auf einer E-Commerce-Website. Artikel können Produkte sein, die in Geschäften gekauft wurden, oder Filme, die auf einer Online-Streaming-Plattform angesehen wurden. Beim Lernen von Assoziationsregeln geht es darum, wie der Kauf eines Produkts den Kauf eines anderen Produkts auslöst.

Zweitens werden Entscheidungsbäume auf der Grundlage einiger Verunreinigungs- / Unsicherheitsmetriken erstellt, z. B. Informationsgewinn, Gini-Koeffizient oder Entropie, während Zuordnungsregeln auf der Grundlage von Unterstützung, Vertrauen und Auftrieb abgeleitet werden.

Drittens ist die Genauigkeit des Entscheidungsbaums als "beaufsichtigter" Ansatz messbar, wohingegen das Lernen von Assoziationsregeln als "unbeaufsichtigter" Ansatz und damit als subjektive Genauigkeit anzusehen ist.

Jyotsna
quelle

Was ist der praktische Unterschied zwischen Zuordnungsregeln und Entscheidungsbäumen beim Data Mining?

Antworten: