Was ist der Unterschied zwischen Data Mining und statistischer Analyse?

19

Was ist der Unterschied zwischen Data Mining und statistischer Analyse?

Aus irgendeinem Grund war meine statistische Ausbildung meiner Meinung nach eher traditionell. Eine spezifische Frage wird gestellt, die Forschung wird entworfen und die Daten werden gesammelt und analysiert, um einen Einblick in diese Frage zu gewähren. Daher war ich immer skeptisch gegenüber dem, was ich als "Datenbagger" betrachtete, dh nach Mustern in einem großen Datensatz zu suchen und diese Muster zu verwenden, um Schlussfolgerungen zu ziehen. Ich neige dazu, letzteres mit Data-Mining in Verbindung zu bringen, und habe dies (zusammen mit Dingen wie algorithmischen Variablenauswahlroutinen) immer als etwas grundlos angesehen.

Dennoch gibt es eine große und wachsende Literatur zum Thema Data Mining. Oft sehe ich, dass sich dieses Etikett auf bestimmte Techniken wie Clustering, baumbasierte Klassifizierung usw. bezieht. Zumindest aus meiner Sicht können diese Techniken jedoch für einen Datensatz "lose" sein oder auf strukturierte Weise verwendet werden, um a zu adressieren Frage. Ich würde das erstere Data Mining und die letztere statistische Analyse nennen.

Ich arbeite in der akademischen Verwaltung und wurde gebeten, ein "Data Mining" durchzuführen, um Probleme und Möglichkeiten zu identifizieren. In Übereinstimmung mit meinem Hintergrund lauteten meine ersten Fragen: Was möchten Sie lernen und zu welchen Themen tragen Sie Ihrer Meinung nach bei? Aus ihrer Antwort ging hervor, dass ich und die Person, die die Frage stellte, unterschiedliche Vorstellungen zu Art und Wert von Data Mining hatten.

Brett
quelle
1
Duplikat? stats.stackexchange.com/questions/6/…
Neil McGuigan
3
Wenn es doppelt vorhanden ist, kann ich davon ausgehen, dass Data Mining und maschinelles Lernen dasselbe sind!
George Dontas
@George Dontas Ja, ich bin von einem Link in den Kommentaren hierher gekommen, wenn die andere Frage in der Hoffnung, einen Unterschied zwischen ML und Data Mining zu sehen, bestand.
DJG

Antworten:

20

Jerome Friedman hat vor einiger Zeit einen Artikel geschrieben: Data Mining und Statistik: Was ist der Zusammenhang? Das finde ich interessant.

Data Mining war ein größtenteils kommerzielles Problem und wurde von den Geschäftsanforderungen bestimmt (in Verbindung mit der "Notwendigkeit", dass Anbieter Software- und Hardwaresysteme an Unternehmen verkaufen). Eine Sache, die Friedman feststellte, war, dass alle "Features", die gehypt wurden, außerhalb der Statistik entstanden - von Algorithmen und Methoden wie neuronalen Netzen bis hin zur GUI-gesteuerten Datenanalyse - und keines der traditionellen statistischen Angebote schien Teil eines dieser Systeme zu sein (Regression, Hypothesentest, etc). "Unsere Kernmethode wurde weitgehend ignoriert." Es wurde auch als benutzergesteuert verkauft, wie Sie es notiert haben: Hier sind meine Daten, hier ist meine "Geschäftsfrage", geben Sie mir eine Antwort.

Ich glaube, Friedman wollte provozieren. Er glaubte nicht, dass Data Mining eine ernsthafte intellektuelle Grundlage in Bezug auf die Methodik hatte, aber dass sich dies ändern würde und dass Statistiker eine Rolle spielen sollten, anstatt sie zu ignorieren.

Mein eigener Eindruck ist, dass dies mehr oder weniger passiert ist. Die Linien wurden verwischt. Statistiker veröffentlichen jetzt in Data Mining-Zeitschriften. Data Miner scheinen heutzutage eine Art statistisches Training zu haben. Während Data-Mining-Pakete noch immer keine verallgemeinerten linearen Modelle übertreffen, ist die logistische Regression unter den Analysten bekannt - zusätzlich zu Clustering und neuronalen Netzen. Ein optimales experimentelles Design ist möglicherweise nicht Teil des Data Mining-Kerns, aber die Software kann dazu gebracht werden, p-Werte auszuspucken. Fortschritt!

ars
quelle
1
Dies ist ein großartiges Papier und entspricht meiner Einschätzung, was Data Mining ist und wie es sich von Statistiken unterscheidet. Der Haken ist, es ist von 1997! Beachten Sie eine Anklage gegen das Papier oder Ihre Empfehlung, aber inwieweit ich mit Data Mining Schritt gehalten habe. Es hört sich so an, als müsste ich mir ein aktuelles Buch zum Thema Data Mining schnappen, um auf dem Laufenden zu bleiben.
Brett
Heh, ich habe das Datum absichtlich weggelassen, weil ich dachte, es wäre amüsant, die Zeitspanne zu bemerken. :) Die Bücher von Michael Berry und Gordon Linoff sind ziemlich gut und werden Statistiker ansprechen (für die breitere Darstellung, anstatt statistische Techniken zu lernen). Wenn Sie ein Gefühl für die unscharfe "Unternehmensseite" in diesem Bereich haben möchten, kann es hilfreich sein, in einem der Bücher zu einem Herstellerprodukt wie SAS Enterprise Miner oder SPSS Clementine zu blättern. Ich würde nicht empfehlen, sie zu kaufen, es sei denn, Sie werden mit dem Produkt selbst arbeiten.
Ars
10

Der Unterschied zwischen Statistik und Data Mining ist weitgehend historisch, da sie aus verschiedenen Traditionen stammen: Statistik und Informatik. Parallel dazu wuchs das Data-Mining aus dem Bereich der künstlichen Intelligenz und Statistik.

Abschnitt 1.4 von Witten & Frank fasst meinen Standpunkt zusammen und ich werde ihn ausführlich zitieren:

Was ist der Unterschied zwischen maschinellem Lernen und Statistik? Zyniker, die die Explosion des kommerziellen Interesses (und des Hype) in diesem Bereich ironisch betrachten, setzen Data Mining mit Statistik und Marketing gleich. In Wahrheit sollten Sie nicht nach einer Trennlinie zwischen maschinellem Lernen und Statistik suchen, da es ein Kontinuum - und ein mehrdimensionales - von Datenanalysetechniken gibt. Einige basieren auf den Fähigkeiten, die in Standardkursen für Statistik vermittelt werden, andere sind enger mit der Art des maschinellen Lernens verbunden, die aus der Informatik hervorgegangen ist. In der Vergangenheit hatten beide Seiten unterschiedliche Traditionen. Wenn man gezwungen ist, auf einen einzigen Schwerpunkt hinzuweisen, könnte es sein, dass sich die Statistik mehr mit dem Testen von Hypothesen befasst hat.

In der Vergangenheit haben sich sehr ähnliche Methoden parallel zum maschinellen Lernen und zur Statistik entwickelt ...

Aber jetzt haben sich die beiden Perspektiven angenähert.

NB1 IMO, Data Mining und maschinelles Lernen sind sehr eng miteinander verwandte Begriffe. In gewissem Sinne werden beim Data Mining Techniken des maschinellen Lernens verwendet. Ich sehe diese Begriffe regelmäßig als austauschbar an und soweit sie sich unterscheiden, gehören sie normalerweise zusammen. Ich würde vorschlagen, das Papier "The Two Cultures" sowie die anderen Themen aus meiner ursprünglichen Frage durchzusehen .

NB2 Der Begriff "Data Mining" kann eine negative Konnotation haben, wenn er umgangssprachlich verwendet wird, um zu bedeuten, dass ein Algorithmus in den Daten frei gelassen wird, ohne dass ein begriffliches Verständnis vorliegt. Der Sinn ist, dass Data Mining zu falschen Ergebnissen und Überanpassungen führen wird. Ich vermeide es normalerweise, den Begriff zu verwenden, wenn ich mit Nicht-Experten spreche, und verwende stattdessen maschinelles Lernen oder statistisches Lernen als Synonym.

Shane
quelle
Über NB2 - Ich denke, Sie haben hinsichtlich der Konnotation von Data Mining genau Recht, und ich hatte keine Verbindung zum maschinellen Lernen hergestellt. Mein Training hat immer die Probleme der Überanpassung, der Falschheit und der Ausnutzung des Zufalls hervorgehoben, und als solches war ich DM gegenüber skeptisch - und bin es auch heute noch, vielleicht bis mir tatsächlich jemand sagt, WAS sie tun und WIE. Vielen Dank.
Brett
1
Mein einziger Kritikpunkt an der ML / DM-Unterscheidung wäre, dass ich denke, dass DM breiter ist. OLAP und verwandte Tools umfassen beispielsweise Mining-Technologien. Diese kommen jedoch eher von der Datenbankseite der Informatik als von maschinellem Lernen. Die Rolle des Handels bei der Gestaltung der "Bedeutung" von Data Mining ist schwer zu ignorieren - je nach Bedarf werden Elemente der Managementwissenschaften, der Betriebsforschung, des maschinellen Lernens und der Statistik einbezogen. Es gibt auch den Eindruck von etwas Fadenscheinigem, aber das ist normalerweise ein Problem für Puristen, nicht für Praktizierende.
Ars
@ars: Ich stimme zu. Ich habe versucht, dies ein wenig zu sagen, indem ich sagte, dass "Maschinelles Lernen beim Data Mining verwendet wird" (dh Data Mining ist ein Super-Set). Ihr Standpunkt zu den kommerziellen Anwendungen ist auch genau richtig. Obwohl jemand in einer kommerziellen Anwendung heutzutage seine Arbeit als etwas anderes bezeichnen könnte (z. B. "Data Science").
Shane
Richtig, ich hätte sagen sollen, dass ich versucht habe, die Unterschiede zu verdeutlichen, anstatt tatsächlich mit dem zu streiten, was Sie geschrieben haben. Entschuldigung für die Fehlleitung. Guter Punkt für sich ändernde Zeiten und Begriffe wie die Übernahme von "Data Science". Beginnt eines von Gelmans Büchern nicht mit etwas wie "Statistik ist die Wissenschaft der Daten"? "Sie" stehlen also von Statistikern. Nochmal. :)
ars
8

Data Mining wird entweder als beschreibend oder als vorhersagend eingestuft. Deskriptives Data Mining dient zum Durchsuchen umfangreicher Datensätze und zum Ermitteln der Positionen unerwarteter Strukturen oder Beziehungen, Muster, Trends, Cluster und Ausreißer in den Daten. Andererseits besteht Predictive darin, Modelle und Verfahren für Regressions-, Klassifizierungs-, Mustererkennungs- oder maschinelle Lernaufgaben zu erstellen und die Vorhersagegenauigkeit dieser Modelle und Verfahren bei Anwendung auf neue Daten zu bewerten.

Der zur Suche nach Mustern oder Strukturen in hochdimensionalen Daten verwendete Mechanismus kann manuell oder automatisiert sein. Bei der Suche muss möglicherweise ein Datenbankverwaltungssystem interaktiv abgefragt werden, oder es muss eine Visualisierungssoftware verwendet werden, um Anomalien in den Daten zu erkennen. In Bezug auf maschinelles Lernen wird deskriptives Data Mining als unbeaufsichtigtes Lernen bezeichnet, wohingegen prädiktives Data Mining als überwachtes Lernen bezeichnet wird.

Die meisten im Data Mining verwendeten Methoden beziehen sich auf Methoden, die im Bereich Statistik und maschinelles Lernen entwickelt wurden. Zu den wichtigsten Methoden zählen die allgemeinen Themen Regression, Klassifikation, Clustering und Visualisierung. Aufgrund der enormen Größe der Datensätze konzentrieren sich viele Anwendungen des Data Mining auf Techniken zur Reduzierung der Dimensionalität (z. B. Variablenauswahl) und Situationen, in denen der Verdacht besteht, dass hochdimensionale Daten auf niederdimensionalen Hyperebenen liegen. In jüngster Zeit wurde die Aufmerksamkeit auf Verfahren zum Identifizieren von hochdimensionalen Daten gelenkt, die auf nichtlinearen Oberflächen oder Verteilern liegen.

Es gibt auch Situationen im Data Mining, in denen statistische Inferenz - im klassischen Sinne - keine Bedeutung oder zweifelhafte Gültigkeit hat: Erstere tritt auf, wenn die gesamte Population nach Antworten suchen muss, und letztere, wenn ein Datensatz a ist "Convenience" -Stichprobe, anstatt eine Zufallsstichprobe aus einer großen Population zu sein. Wenn Daten im Laufe der Zeit gesammelt werden (z. B. Einzelhandelsgeschäfte, Börsentransaktionen, Patientenakten, Wetteraufzeichnungen), ist eine Stichprobenerfassung möglicherweise auch nicht sinnvoll. Die zeitliche Reihenfolge der Beobachtungen ist entscheidend, um das Phänomen, das die Daten erzeugt, zu verstehen, und um die Beobachtungen als unabhängig zu behandeln, wenn sie in hohem Maße korrelieren, was zu verzerrten Ergebnissen führt.

Die zentralen Komponenten des Data Mining sind - neben statistischen Theorien und Methoden - die Berechnung und Recheneffizienz, die automatische Datenverarbeitung, dynamische und interaktive Datenvisualisierungstechniken sowie die Entwicklung von Algorithmen.

Eines der wichtigsten Probleme beim Data Mining ist das Rechenproblem der Skalierbarkeit . Algorithmen, die für die Berechnung standardmäßiger explorativer und bestätigender statistischer Methoden entwickelt wurden, sollten bei Anwendung auf kleine und mittlere Datensätze schnell und rechnerisch effizient sein. Es hat sich jedoch gezeigt, dass die meisten dieser Algorithmen nicht der Herausforderung gewachsen sind, mit riesigen Datenmengen umzugehen. Mit dem Anwachsen von Datensätzen zeigen viele vorhandene Algorithmen die Tendenz, sich dramatisch zu verlangsamen (oder sogar anzuhalten).

George Dontas
quelle
8

Data Mining ist eine Statistik mit einigen geringfügigen Unterschieden. Sie können sich das als Umbenennungsstatistik vorstellen, weil Statistiker irgendwie komisch sind.

Es wird oft mit Computerstatistiken in Verbindung gebracht, dh nur mit Dingen, die Sie mit einem Computer machen können.

Data Miner stahlen einen erheblichen Teil der multivariaten Statistiken und nannten sie ihre eigenen. Überprüfen Sie das Inhaltsverzeichnis eines multivariaten Buches aus den 1990er Jahren und vergleichen Sie es mit einem neuen Data Mining-Buch. Sehr ähnlich.

Die Statistik ist mit dem Testen von Hypothesen und der Modellbildung verbunden, wohingegen das Data Mining eher mit der Vorhersage und Klassifizierung verbunden ist, unabhängig davon, ob es ein verständliches Modell gibt.

Neil McGuigan
quelle
1
Was ist das Duplikat? Ich kann nichts Offensichtliches sehen.
Rob Hyndman
1
Ziemlich ähnlich zu diesem, dachte ich: stats.stackexchange.com/questions/6/…
Neil McGuigan
1
okay. Ich habe nach Data Mining gesucht, nicht nach maschinellem Lernen. Bitte stimmen Sie zum Schließen ab, wenn Sie der Meinung sind, dass es sich um ein Duplikat handelt.
Rob Hyndman
Hmm, also Data Mining == Maschinelles Lernen?
Ars
1
1) Ich sehe die Unterscheidung der Comp Stat nicht. Es gibt nicht viel, was Statistiker tun, für das kein Computer erforderlich ist. Ich nehme an, Sie meinen rechenintensive Verfahren wie iterative Lösungen usw.? Diese sind jedoch auch in der modernen statistischen Arbeit üblich, bei der es sich nicht um Data Mining handelt. 2) In meiner eigenen (Statistik-) Arbeit habe ich mich je nach Problem für den Modellbau zur Erklärung und Vorhersage interessiert - ich hätte dieses Data Mining nicht in Betracht gezogen. 3) Ich komme zu dem Schluss, dass modernes DM eine besondere Anwendung der Statistik ist, was ich für eine gute Schlussfolgerung halte.
Brett
6

Ich habe zuvor einen Beitrag geschrieben, in dem ich einige Beobachtungen gemacht habe, in denen ich Data Mining mit Psychologie verglichen habe. Ich denke, diese Beobachtungen können einige der Unterschiede erfassen, die Sie identifizieren:

  1. "Data Mining scheint sich mehr mit der Vorhersage anhand beobachteter Variablen zu befassen als mit dem Verständnis des Kausalsystems latenter Variablen. Die Psychologie befasst sich typischerweise mehr mit dem Kausalsystem latenter Variablen.
  2. Data Mining umfasst in der Regel umfangreiche Datenmengen (z. B. mehr als 10.000 Zeilen), die zu einem anderen Zweck als dem des Data Minings erfasst werden. Psychologische Datensätze sind in der Regel klein (z. B. weniger als 1.000 oder 100 Zeilen) und werden explizit gesammelt, um eine Forschungsfrage zu untersuchen.
  3. Bei der psychologischen Analyse werden in der Regel bestimmte Modelle getestet. Ansätze zur automatisierten Modellentwicklung sind in der Regel theoretisch nicht interessant. "- Data Mining und R
Jeromy Anglim
quelle
Ich denke, die Punkte 2 und 3 sind nützliche Kommentare und stimmen mit dem überein, was ich als Unterscheidung zwischen den beiden SA und DM sehe. Ich bin mir bei deinem ersten Punkt nicht so sicher. Ich habe statistische Arbeiten durchgeführt, bei denen es mir darum ging, das Verständnis über kausale Zusammenhänge zu verbessern. Ich habe jedoch auch statistische Arbeiten durchgeführt, bei denen es darum ging, bekannte Beziehungen zu verwenden und Modelle zu entwickeln, die nur dem Zweck der Vorhersage dienen, aber keine der anderen Merkmale des "Data Mining" aufweisen.
Brett
4

Ich glaube nicht, dass Ihre Unterscheidung wirklich mit dem Unterschied zwischen Data Mining und statistischer Analyse zusammenhängt. Sie sprechen über den Unterschied zwischen exploratorischer Analyse und Modellierungsvorhersage.

Ich denke, dass die Tradition der Statistik mit allen Schritten aufgebaut ist: explorative Analyse, dann Modellierung, dann Schätzung, dann Prüfung, dann Vorhersage / Inferenz. Statistiker führen explorative Analysen durch, um herauszufinden, wie die Daten aussehen (Funktionsübersicht unter R!). Ich denke, die Datenerfassung ist weniger strukturiert und könnte mit explorativen Analysen identifiziert werden. Es werden jedoch Techniken aus Statistiken verwendet, die aus Schätzungen, Vorhersagen, Klassifizierungen ... bestehen.

Robin Girard
quelle
Das kann ich kaufen. Data Mining ist eine explorativere Anwendung statistischer Techniken. Ich denke aber nicht, dass Unterscheidung genug ist. Wenn ich EDA mit meinen 100 Beobachtungen aus einem geplanten Experiment durchführe, würde das wohl niemand als Data Mining bezeichnen, oder?
Brett