Was ist der Unterschied zwischen Data Mining und statistischer Analyse?
Aus irgendeinem Grund war meine statistische Ausbildung meiner Meinung nach eher traditionell. Eine spezifische Frage wird gestellt, die Forschung wird entworfen und die Daten werden gesammelt und analysiert, um einen Einblick in diese Frage zu gewähren. Daher war ich immer skeptisch gegenüber dem, was ich als "Datenbagger" betrachtete, dh nach Mustern in einem großen Datensatz zu suchen und diese Muster zu verwenden, um Schlussfolgerungen zu ziehen. Ich neige dazu, letzteres mit Data-Mining in Verbindung zu bringen, und habe dies (zusammen mit Dingen wie algorithmischen Variablenauswahlroutinen) immer als etwas grundlos angesehen.
Dennoch gibt es eine große und wachsende Literatur zum Thema Data Mining. Oft sehe ich, dass sich dieses Etikett auf bestimmte Techniken wie Clustering, baumbasierte Klassifizierung usw. bezieht. Zumindest aus meiner Sicht können diese Techniken jedoch für einen Datensatz "lose" sein oder auf strukturierte Weise verwendet werden, um a zu adressieren Frage. Ich würde das erstere Data Mining und die letztere statistische Analyse nennen.
Ich arbeite in der akademischen Verwaltung und wurde gebeten, ein "Data Mining" durchzuführen, um Probleme und Möglichkeiten zu identifizieren. In Übereinstimmung mit meinem Hintergrund lauteten meine ersten Fragen: Was möchten Sie lernen und zu welchen Themen tragen Sie Ihrer Meinung nach bei? Aus ihrer Antwort ging hervor, dass ich und die Person, die die Frage stellte, unterschiedliche Vorstellungen zu Art und Wert von Data Mining hatten.
quelle
Antworten:
Jerome Friedman hat vor einiger Zeit einen Artikel geschrieben: Data Mining und Statistik: Was ist der Zusammenhang? Das finde ich interessant.
Data Mining war ein größtenteils kommerzielles Problem und wurde von den Geschäftsanforderungen bestimmt (in Verbindung mit der "Notwendigkeit", dass Anbieter Software- und Hardwaresysteme an Unternehmen verkaufen). Eine Sache, die Friedman feststellte, war, dass alle "Features", die gehypt wurden, außerhalb der Statistik entstanden - von Algorithmen und Methoden wie neuronalen Netzen bis hin zur GUI-gesteuerten Datenanalyse - und keines der traditionellen statistischen Angebote schien Teil eines dieser Systeme zu sein (Regression, Hypothesentest, etc). "Unsere Kernmethode wurde weitgehend ignoriert." Es wurde auch als benutzergesteuert verkauft, wie Sie es notiert haben: Hier sind meine Daten, hier ist meine "Geschäftsfrage", geben Sie mir eine Antwort.
Ich glaube, Friedman wollte provozieren. Er glaubte nicht, dass Data Mining eine ernsthafte intellektuelle Grundlage in Bezug auf die Methodik hatte, aber dass sich dies ändern würde und dass Statistiker eine Rolle spielen sollten, anstatt sie zu ignorieren.
Mein eigener Eindruck ist, dass dies mehr oder weniger passiert ist. Die Linien wurden verwischt. Statistiker veröffentlichen jetzt in Data Mining-Zeitschriften. Data Miner scheinen heutzutage eine Art statistisches Training zu haben. Während Data-Mining-Pakete noch immer keine verallgemeinerten linearen Modelle übertreffen, ist die logistische Regression unter den Analysten bekannt - zusätzlich zu Clustering und neuronalen Netzen. Ein optimales experimentelles Design ist möglicherweise nicht Teil des Data Mining-Kerns, aber die Software kann dazu gebracht werden, p-Werte auszuspucken. Fortschritt!
quelle
Der Unterschied zwischen Statistik und Data Mining ist weitgehend historisch, da sie aus verschiedenen Traditionen stammen: Statistik und Informatik. Parallel dazu wuchs das Data-Mining aus dem Bereich der künstlichen Intelligenz und Statistik.
Abschnitt 1.4 von Witten & Frank fasst meinen Standpunkt zusammen und ich werde ihn ausführlich zitieren:
NB1 IMO, Data Mining und maschinelles Lernen sind sehr eng miteinander verwandte Begriffe. In gewissem Sinne werden beim Data Mining Techniken des maschinellen Lernens verwendet. Ich sehe diese Begriffe regelmäßig als austauschbar an und soweit sie sich unterscheiden, gehören sie normalerweise zusammen. Ich würde vorschlagen, das Papier "The Two Cultures" sowie die anderen Themen aus meiner ursprünglichen Frage durchzusehen .
NB2 Der Begriff "Data Mining" kann eine negative Konnotation haben, wenn er umgangssprachlich verwendet wird, um zu bedeuten, dass ein Algorithmus in den Daten frei gelassen wird, ohne dass ein begriffliches Verständnis vorliegt. Der Sinn ist, dass Data Mining zu falschen Ergebnissen und Überanpassungen führen wird. Ich vermeide es normalerweise, den Begriff zu verwenden, wenn ich mit Nicht-Experten spreche, und verwende stattdessen maschinelles Lernen oder statistisches Lernen als Synonym.
quelle
Data Mining wird entweder als beschreibend oder als vorhersagend eingestuft. Deskriptives Data Mining dient zum Durchsuchen umfangreicher Datensätze und zum Ermitteln der Positionen unerwarteter Strukturen oder Beziehungen, Muster, Trends, Cluster und Ausreißer in den Daten. Andererseits besteht Predictive darin, Modelle und Verfahren für Regressions-, Klassifizierungs-, Mustererkennungs- oder maschinelle Lernaufgaben zu erstellen und die Vorhersagegenauigkeit dieser Modelle und Verfahren bei Anwendung auf neue Daten zu bewerten.
Der zur Suche nach Mustern oder Strukturen in hochdimensionalen Daten verwendete Mechanismus kann manuell oder automatisiert sein. Bei der Suche muss möglicherweise ein Datenbankverwaltungssystem interaktiv abgefragt werden, oder es muss eine Visualisierungssoftware verwendet werden, um Anomalien in den Daten zu erkennen. In Bezug auf maschinelles Lernen wird deskriptives Data Mining als unbeaufsichtigtes Lernen bezeichnet, wohingegen prädiktives Data Mining als überwachtes Lernen bezeichnet wird.
Die meisten im Data Mining verwendeten Methoden beziehen sich auf Methoden, die im Bereich Statistik und maschinelles Lernen entwickelt wurden. Zu den wichtigsten Methoden zählen die allgemeinen Themen Regression, Klassifikation, Clustering und Visualisierung. Aufgrund der enormen Größe der Datensätze konzentrieren sich viele Anwendungen des Data Mining auf Techniken zur Reduzierung der Dimensionalität (z. B. Variablenauswahl) und Situationen, in denen der Verdacht besteht, dass hochdimensionale Daten auf niederdimensionalen Hyperebenen liegen. In jüngster Zeit wurde die Aufmerksamkeit auf Verfahren zum Identifizieren von hochdimensionalen Daten gelenkt, die auf nichtlinearen Oberflächen oder Verteilern liegen.
Es gibt auch Situationen im Data Mining, in denen statistische Inferenz - im klassischen Sinne - keine Bedeutung oder zweifelhafte Gültigkeit hat: Erstere tritt auf, wenn die gesamte Population nach Antworten suchen muss, und letztere, wenn ein Datensatz a ist "Convenience" -Stichprobe, anstatt eine Zufallsstichprobe aus einer großen Population zu sein. Wenn Daten im Laufe der Zeit gesammelt werden (z. B. Einzelhandelsgeschäfte, Börsentransaktionen, Patientenakten, Wetteraufzeichnungen), ist eine Stichprobenerfassung möglicherweise auch nicht sinnvoll. Die zeitliche Reihenfolge der Beobachtungen ist entscheidend, um das Phänomen, das die Daten erzeugt, zu verstehen, und um die Beobachtungen als unabhängig zu behandeln, wenn sie in hohem Maße korrelieren, was zu verzerrten Ergebnissen führt.
Die zentralen Komponenten des Data Mining sind - neben statistischen Theorien und Methoden - die Berechnung und Recheneffizienz, die automatische Datenverarbeitung, dynamische und interaktive Datenvisualisierungstechniken sowie die Entwicklung von Algorithmen.
Eines der wichtigsten Probleme beim Data Mining ist das Rechenproblem der Skalierbarkeit . Algorithmen, die für die Berechnung standardmäßiger explorativer und bestätigender statistischer Methoden entwickelt wurden, sollten bei Anwendung auf kleine und mittlere Datensätze schnell und rechnerisch effizient sein. Es hat sich jedoch gezeigt, dass die meisten dieser Algorithmen nicht der Herausforderung gewachsen sind, mit riesigen Datenmengen umzugehen. Mit dem Anwachsen von Datensätzen zeigen viele vorhandene Algorithmen die Tendenz, sich dramatisch zu verlangsamen (oder sogar anzuhalten).
quelle
Data Mining ist eine Statistik mit einigen geringfügigen Unterschieden. Sie können sich das als Umbenennungsstatistik vorstellen, weil Statistiker irgendwie komisch sind.
Es wird oft mit Computerstatistiken in Verbindung gebracht, dh nur mit Dingen, die Sie mit einem Computer machen können.
Data Miner stahlen einen erheblichen Teil der multivariaten Statistiken und nannten sie ihre eigenen. Überprüfen Sie das Inhaltsverzeichnis eines multivariaten Buches aus den 1990er Jahren und vergleichen Sie es mit einem neuen Data Mining-Buch. Sehr ähnlich.
Die Statistik ist mit dem Testen von Hypothesen und der Modellbildung verbunden, wohingegen das Data Mining eher mit der Vorhersage und Klassifizierung verbunden ist, unabhängig davon, ob es ein verständliches Modell gibt.
quelle
Ich habe zuvor einen Beitrag geschrieben, in dem ich einige Beobachtungen gemacht habe, in denen ich Data Mining mit Psychologie verglichen habe. Ich denke, diese Beobachtungen können einige der Unterschiede erfassen, die Sie identifizieren:
quelle
Ich glaube nicht, dass Ihre Unterscheidung wirklich mit dem Unterschied zwischen Data Mining und statistischer Analyse zusammenhängt. Sie sprechen über den Unterschied zwischen exploratorischer Analyse und Modellierungsvorhersage.
Ich denke, dass die Tradition der Statistik mit allen Schritten aufgebaut ist: explorative Analyse, dann Modellierung, dann Schätzung, dann Prüfung, dann Vorhersage / Inferenz. Statistiker führen explorative Analysen durch, um herauszufinden, wie die Daten aussehen (Funktionsübersicht unter R!). Ich denke, die Datenerfassung ist weniger strukturiert und könnte mit explorativen Analysen identifiziert werden. Es werden jedoch Techniken aus Statistiken verwendet, die aus Schätzungen, Vorhersagen, Klassifizierungen ... bestehen.
quelle