Was ist der Unterschied zwischen Data Mining, Statistik, maschinellem Lernen und KI?

208

Was ist der Unterschied zwischen Data Mining, Statistik, maschinellem Lernen und KI?

Wäre es richtig zu sagen, dass es sich um vier Bereiche handelt, die versuchen, sehr ähnliche Probleme mit unterschiedlichen Ansätzen zu lösen? Was genau haben sie gemeinsam und wo unterscheiden sie sich? Wenn es eine Art Hierarchie zwischen ihnen gibt, welche wäre das?

Ähnliche Fragen wurden bereits gestellt, aber ich verstehe sie immer noch nicht:

Olivier Lalonde
quelle

Antworten:

109

Es gibt beträchtliche Überschneidungen zwischen diesen, aber es können einige Unterscheidungen getroffen werden. Notwendigerweise muss ich einige Dinge zu stark vereinfachen oder andere kurz zusammenfassen, aber ich werde mein Bestes geben, um diesen Bereichen einen Sinn zu geben.

Erstens unterscheidet sich künstliche Intelligenz ziemlich von den anderen. AI ist die Untersuchung, wie intelligente Agenten erstellt werden. In der Praxis wird ein Computer so programmiert, dass er sich wie ein intelligenter Agent (z. B. eine Person) verhält und eine Aufgabe ausführt. Dies gilt nicht hat , um überhaupt Lernen oder Induktion beinhaltet, kann es nur ein Weg, um ‚eine bessere Mausefalle zu bauen‘. KI-Anwendungen enthalten beispielsweise Programme zur Überwachung und Steuerung laufender Prozesse (z. B. Erhöhung von Aspekt A, wenn dieser zu niedrig erscheint). Beachten Sie, dass KI nahezu alles beinhalten kann , was eine Maschine tut, solange sie es nicht „dumm“ macht.

In der Praxis erfordern die meisten Aufgaben, die Intelligenz erfordern, die Fähigkeit, neues Wissen aus Erfahrungen zu gewinnen. Somit ist ein großer Bereich innerhalb der KI maschinelles Lernen . Ein Computerprogramm soll eine Aufgabe aus Erfahrung lernen, wenn sich seine Leistung bei der Aufgabe mit der Erfahrung gemäß einem Leistungsmaß verbessert. Beim maschinellen Lernen werden Algorithmen untersucht, mit denen Informationen automatisch extrahiert werden können (dh ohne menschliche Online-Anleitung). Es ist sicherlich der Fall , dass einige dieser Verfahren Ideen beinhalten , die direkt aus, oder durch klassische Statistik inspiriert, aber sie nicht habensein. Ähnlich wie bei der KI ist das maschinelle Lernen sehr umfassend und kann fast alles umfassen, solange es eine induktive Komponente gibt. Ein Beispiel für einen Algorithmus für maschinelles Lernen könnte ein Kalman-Filter sein.

Data Mining ist ein Bereich, der seine Inspiration und seine Techniken zum großen Teil dem maschinellen Lernen (und zum Teil auch der Statistik) entnommen hat, der jedoch unterschiedliche Ziele verfolgt . Data Mining wird von einer Person in einer bestimmten Situation für einen bestimmten Datensatz mit dem Ziel ausgeführt. In der Regel möchte diese Person die Leistungsfähigkeit der verschiedenen Mustererkennungstechniken nutzen, die beim maschinellen Lernen entwickelt wurden. Sehr oft ist der Datensatz sehr umfangreich , kompliziert und / oder weist spezielle Probleme auf(wie es mehr Variablen als Beobachtungen gibt). In der Regel besteht das Ziel darin, entweder einige vorläufige Erkenntnisse in einem Bereich zu gewinnen, in dem vorher wirklich wenig Wissen vorhanden war, oder zukünftige Beobachtungen präzise vorhersagen zu können. Darüber hinaus können Data-Mining-Verfahren entweder "unbeaufsichtigt" (wir kennen die Antwortentdeckung nicht) oder "überwacht" (wir kennen die Antwortvorhersage) sein. Beachten Sie, dass das Ziel im Allgemeinen nicht darin besteht, ein besseres Verständnis des zugrunde liegenden Datenerzeugungsprozesses zu entwickeln. Zu den gebräuchlichen Data Mining-Techniken gehören Clusteranalysen, Klassifizierungs- und Regressionsbäume sowie neuronale Netze.

Ich muss wohl nicht viel sagen, um zu erklären, was Statistik auf dieser Site ist, aber vielleicht kann ich ein paar Dinge sagen. Die klassische Statistik (hier meine ich sowohl die häufigste als auch die Bayes'sche) ist ein Unterthema in der Mathematik. Ich halte es für den Schnittpunkt von dem, was wir über Wahrscheinlichkeit und Optimierung wissen. Obwohl die mathematische Statistik einfach als platonisches Untersuchungsobjekt betrachtet werden kann, wird sie meistens als praktischer und charaktervoller verstanden als andere, weniger bekannte Gebiete der Mathematik. Als solches (und insbesondere im Gegensatz zum obigen Data Mining) wird es hauptsächlich zum besseren Verständnis eines bestimmten Datenerzeugungsprozesses eingesetzt. Es beginnt also in der Regel mit einem formal festgelegten Modellund daraus werden Prozeduren abgeleitet, um dieses Modell genau aus verrauschten Instanzen zu extrahieren (dh Schätzung - durch Optimieren einer Verlustfunktion) und es von anderen Möglichkeiten zu unterscheiden (dh Schlussfolgerungen basierend auf bekannten Eigenschaften von Stichprobenverteilungen). Die prototypische statistische Technik ist die Regression.

gung
quelle
1
Ich stimme dem Großteil des Beitrags zu, aber ich würde sagen, dass AI die meiste Zeit nicht versucht, intelligente Agenten zu erstellen (was ist eigentlich Intelligenz?), Sondern rationale Agenten. Mit rational ist gemeint "optimal angesichts des verfügbaren Wissens über die Welt". Obwohl zugegebenermaßen das ultimative Ziel so etwas wie ein allgemeiner Problemlöser ist.
Kutschkem
3
Entschuldigung, ich verstehe immer noch nicht den Unterschied zwischen Data Mining und maschinellem Lernen. Nach meinem Dafürhalten ist Data Mining = unbeaufsichtigtes Lernen durch maschinelles Lernen. Ist maschinelles Lernen nicht unbeaufsichtigt, wenn es darum geht, neue Erkenntnisse zu gewinnen?
dtc
Ein anonymer Benutzer schlug diesen Blogpost für eine Tabelle vor, in der die Unterschiede zwischen Data Mining und maschinellem Lernen anhand von Parametern aufgeschlüsselt werden.
gung
1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Ist es sicher zu sagen, dass ein neuronales Netzwerk ein Beispiel für ein Tool zum maschinellen Lernen ist, das beim Data Mining verwendet wird, im Vergleich zu einer Clusteranalyse, die kein Algorithmus zum maschinellen Lernen ist, das beim Data Mining verwendet wird?
Dienstag,
In Wirklichkeit ist alles ziemlich verschwommen, @ TomGranot-Scalosub. Ich würde sagen, neuronale Netze sind definitiv ML, und sicherlich werden Clusteranalyse und CART von ML-Forschern untersucht. Ich versuche, die Ideen etwas klarer und eindeutiger zu machen, aber es gibt keine klare Grenze zwischen diesen Kategorien.
Gung
41

Viele der anderen Antworten haben die wichtigsten Punkte behandelt, aber Sie haben nach einer Hierarchie gefragt, falls es eine gibt, und wie ich das sehe. Obwohl es sich um eigene Disziplinen handelt, scheint es eine Hierarchie zu geben, auf der noch niemand aufgebaut hat Der vorherige.

In der Statistik geht es nur um die Zahlen und die Quantifizierung der Daten. Es gibt viele Werkzeuge, um relevante Eigenschaften der Daten zu finden, aber dies kommt der reinen Mathematik ziemlich nahe.

Beim Data Mining geht es um die Verwendung von Statistik sowie anderer Programmiermethoden, um in den Daten verborgene Muster zu finden, damit Sie einige Phänomene erklären können. Data Mining vermittelt einen Eindruck davon, was in einigen Daten wirklich vor sich geht, und befasst sich immer noch wenig mehr mit Mathematik als mit Programmieren, verwendet jedoch beides.

Maschinelles Lernen verwendet Data Mining- Techniken und andere Lernalgorithmen, um Modelle zu erstellen, was hinter einigen Daten geschieht, damit zukünftige Ergebnisse vorhergesagt werden können. Mathematik ist die Grundlage für viele der Algorithmen, aber dies ist mehr in Richtung Programmierung.

Künstliche Intelligenz nutzt Modelle gebaut von Machine Learning und anderen Wegen , um die Vernunft über die Welt und führen zu intelligenten geben Verhalten , ob dies ein Spiel spielen oder einen Roboter / Auto fahren. Künstliche Intelligenz hat einige Ziele zu erreichen, indem sie vorhersagt, wie sich Aktionen auf das Modell der Welt auswirken werden, und die Aktionen auswählt, die dieses Ziel am besten erreichen. Sehr programmierbasiert.

Zusamenfassend

  • Statistik quantifiziert Zahlen
  • Data Mining erklärt Muster
  • Maschinelles Lernen sagt mit Modellen voraus
  • Künstliche Intelligenz verhält sich und Gründe

Nun, dies wird gesagt, es wird einige KI-Probleme geben, die nur in die KI und in ähnlicher Weise in die anderen Bereiche fallen, aber die meisten der heute interessanten Probleme (zum Beispiel selbstfahrende Autos) könnten einfach und korrekt als all diese bezeichnet werden. Hoffe, dies klärt die Beziehung zwischen ihnen auf, nach der Sie gefragt haben.

revs hackartist
quelle
Haben Sie schon einmal WEKA oder RapidMiner verwendet? EM befindet sich beispielsweise im Bereich Data Mining und wendet ein Modell an. Ansonsten schau dir die Definition von mariana soffer an und vergleiche sie mit deiner Antwort. Es ist ein paar Jahre her, dass ich Bishop und Russell / Norvig gelesen habe, aber soweit ich mich erinnere, def. von mariana soffer ist besser geeignet. Übrigens ist Data Mining ("nur") der wichtigste Schritt vor der Entdeckung von Wissen. Data Mining greift nur nach Daten und anschließend nach Informationen, wenn ein Algorithmus mit geeigneten Parametern verwendet wird. Data Mining kann Muster nicht erklären.
Gedächtnisstütze
Nein, @mnemonisch, diese Definition von KI entspricht viel mehr Russell und Norvig als die von
Mariana
2
Ich denke, die Beschreibung der Statistik ist schlecht; quantifyinf numbers ist die Statistik, über die die nationale Statistikabteilung Bericht erstattet. Dies ist jedoch nicht dasselbe wie die Statistikwissenschaft, die Modelle für die Daten erstellt, deren Parameter schätzt und Rückschlüsse zieht. Auch die Beziehung zwischen Data Mining und maschinellem Lernen steht auf dem Kopf. Die Datenwissenschaft verwendet Techniken des maschinellen Lernens, nicht umgekehrt. Siehe auch die Antwort von Ken van Haren.
Richard Hardy
25
  • Die Statistik befasst sich mit Wahrscheinlichkeitsmodellen, insbesondere mit Rückschlüssen auf diese Modelle unter Verwendung von Daten.
  • Beim maschinellen Lernen geht es darum, anhand bestimmter Daten ein bestimmtes Ergebnis vorherzusagen. Nahezu jede vernünftige Methode des maschinellen Lernens kann als formales probabilistisches Modell formuliert werden. In diesem Sinne ist das maschinelle Lernen dem Statistikmodell sehr ähnlich, unterscheidet sich jedoch darin, dass es sich im Allgemeinen nicht um Parameterschätzungen (nur um Vorhersagen) kümmert und sich darauf konzentriert auf Recheneffizienz und große Datensätze.
  • Data Mining ist (so wie ich es verstehe) angewandtes maschinelles Lernen. Der Schwerpunkt liegt auf den praktischen Aspekten der Implementierung von Algorithmen für maschinelles Lernen in großen Datenmengen. Es ist dem maschinellen Lernen sehr ähnlich.
  • Künstliche Intelligenz ist alles, was mit Intelligenz in Computern zu tun hat (eine willkürliche Definition von Intelligenz). Es beinhaltet also eine Menge Dinge.

Im Allgemeinen haben sich probabilistische Modelle (und damit Statistiken) als der effektivste Weg erwiesen, Wissen und Verständnis in einer Maschine formal so zu strukturieren, dass alle drei anderen (AI, ML und DM) heute zumeist Teilbereiche von sind Statistiken. Nicht die erste Disziplin, die ein Schattenarm der Statistik wird ... (Wirtschaft, Psychologie, Bioinformatik usw.)

Ken Van Haren
quelle
5
@Ken - Es wäre ungenau, Wirtschaftspsychologie oder KI als Schattenarme der Statistik zu bezeichnen - selbst wenn die Statistik in jedem dieser Bereiche stark zur Analyse vieler der Probleme genutzt wird, an denen diese Bereiche interessiert sind. Sie möchten nicht vorschlagen, dass die Medizin ein Schattenarm ist von Statistiken, auch wenn die meisten medizinischen Schlussfolgerungen stark auf Datenanalyse beruhen.
mpacer
@ Ken - Dies ist eine großartige Antwort, aber Sie könnten genauer beschreiben, aus welchen anderen Dingen die KI besteht. In der Vergangenheit umfasste AI beispielsweise auch umfangreiche Analysen nicht-probabilistischer Modelle (z. B. Produktionssysteme, zelluläre Automaten usw., siehe z. B. Newell & Simon 1972). Natürlich sind alle diese Modelle Grenzfälle für einige Wahrscheinlichkeitsmodelle, aber sie wurden erst viel später auf diese Weise analysiert.
mpacer
4
Data Mining geht über maschinelles Lernen hinaus, da es tatsächlich darum geht, wie die Daten gespeichert und indiziert werden, um die Algorithmen viel schneller zu machen. Es kann so charakterisiert werden, dass es hauptsächlich Methoden aus KI, ML und Statistik verwendet und diese mit effizienten und cleveren Datenmanagement- und Datenlayouttechniken kombiniert. Wenn es nicht um Datenmanagement geht, kann man es oft einfach als "maschinelles Lernen" bezeichnen. Es gibt jedoch einige Aufgaben, insbesondere "unbeaufsichtigt", bei denen es nicht um "Lernen" geht, sondern auch nicht um Datenverwaltung. Diese werden immer noch als "Data Mining" (Clustering, Ausreißererkennung) bezeichnet.
Anony-Mousse
21

Wir können sagen, dass sie alle verwandt sind, aber sie sind alle verschiedene Dinge. Sie können jedoch Gemeinsamkeiten aufweisen, z. B. beim Statistik- und Data-Mining-Verfahren, bei dem Sie Clustering-Methoden verwenden.
Lassen Sie mich versuchen, jedes kurz zu definieren:

  • Statistik ist eine sehr alte Disziplin, die hauptsächlich auf klassischen mathematischen Methoden basiert. Sie kann für den gleichen Zweck verwendet werden wie Data Mining, bei dem Dinge manchmal klassifiziert und gruppiert werden.

  • Data Mining besteht aus Gebäudemodellen, um die Muster zu ermitteln, mit denen wir Situationen anhand einer Reihe von Fakten oder Faktoren klassifizieren oder vorhersagen können.

  • Künstliche Intelligenz (siehe Marvin Minsky *) ist die Disziplin, die versucht, die Funktionsweise des Gehirns mit Programmiermethoden nachzuahmen, zum Beispiel das Erstellen eines Programms, das Schach spielt.

  • Maschinelles Lernen ist die Aufgabe, Wissen aufzubauen und in irgendeiner Form im Computer zu speichern. Diese Form kann aus mathematischen Modellen, Algorithmen usw. bestehen. Alles, was dazu beitragen kann, Muster zu erkennen.

mariana soffer
quelle
2
Nein, die meisten modernen KI folgen nicht diesem frühen Ansatz, das Gehirn zu emulieren. Es konzentriert sich auf die Erstellung von "rationalen Agenten", die in einer Umgebung arbeiten, um den Nutzen zu maximieren, und steht in engerem Zusammenhang mit maschinellem Lernen. Siehe das Buch von Russell und Norvig.
Nealmcb
1
Ich sehe keinen Unterschied zwischen ML und Data Mining in Ihrer Definition
Martin Thoma
16

Ich kenne mich am besten mit dem maschinellen Lernen aus - der Data-Mining-Achse - und konzentriere mich darauf:

Maschinelles Lernen ist in der Regel an Inferenzen in Nicht-Standard-Situationen interessiert, z. B. in Nicht-ID-Daten, aktivem Lernen, halbüberwachtem Lernen und Lernen mit strukturierten Daten (z. B. Zeichenfolgen oder Grafiken). ML neigt auch dazu, sich für theoretische Grenzen des Lernbaren zu interessieren, was häufig die Grundlage für die verwendeten Algorithmen bildet (z. B. die Support-Vektor-Maschine). ML ist tendenziell bayesianischer Natur.

Data Mining ist daran interessiert, Muster in Daten zu finden, die Sie noch nicht kennen. Ich bin mir nicht sicher, ob sich das signifikant von der explorativen Datenanalyse in der Statistik unterscheidet, während beim maschinellen Lernen im Allgemeinen ein genaueres Problem zu lösen ist.

ML ist eher an kleinen Datasets interessiert, bei denen Überanpassung das Problem ist, und Data Mining ist eher an großen Datasets interessiert, bei denen das Problem die Datenmengen betrifft.

Statistik und maschinelles Lernen bieten viele der grundlegenden Tools, die von Data Minern verwendet werden.

Dikran Beuteltier
quelle
Ich bin nicht einverstanden mit "ML interessiert sich eher für kleine Datensätze".
Martin Thoma
Data Mining wird mit kleinen Datenmengen sehr viel schwieriger, da die Wahrscheinlichkeit, eine falsche Zuordnung zu finden, zunimmt (und die Schwierigkeit, sie zu erkennen, zunimmt). Bei kleinen Datenmengen sind Schlussfolgerungen, bei denen so wenig Entscheidungen wie möglich getroffen werden, in der Regel viel sicherer.
Dikran Beuteltier
13

Hier ist meine Meinung dazu. Beginnen wir mit den zwei sehr weit gefassten Kategorien:

  • Alles, was sich nur als schlau ausgibt, ist künstliche Intelligenz (einschließlich ML und DM).
  • Alles, was Daten zusammenfasst , ist Statistik , obwohl Sie dies normalerweise nur auf Methoden anwenden, die auf die Gültigkeit der Ergebnisse achten (häufig in ML und DM verwendet).

Sowohl ML als auch DM sind in der Regel beide, KI und Statistik, da sie in der Regel grundlegende Methoden aus beiden umfassen. Hier sind einige der Unterschiede:

  • Beim maschinellen Lernen haben Sie ein genau definiertes Ziel (in der Regel Vorhersage )
  • Beim Data Mining haben Sie im Wesentlichen das Ziel " etwas, das ich vorher nicht wusste ".

Darüber hinaus erfordert Data Mining in der Regel viel mehr Datenmanagement , dh, wie die Daten in effizienten Indexstrukturen und Datenbanken organisiert werden.

Leider sind sie nicht so einfach zu trennen. Zum Beispiel gibt es "unbeaufsichtigtes Lernen", das oft enger mit DM verbunden ist als mit ML, da es nicht zielgerichtet optimiert werden kann. Auf der anderen Seite sind DM-Methoden schwer zu bewerten (wie bewerten Sie etwas, das Sie nicht wissen?) Und werden häufig in Bezug auf die gleichen Aufgaben wie maschinelles Lernen bewertet , indem einige Informationen ausgelassen werden. Dies lässt sie jedoch in der Regel schlechter wirken als maschinelle Lernmethoden, die auf das eigentliche Bewertungsziel hin optimiert werden können.

Darüber hinaus werden sie häufig in Kombinationen eingesetzt. Beispielsweise wird eine Data Mining-Methode (z. B. Clustering oder unbeaufsichtigte Erkennung von Ausreißern) verwendet, um die Daten vorzuverarbeiten. Anschließend wird die maschinelle Lernmethode auf die vorverarbeiteten Daten angewendet, um bessere Klassifizierer zu trainieren.

Maschinelles Lernen ist in der Regel viel einfacher zu bewerten: Es gibt ein Ziel wie Punktzahl oder Klassenvorhersage. Sie können die Genauigkeit berechnen und abrufen. Beim Data Mining erfolgt die meiste Auswertung, indem einige Informationen (z. B. Klassenbeschriftungen) ausgelassen und anschließend geprüft werden, ob Ihre Methode dieselbe Struktur gefunden hat. Dies ist in diesem Sinne naiv, da Sie davon ausgehen, dass die Klassenbeschriftungen die Struktur der Daten vollständig codieren. Sie bestrafen tatsächlich Data Mining-Algorithmen, die etwas Neues in Ihren Daten entdecken. Eine andere Möglichkeit, es - indirekt - auszuwerten, besteht darin, wie die entdeckte Struktur die Leistung des tatsächlichen ML-Algorithmus verbessert (z. B. beim Partitionieren von Daten oder Entfernen von Ausreißern). Diese Bewertung basiert jedoch auf der Reproduktion vorhandener Ergebnisse, was eigentlich nicht das Ziel von Data Mining ist ...

Anony-Mousse
quelle
1
Ihre Antwort ist sehr aufschlussreich. Ich schätze besonders den letzten Absatz über die Unterschiede bei der Bewertung der Leistung von ML und der Bewertung der Leistung von DM.
Justis
8

Ich würde ein paar Beobachtungen zu dem hinzufügen, was gesagt wurde ...

KI ist ein sehr weit gefasster Begriff für alles, was mit Maschinen zu tun hat, die argumentations- oder gefühlsmäßige Tätigkeiten ausführen, angefangen von der Planung einer Aufgabe oder der Zusammenarbeit mit anderen Wesenheiten bis hin zum Erlernen des Bedienens von Gliedmaßen zum Gehen. Eine wichtige Definition ist, dass KI alles ist, was mit dem Computer zu tun hat, von dem wir noch nicht wissen, wie man es gut macht. (Wenn wir erst einmal wissen, wie man es richtig macht, bekommt es im Allgemeinen einen eigenen Namen und ist nicht länger "KI".)

Im Gegensatz zu Wikipedia habe ich den Eindruck, dass Mustererkennung und maschinelles Lernen dasselbe Gebiet sind, wobei das erstere von Leuten aus der Informatik praktiziert wird, während das letztere von Statistikern und Ingenieuren praktiziert wird. (Viele technische Bereiche werden immer wieder von verschiedenen Untergruppen entdeckt, die häufig ihre eigene Umgangssprache und Denkweise mit einbringen.)

Data Mining verwendet meiner Meinung nach maschinelles Lernen / Mustererkennung (die Techniken, die mit den Daten arbeiten) und umschließt sie mit Datenbank-, Infrastruktur- und Datenvalidierungs- / Bereinigungstechniken.

Wayne
quelle
6
Maschinelles Lernen und Mustererkennung sind nicht dasselbe, maschinelles Lernen interessiert sich auch für Dinge wie Regression und kausale Folgerung usw. Die Mustererkennung ist nur eines der Probleme, die beim maschinellen Lernen von Interesse sind. Die meisten maschinell lernenden Menschen, die ich kenne, sind in Informatikabteilungen.
Dikran Beuteltier
2
@Dikran Einverstanden, aber ML und PR werden häufig unter ähnlichen Aspekten der Datenanalyse als Alias ​​dargestellt. Mein bevorzugtes Buch ist in der Tat Mustererkennung und maschinelles Lernen von Christophe M. Bishop. Hier ist eine Rezension von John MainDonald in der JSS, j.mp/etg3w1 .
chl
Ich habe auch das Gefühl, dass das Wort "maschinelles Lernen" in der CS-Welt viel häufiger vorkommt als "Mustererkennung".
Bayerj
Fühlen Sie auch hier, dass ML eher ein CS-Begriff ist.
Karl Morrison,
3

Leider liegt der Unterschied zwischen diesen Bereichen hauptsächlich darin, wo sie unterrichtet werden: Statistiken basieren auf mathematischen Abteilungen, Ai, maschinellem Lernen in Informatikabteilungen und Data Mining wird häufiger angewendet (von Geschäfts- oder Marketingabteilungen verwendet, von Softwarefirmen entwickelt). .

Erstens hat KI (obwohl es jedes intelligente System bedeuten könnte) traditionell eher logische Ansätze (z. B. Expertensysteme) als statistische Schätzungen gemeint. Die auf Mathematik basierende Statistik verfügt über ein sehr gutes theoretisches Verständnis sowie über umfangreiche praktische Erfahrungen in den experimentellen Wissenschaften, in denen ein klares wissenschaftliches Modell vorliegt. Für den Umgang mit den begrenzten verfügbaren experimentellen Daten ist eine Statistik erforderlich. Der Fokus lag oft darauf, die maximale Information aus sehr kleinen Datenmengen herauszuholen. Darüber hinaus gibt es eine Tendenz zu mathematischen Beweisen: Sie werden nicht veröffentlicht, wenn Sie nicht beweisen können, wie Sie vorgehen. Dies hat tendenziell dazu geführt, dass die Statistiken bei der Verwendung von Computern zur Automatisierung der Analyse zurückgeblieben sind. Nochmal, Der Mangel an Programmierkenntnissen hat Statistiker daran gehindert, große Probleme zu bearbeiten, bei denen Rechenprobleme wichtig werden (siehe GPUs und verteilte Systeme wie Hadoop). Ich glaube, Bereiche wie die Bioinformatik haben die Statistik jetzt mehr in diese Richtung bewegt. Abschließend würde ich sagen, dass Statistiker eher skeptisch sind: Sie behaupten nicht, dass Sie Wissen mit Statistiken entdecken - vielmehr kommt ein Wissenschaftler auf eine Hypothese, und der Statistiker hat die Aufgabe, zu überprüfen, ob die Hypothese von den Daten gestützt wird. Maschinelles Lernen wird in cs-Abteilungen unterrichtet, die leider nicht die entsprechende Mathematik unterrichten: Multivariable Berechnung, Wahrscheinlichkeit, Statistik und Optimierung sind nicht alltäglich ... man hat vage "glamouröse" Konzepte wie das Lernen aus Beispielen ...Elemente des statistischen Lernens Seite 30. Dies bedeutet in der Regel, dass es sehr wenig theoretisches Verständnis und eine Explosion von Algorithmen gibt, da Forscher immer einen Datensatz finden können, auf dem sich ihr Algorithmus als besser erweist. Es gibt also enorme Hype-Phasen, in denen ML-Forscher die nächste große Sache verfolgen: Neuronale Netze, Deep Learning usw. Leider gibt es in CS-Abteilungen viel mehr Geld (denken Sie an Google, Microsoft und das marktfähigere "Lernen") skeptischere Statistiker werden ignoriert. Schließlich gibt es eine empirische Tendenz: Grundsätzlich gibt es die Überzeugung, dass, wenn Sie genügend Daten auf den Algorithmus werfen, die richtigen Vorhersagen „gelernt“ werden. Während ich gegen ML voreingenommen bin, gibt es eine grundlegende Einsicht in ML, die Statistiker ignoriert haben: Dass Computer die Anwendung von Statistiken revolutionieren können.

Es gibt zwei Möglichkeiten: a) Automatisieren der Anwendung von Standardtests und -modellen. ZB eine Reihe von Modellen ausführen (lineare Regression, zufällige Gesamtstrukturen usw., wobei verschiedene Kombinationen von Eingaben, Parametereinstellungen usw. versucht werden). Das ist nicht wirklich passiert - obwohl ich vermute, dass Konkurrenten auf kaggle ihre eigenen Automatisierungstechniken entwickeln. b) Anwenden statistischer Standardmodelle auf große Datenmengen: Denken Sie beispielsweise an Google Translate, Recommender-Systeme usw. (niemand behauptet, dass z. B. Menschen so übersetzen oder empfehlen ... aber es ist ein nützliches Werkzeug). Die zugrunde liegenden statistischen Modelle sind unkompliziert, aber die Anwendung dieser Methoden auf Milliarden von Datenpunkten ist mit enormen Rechenproblemen verbunden.

Data Mining ist der Höhepunkt dieser Philosophie ... die Entwicklung automatisierter Methoden zum Extrahieren von Wissen aus Daten. Es hat jedoch einen praktischeren Ansatz: Im Wesentlichen wird es auf Verhaltensdaten angewendet, bei denen es keine übergreifende wissenschaftliche Theorie gibt (Marketing, Betrugserkennung, Spam usw.) und das Ziel ist, die Analyse großer Datenmengen zu automatisieren: ohne Zweifel a Statistikteams könnten bei genügend Zeit bessere Analysen erstellen, aber es ist kostengünstiger, einen Computer zu verwenden. Wie D. Hand erklärt, handelt es sich außerdem um die Analyse von Sekundärdaten - Daten, die ohnehin protokolliert werden, und nicht um Daten, die explizit gesammelt wurden, um eine wissenschaftliche Frage in einem soliden Versuchsaufbau zu beantworten. Data Mining-Statistiken und mehr, D Hand

Ich würde also zusammenfassen, dass traditionelle KI eher logisch als statistisch ist, maschinelles Lernen Statistiken ohne Theorie und Statistik "Statistiken ohne Computer" ist und Data Mining die Entwicklung automatisierter Tools für statistische Analysen mit minimalem Benutzereingriff ist.

seanv507
quelle
Diese Antwort ist sehr weit verbreitet, daher ist es schwer zu verfolgen und unnötig lang, aber es zeigt deutlich, dass die Unterschiede mehr mit disziplinarischen Traditionen und Schwerpunkten als mit allem anderen zu tun haben.
Tripartio
1

Beim Data Mining geht es darum, verborgene Muster oder unbekanntes Wissen zu entdecken, mit denen Menschen Entscheidungen treffen können.

Beim maschinellen Lernen geht es darum, ein Modell zum Klassifizieren neuer Objekte zu lernen.

Razan Paul
quelle
Geht es beim maschinellen Lernen nur um Klassifizierung? Kann maschinelles Lernen nicht für andere Ziele eingesetzt werden?
gung
@gung Auf keinen Fall. Reinforcement Learning ist meiner Meinung nach das charakteristischste Teilgebiet von ML, und ich würde nicht sagen, dass es auf der Klassifizierung, aber auf dem Erreichen von Zielen basiert.
Nr.
@nbro, dieser Kommentar sollte ein Hinweis für das OP sein, um zu überdenken, wie eng sie ML definieren.
gung
0

Künstliche Intelligenz könnte meiner Meinung nach als "Obermenge" von Bereichen wie maschinelles Lernen, Data Mining, Mustererkennung usw. angesehen werden.

  • Statistik ist ein Bereich der Mathematik, der alle mathematischen Modelle, Techniken und Theoreme umfasst, die in der KI verwendet werden.

  • Maschinelles Lernen ist ein Bereich der KI, der alle Algorithmen umfasst, die die oben genannten statistischen Modelle anwenden und die Daten, dh prädiktive Analysen wie Clustering und Klassifizierung, sinnvoll nutzen.

  • Data Mining ist die Wissenschaft, die alle oben genannten Techniken (hauptsächlich maschinelles Lernen) verwendet, um nützliche und wichtige Muster aus Daten zu extrahieren. Data Mining hat normalerweise mit dem Extrahieren nützlicher Informationen aus großen Datenmengen, dh Big Data, zu tun.

IrishDog
quelle
-1

Wie wäre es mit: Maschinen das Lernen beibringen

Erkennen Sie sinnvolle Muster in Daten: Data Mining

Prognostizieren Sie das Ergebnis anhand bekannter Muster: ML

Hier finden Sie neue Funktionen zum erneuten Zuordnen von Rohdaten: AI

Dieses Vogelgehirn braucht wirklich einfache Definitionen.

Joel Malard
quelle
-1

Oft versucht Data Mining, zukünftige Daten vorherzusagen oder zu erklären, warum etwas passiert.

Statistiken werden eher verwendet, um Hypothesen in meinen Augen zu validieren. Dies ist jedoch eine subjektive Diskussion.

Ein offensichtlicher Unterschied zwischen Statistikern und Data Minern besteht in der Art der zusammenfassenden Statistik, die sie betrachten.

Statistiken beschränken sich häufig auf R² und Genauigkeit, während Data Miner sich mit AUC-, ROC- und Liftkurven usw. befassen und möglicherweise auch eine kostenbezogene Genauigkeitskurve verwenden.

Data-Mining-Pakete (zum Beispiel das Open-Source-Programm Weka) verfügen über integrierte Techniken zur Auswahl von Eingaben, zur Unterstützung der Klassifizierung von Vektormaschinen usw. Diese fehlen jedoch größtenteils in statistischen Paketen wie JMP. Ich habe kürzlich einen Kurs über "Data Mining in JMP" von den JMP-Leuten besucht. Obwohl es sich um ein visuell starkes Paket handelt, fehlen einige wichtige Data Mining-Techniken vor / nach / während des Betriebs. Die Eingabeauswahl wurde manuell vorgenommen, um einen Einblick in die Daten zu erhalten, und zwar noch im Data Mining. Sie möchten nur Algorithmen für große Datenmengen intelligent freigeben und automatisch sehen, was herauskommt. Der Kurs wurde offensichtlich von Statistikleuten unterrichtet, was die unterschiedliche Denkweise zwischen den beiden hervorhob.

dorien
quelle