Ich bin sicher, dass die Datenwissenschaft, wie sie in diesem Forum diskutiert wird, mehrere Synonyme oder zumindest verwandte Bereiche hat, in denen große Datenmengen analysiert werden.
Meine spezielle Frage bezieht sich auf Data Mining. Ich habe vor ein paar Jahren einen Abschluss in Data Mining gemacht. Was sind die Unterschiede zwischen Data Science und Data Mining und insbesondere was muss ich noch beachten, um mich mit Data Mining vertraut zu machen?
data-mining
definitions
Demongolem
quelle
quelle
Antworten:
@statsRus legt den Grundstein für Ihre Antwort in einer anderen Frage /datascience/1/ , die den Unterschied zwischen Datenwissenschaft und Statistik auszeichnet :
Definition
Data Mining kann als ein Element (oder eine Reihe von Fähigkeiten und Anwendungen) im Toolkit des Data Scientists betrachtet werden. Mir gefällt, wie er die Definition des Bergbaus von der Sammlung in einer Art handelsspezifischem Jargon trennt.
Ich denke jedoch, dass Data-Mining ein Synonym für die Datenerfassung in einer US-englischen umgangssprachlichen Definition ist.
Wohin gehen, um kompetent zu werden? Ich denke, diese Frage ist zu weit gefasst, da sie derzeit gestellt wird und Antworten erhalten würde, die in erster Linie auf Meinungen beruhen. Wenn Sie Ihre Frage verfeinern könnten, wäre es möglicherweise einfacher zu sehen, was Sie fragen.
quelle
Was @Clayton gepostet hat, erscheint mir für diese Begriffe und für das "Data Mining" als ein Werkzeug des Datenwissenschaftlers ungefähr richtig. Ich habe den Begriff "Datenerfassung" jedoch nicht wirklich verwendet, und er ist für mich kein Synonym für "Data Mining".
Meine eigene Antwort auf Ihre Frage: Nein , die Begriffe sind nicht gleich. Die Definitionen in diesem Bereich sind möglicherweise lose, aber ich habe nicht gesehen, dass diese Begriffe synonym verwendet werden. In meiner Arbeit verwenden wir sie manchmal, um zwischen Zielen oder Methoden zu unterscheiden. In der Datenwissenschaft geht es uns eher darum, eine Hypothese zu testen, und in der Regel wurden die Daten nur zu diesem Zweck gesammelt. Beim Data Mining geht es mehr darum, vorhandene Daten zu sichten, nach Strukturen zu suchen und möglicherweise Hypothesen zu generieren. Data Mining kann mit einer Hypothese beginnen, ist jedoch häufig sehr schwach oder allgemein und kann schwierig mit Sicherheit zu lösen sein. (Grabe lange genug und du wirst etwas finden , obwohl es sich als Pyrit herausstellen könnte.)
Wir haben jedoch auch "Data Science" als weiteren Begriff verwendet, um "Data Mining" einzuschließen. Wir sprechen auch von "Datenmodellierung", bei der es für uns darum geht, ein Modell für ein interessierendes System zu finden, das auf Daten sowie anderen Kenntnissen und Zielen basiert. Manchmal bedeutet dies, die Mathematik zu finden, die das wahre System erklärt, und manchmal bedeutet dies, ein Vorhersagemodell zu finden, das für einen bestimmten Zweck gut genug ist.
quelle
Meine Antwort wäre nein. Ich betrachte Data Mining als eines der verschiedenen Gebiete der Datenwissenschaft. Data Mining wird hauptsächlich in Betracht gezogen, um Fragen zu stellen, anstatt sie zu beantworten. Im Vergleich zu Data Science wird es oft als "Etwas Neues erkennen" bezeichnet, bei dem die Datenwissenschaftler versuchen, komplexe Probleme zu lösen, um ihre Endergebnisse zu erzielen. Beide Begriffe haben jedoch viele Gemeinsamkeiten. Zum Beispiel, wenn Sie eine landwirtschaftliche Nutzfläche haben, auf der Sie die betroffenen Pflanzen finden möchten. Hier spielt das räumliche Data Mining eine Schlüsselrolle bei dieser Arbeit. Es gibt gute Chancen, dass Sie nicht nur die betroffenen Pflanzen finden im land aber auch inwieweit sie betroffen sind ....... das ist mit data science nicht möglich.
quelle
Es gibt viele Überschneidungen zwischen Data Mining und Datascience. Ich würde sagen, dass sich Personen mit der Rolle der Datenerfassung mit der Datenerfassung und der Extraktion von Features aus ungefilterten, unorganisierten und meist rohen / wilden Datensätzen befassen. Einige sehr wichtige Daten sind möglicherweise nur schwer zu extrahieren, nicht jedoch aufgrund von Implementierungsproblemen, sondern möglicherweise aufgrund von Fremdartefakten.
Z.B. Wenn ich jemanden brauche, der sich Finanzdaten aus schriftlichen Steuererklärungen in den 70er Jahren ansieht, die gescannt und maschinengelesen wurden, um herauszufinden, ob die Leute mehr bei der Autoversicherung gespart haben. Ein Dataminer wäre die Person, die es zu bekommen gilt.
Wenn ich jemanden brauche, der den Einfluss von Nike auf das Twitter-Profil in den Tweets von Brasilien untersucht und wichtige positive Merkmale des Profils ermittelt, suche ich einen Datenwissenschaftler.
quelle