Eine Übersicht über Data Mining-Softwaretools

15

Obwohl ich als Ingenieur ausgebildet wurde, interessiere ich mich immer mehr für Data Mining. Im Moment versuche ich, das Feld weiter zu untersuchen. Insbesondere möchte ich die verschiedenen Kategorien von Softwaretools verstehen, die existieren und welche Tools in jeder Kategorie bemerkenswert sind und warum. (Beachten Sie, dass ich nicht die "besten" Tools genannt habe, sondern nur die bemerkenswerten, damit es nicht zu einem Flammenkrieg kommt.) Beachten Sie insbesondere die Tools, die Open Source und frei verfügbar sind Ich interessiere mich nur für Open Source und Free.

John Berryman
quelle
1
Ich rate dazu, ein Community-Wiki zu sein.
Tal Galili
klingt wie eine Hausaufgabe Frage
Neil McGuigan
Sicher, jetzt konvertiert.
@el Chef - Es ist eine sehr breite und allgemeine Frage ... aber ich fürchte, es ist keine Hausaufgabe.
John Berryman

Antworten:

7

Dies ist wahrscheinlich die umfassendste Liste, die Sie finden werden: mloss.org

Pedro Oliveira
quelle
Der Schwerpunkt liegt jedoch auf maschinellem Lernen, das ebenso wie AI als verwandtes Gebiet des Data-Mining angesehen werden kann. Obwohl es allgemein synonym verwendet wird, ist "Vorhersage" eine der wichtigsten Herausforderungen beim Data Mining. Beim Data Mining geht es jedoch um mehr als "Lernen".
Anony-Mousse - Monica
7

Schau es dir an

  • Weka (Java, stark in der Klassifizierung)
  • Orange (Python-Scripting, meistens Klassifizierung)
  • GNU R (R-Sprache, etwas vektortabellenorientiert, siehe Taskview Maschinelles Lernen und Rassel- Benutzeroberfläche)
  • ELKI (Java, stark auf Clustering und Ausreißererkennung, Indexstrukturunterstützung für Beschleunigungen, Algorithmusliste )
  • Mahout (Java, gehört zu Hadoop, wenn Sie einen Cluster und große Datenmengen haben)

und das UCI Machine Learning Repository für Datensätze.

chl
quelle
1
Sie könnten Red-R zur Liste hinzufügen (eine Art Klon von Orange in R): red-r.org
Amro
Ich habe R heruntergeladen und spiele jetzt damit.
John Berryman
@ Amro Danke! Es ist jedoch nicht auf der Mac-Plattform verfügbar, es sei denn, ich irre mich?
Chl
Ich bin kein Mac-Benutzer, aber ich denke, der Linux-Build könnte für Sie funktionieren (Sie müssen alle Python-Abhängigkeiten manuell installieren): red-r.org/forum/topic.php?id=22#post-76
Amro
@ Amro Ich werde es versuchen; In der Vergangenheit habe ich RAnalyticFlow ( j.mp/bYF8xs ) getestet, mich aber nicht davon überzeugt: Ich bin im Grunde ein CLI-Benutzer :-)
chl
3

Rattle ist eine Data Mining-GUI, die ein Front-End für eine Vielzahl von R-Paketen bietet.

Jeromy Anglim
quelle
3

Schauen Sie sich KNIME an .

Sehr leicht zu erlernen. Mit viel Spielraum für weitere Fortschritte. Passt gut zu Weka und R.

radek
quelle
2

RapidMiner (Java) [Open Source]

Amro
quelle
2

Es gibt ELKI , ein Open-Source-Universitätsprojekt, das etwas mit WEKA vergleichbar ist, aber in Bezug auf Clustering und Ausreißererkennung viel stärker ist. WEKA ist eigentlich kein eigentliches Data-Mining, sondern eine Software für maschinelles Lernen.

Anony-Mousse - Setzen Sie Monica wieder ein
quelle
1

Es gibt diesen Red-R, der eine schöne GUI und eine visuelle Programmierschnittstelle hat. Es verwendet R, um die verschiedenen Datenanalysen durchzuführen.

Stat-R
quelle
1

Rexer Anlaytics führt jedes Jahr eine Toolkit-Umfrage durch. KDnuggets enthält Softwarebeschreibungen nach Branchen und Absichten.

Dimitriy V. Masterov
quelle
0

SQL Server Data Mining (SSDM) wurde schon lange nicht mehr aktualisiert, ist jedoch immer noch recht wettbewerbsfähig, wenn Sie große relationale Datenbanken und Cubes abbauen. Ich arbeite mich langsam, aber systematisch durch Tests so vieler Mining-Tools wie möglich. Die Windows-Oberfläche von SQL Server ist die produktivste und stabilste, die ich bisher gefunden habe (insbesondere bei Unternehmensdatenbanken, von denen einige überraschend sind) schlampige Schnittstellen) trotz seines Alters. Ich würde eine moderne Windows Presentation Foundation (WPF) -Schnittstelle bevorzugen, aber dies ist die nächstbeste Sache.

Ich habe eine ganze Reihe detaillierter Amateur-Tutorials mit dem Titel Eine waghalsige Treppe zu SQL Server Data Mining geschrieben , als ich versuchte, einige grundlegende Mining-Kenntnisse zu erwerben. Trotz meiner Unerfahrenheit sind sie immer noch hilfreich, um einige der "Fallstricke" im Voraus zu identifizieren.

SQLServerSteve
quelle