Derzeit muss ich ungefähr 20 Millionen Datensätze analysieren und Vorhersagemodelle erstellen. Bisher habe ich Statistica, SPSS, RapidMiner und R ausprobiert. Unter diesen scheint Statistica am besten für das Data Mining geeignet zu sein, und die RapidMiner-Benutzeroberfläche ist ebenfalls sehr praktisch, aber es scheint, dass Statistica, RapidMiner und SPSS nur für kleinere Datensätze geeignet sind .
Kann jemand ein gutes Tool für große Datensätze empfehlen?
Danke!
Antworten:
Ich werde @suncoolsu Kommentar zweitens: Die Dimensionalität Ihres Datensatzes ist nicht das einzige Kriterium, das Sie auf eine bestimmte Software ausrichten sollte. Wenn Sie beispielsweise nur ein unbeaufsichtigtes Clustering planen oder PCA verwenden möchten, gibt es mehrere spezielle Tools, die mit großen Datenmengen umgehen, wie sie in Genomstudien häufig vorkommen.
Nun R (64 Bit) verarbeitet große Daten ziemlich gut, und Sie haben immer noch die Möglichkeit , zu verwenden Plattenspeicher anstelle von RAM - Zugriff, aber CRAN Aufgabenansicht sehen High Performance Computing und Parallel R . Standard-GLM bietet Platz für 20.000 Obs. (aber siehe auch speedglm ) innerhalb einer angemessenen Zeit, wie unten gezeigt:
Zur genaueren Veranschaulichung verwendete ich R zur Verarbeitung und Analyse großer genetischer Daten (800 Individuen x 800.000 SNPs , wobei das statistische Hauptmodell eine geschichtete GLM mit mehreren Kovariaten (2 Minuten) war; dies wurde dank effizienter R und R ermöglicht C-Codes im snpMatrix- Paket verfügbar (im Vergleich dazu dauerte dieselbe Art von Modell mit einer speziellen C ++ - Software ( plink ) ungefähr 8 Minuten . Ich arbeitete auch an einer klinischen Studie (12.000 Patienten x 50 interessierende Variablen) und R passte zu meinen Bedürfnissen Soweit ich weiß, ist das lme4- Paket die einzige Software, die es ermöglicht, ein Modell mit gemischten Effekten mit unausgeglichenen und großen Datenmengen zu kombinieren (wie dies bei einer groß angelegten Bildungsbewertung der Fall ist).
Stata / SE ist eine weitere Software, die große Datenmengen verarbeiten kann . SAS und SPSS sind dateibasierte Software, sodass sie große Datenmengen verarbeiten können. Eine vergleichende Überprüfung der Software für die Datenerfassung finden Sie in Data Mining-Tools: Welche ist die beste für CRM . Für die Visualisierung gibt es ebenfalls zahlreiche Optionen. Vielleicht ist ein guter Anfang die Grafik großer Datensätze: Visualisierung einer Million ( im JSS von P. Murrell geprüft ) und aller verwandten Themen auf dieser Site.
quelle
Die meisten Algorithmen auf Apache Mahout skalieren weit über 20 Millionen Datensätze hinaus, selbst bei hochdimensionalen Daten. Wenn Sie nur ein Vorhersagemodell erstellen müssen, gibt es spezielle Tools wie Vowpal Wabbit (http://hunch.net/~vw/), die sich problemlos auf Milliarden von Datensätzen auf einem einzelnen Computer skalieren lassen.
quelle
Es gibt das RHIPE- Paket (R-Hadoop-Integration). Es ist sehr einfach (mit Ausnahmen), große Datenmengen in R zu analysieren.
quelle
Es ist schwierig, eine gute Antwort zu geben, ohne zu wissen, welche Modelle Sie im Sinn haben.
Für die lineare Regression habe ich das biglm- Paket in R erfolgreich verwendet .
quelle
Da Sie Vorhersagemodelle aus großen Datenmengen erstellen, können Sie von Googles BigQuery (einer gehosteten Version der Technologie aus Googles Forschungsbericht zur Analyse großer Datenmengen mit Dremel) profitieren . Sie können die Abfrageergebnisse beispielsweise als CSV-Datei für die Aufnahme in einen Vorhersageklassifizierer exportieren.
BigQuery verfügt über eine Web-Benutzeroberfläche, mit der Sie Abfragen ausführen und Ergebnisse exportieren können. Die Beta-Version (v1) von BigQuery enthielt einen R-Client, und die Produktionsversion (v2) wird schließlich auch einen R-Client enthalten.
quelle
Wir haben 3,5 Millionen Beobachtungen und 44 Funktionen mit 64-Bit-R auf einer EC2-Instanz mit 32 GB RAM und 4 Kernen trainiert. Wir haben zufällige Wälder benutzt und es hat gut funktioniert. Beachten Sie, dass wir die Daten vor dem Training vorverarbeiten / manipulieren mussten.
quelle
SAS Enterprise Miner Version 6.2 kann problemlos 20 Millionen Beobachtungen und eine Vielzahl von Modellen verarbeiten, die an Ihre Situation angepasst werden können. Das Problem mit SAS sind normalerweise die Kosten. Im Folgenden finden Sie eine Zusammenfassung der Funktionen von SAS EM: SAS EM 6.2: Neue Funktionen
quelle
Können Sie sich ScaVis ( http://jwork.org/scavis ) ansehen ? Ich habe 20M nicht angesehen, aber Sie können versuchen, es zu überprüfen.
quelle
RHIPE ist eine großartige Lösung, und ich würde diese wahrscheinlich wählen, wenn ich dieses Problem hätte! Aber haben Sie an NCSS gedacht? Soweit ich weiß, kann die neueste Version 10 diese Modelle erstellen. Die volle ver. ist sehr teuer, aber auf mehreren Remotedesktopdiensten kann man die App nur gegen eine geringe Gebühr ausführen, aber ich weiß nicht .. eher das überprüfen
quelle