Bei meinen Versuchen, das Chaos in der Tabellenkalkulation zu bekämpfen, bin ich oft evangelisch, wenn ich auf robustere Tools wie echte Statistiksoftware (R, Stata und dergleichen) dränge. Vor kurzem wurde ich in dieser Hinsicht von jemandem herausgefordert, der mit Nachdruck erklärte, dass er das Programmieren einfach nicht lernen werde. Ich möchte ihnen Datenanalysewerkzeuge zur Verfügung stellen, die keine Programmierung erfordern (im Idealfall jedoch die Programmierung, wenn sie später einen Zeh ins Wasser tauchen möchten). Welche Pakete für die Datenexploration gibt es, die ich mit ernstem Gesicht empfehlen kann?
data-visualization
software
Ari B. Friedman
quelle
quelle
Antworten:
Ich programmiere für 95% meiner Arbeit in Python und für den Rest in R oder MATLAB oder IDL / PV-WAVE (und bald auch in SAS). Ich befinde mich jedoch in einer Umgebung, in der die Zeit bis zum Erreichen der Ergebnisse häufig ein wichtiger Faktor für die gewählte Analyse ist. Daher verwende ich häufig auch Point-and-Click-Tools. Meiner Erfahrung nach gibt es kein einzelnes, robustes und flexibles GUI-Tool für die Analyse, so wie es keine einzige Sprache gibt. Normalerweise bastele ich eine Sammlung der folgenden kostenlosen und kommerziellen Software zusammen
Ich habe JMP, Stata, Statistica usw. nicht verwendet, möchte dies aber tun.
Die Verwendung dieser Tools erfordert das Erlernen verschiedener GUIs und mehrerer Abstraktionen der Modellierung. Dies ist zu der Zeit ein Problem, aber ich möchte später schnellere Ad-hoc-Ergebnisse erzielen. Ich bin im selben Boot wie das OP, weil die meisten Leute, mit denen ich zusammenarbeite, zwar sehr schlau sind, es ihnen aber nicht wichtig ist, eine Sprache oder mehrere GUIs und anwendungsspezifische Begriffe zu lernen. Daher habe ich mich damit abgefunden, zu akzeptieren, dass Excel 90% der Analysen in der Geschäftswelt steuert. Dementsprechend möchte ich beispielsweise Pyinex verwenden , um eine bessere Analyse für dieselbe Excel-Präsentationsebene zu ermöglichen, die die große Mehrheit meiner Kollegen erwartet.
UPDATE: Als ich das Thema Do-Modelling-with-Programming-but-Make-Excel-the-Presentation-Layer weiterführte, stieß ich auf die Website dieses Typen, die Grafiken im Tufte-Stil zum Einbetten in Excel-Zellen anbot. Einfach genial und kostenlos!
quelle
In Bezug auf explorative (möglicherweise interaktive) Datenanalysen empfehle ich einen Blick auf:
Alle drei akzeptieren Daten in
arff
odercsv
Format.Aus meiner Sicht erfordert Stata nicht so viel Programmierkenntnisse. Dies ist sogar ein Teil seiner Attraktivität: Die meisten grundlegenden Analysen können durch Zeigen und Klicken auf Benutzeraktionen durchgeführt werden, mit Dialogfeldern zum Anpassen bestimmter Parameter, beispielsweise zur Vorhersage in einem linearen Modell. Dasselbe gilt, wenn auch in geringerem Maße, für R, wenn Sie externe GUIs wie Rcmdr , Deducer usw. verwenden, wie von @ gsk3 angegeben.
quelle
Einige Leute denken beim Programmieren einfach an die Eingabe einer Kommandozeilenanweisung. An diesem Punkt bist du vielleicht ein bisschen verloren, sie zu ermutigen. Wenn sie jedoch bereits Tabellenkalkulationen verwenden, müssen sie bereits Formeln eingeben. Diese sind mit Befehlszeilenanweisungen vergleichbar. Wenn sie wirklich meinen, dass sie keine Programmierung im Sinne einer logischen und automatisierten Analyse durchführen möchten, können Sie ihnen mitteilen, dass sie die Analysen in R oder Stata auch ohne Programmierung durchführen können.
Wenn sie ihre Statistiken in der Tabelle ausführen können ... alles, was sie möchten ..., dann können alle statistischen Analysen, die sie ausführen möchten, auch ohne "Programmieren" in R oder Stata ausgeführt werden. Sie könnten die Daten in der Tabelle anordnen und organisieren und sie dann einfach als Text exportieren. Anschließend wird die Analyse ohne Programmierung durchgeführt.
So mache ich manchmal ein Intro zu R. Für die Datenanalyse, die Sie in einer Tabelle durchführen können, ist keine Programmierung erforderlich.
Wenn Sie sie auf diese Weise süchtig machen, spulen Sie den Fisch langsam ein ... :) In ein paar Jahren machen Sie ihnen ein Kompliment, was für ein guter Programmierer sie geworden sind.
Sie können dieses Dokument auch Ihren Kollegen zeigen oder es zumindest selbst lesen, um Ihre Argumente besser zu verdeutlichen.
quelle
Ich werde hier einen Pitch für JMP machen. Ich habe einige Gründe, warum es mein bevorzugtes nicht programmierbares Tool zur Datenexploration ist:
quelle
Ich kann Tableau als gutes Tool für die Datenexploration und -visualisierung empfehlen, da Sie die Daten auf unterschiedliche Weise durchsuchen und anzeigen können, indem Sie sie einfach per Drag & Drop verschieben. Die Grafiken sind ziemlich scharf und Sie können sie zu Präsentationszwecken problemlos als PDF ausgeben. Wenn Sie möchten, können Sie es mit etwas "Programmieren" erweitern. Ich benutze dieses Tool regelmäßig zusammen mit "R" und SAS und alle arbeiten gut zusammen.
quelle
Wie John sagte, erfordert die Datenexploration in R nicht viel Programmierung. Hier ist eine Liste von Befehlen für die Datenexploration, die Sie Benutzern geben können. (Ich habe es mir gerade ausgedacht; Sie können es sicherlich erweitern.)
Exportieren Sie die Daten aus einem beliebigen Paket. (Das Exportieren numerischer Daten ohne Anführungszeichen ist praktisch.) Lesen Sie dann die Daten in R.
Mach einen Tisch.
Lassen Sie R raten, welche Art von Grafik Sie erhalten möchten. Es funktioniert manchmal sehr gut.
Eine Reihe spezifischer Plotfunktionen arbeiten ganz einfach mit einzelnen Variablen.
Subsets nehmen
SQL-ähnliche Syntax, falls Leute daran gewöhnt sind (mehr hier )
PCA (Sie hätten natürlich mehr als zwei Variablen.)
quelle
Dies ist eher eine Klage als eine Antwort ...
Die beste Software, die ich dafür gesehen habe, ist Arc , das auf Xlisp-Stat basiert. Es ist eine fantastische Software für die Datenexploration mit vielen integrierten interaktiven Grafiken sowie vielen statistischen Inferenzfunktionen. Meiner Meinung nach ist nichts so einfach zu bedienen wie die Datenexploration und die Möglichkeit, sie mit der Lisp-Programmierung weiter zu erweitern. Meiner Meinung nach ist Interaktivität in R erst zehn Jahre später in der Lage, auf eine Weise wie Arc verwendet zu werden. Soweit ich weiß, hat noch niemand diese Funktionen genutzt, um eine interaktive Benutzeroberfläche zu erstellen, die bei weitem nicht so nützlich ist wie Arc.
Leider hat es sich nie wirklich durchgesetzt, so dass die Entwickler seitdem fast alle auf R umgestellt haben. Es wurde zuletzt im Juli 2004 aktualisiert. Die PC- und Linux / Unix-Versionen funktionieren immer noch und sind je nach Ihren Anforderungen möglicherweise einen Versuch wert. Für Macs ist die beste Option, die Linux / Unix-Version unter X11 auszuprobieren. Ich habe es auf einigen Systemen so zum Laufen gebracht. Die auf der Website erwähnte Mac-Version funktioniert nur auf "klassischen" Macs.
Ich werde auch kurz Mondrian erwähnen , den ich nur kurz ausprobiert habe, der aber eine großartige grafische Interaktivität für die Datenexploration zu haben scheint, obwohl (wie ich mich erinnere) keine einfache Möglichkeit besteht, die Fähigkeiten zu erweitern oder statistische Schlussfolgerungen zu ziehen.
quelle
Ein neues Softwaresystem, das für diesen Zweck vielversprechend aussieht, ist Deducer , das auf R aufbaut. Da es leider neu ist, vermute ich, dass es noch nicht die Breite der Fragen abdeckt, die die Leute stellen könnten, aber es erfüllt die Erwartungen -Wasserkriterium, um die Menschen zu einem echten Paket zu führen, falls sie sich später dazu entschließen sollten.
Ich habe in der Vergangenheit auch JMP verwendet, was eine gute Interaktivität mit sich brachte. Ich befürchte, dass einige der Benutzeroberflächen für diese Zwecke zu kompliziert sind. Und es ist nicht kostenlos, was es potenziellen Flüchtlingen erschwert, es aus einer Laune heraus zu versuchen.
Es gibt auch Rassel, die etwas vielversprechend aussieht.
quelle
Für die Erkundung der enthaltenen Daten und deren Bereinigung ist das frühere Google Refine, jetzt Open Refine , eine ziemlich gute GUI. Es ist viel leistungsfähiger für die Vorbereitung und Reinigung als so etwas wie Excel. Wechseln Sie dann zu R-Commander für Ihre Analysen.
quelle
Jeder, der R oder eine der "GUIs" beantwortet, hat die Frage nicht gelesen.
Es gibt ein speziell dafür entwickeltes Programm namens JMP. Ja, es ist teuer, obwohl es eine kostenlose Testversion hat und für Studenten oder College-Mitarbeiter unglaublich billig ist (wie 50 $ billig).
Es gibt auch RapidMiner, eine Workflow-basierte Benutzeroberfläche für Data Mining und statistische Analysen. Es ist kostenlos und Open Source.
quelle
Nun, dieses spezielle Tool ist in meiner Branche beliebt (obwohl es nicht branchenspezifisch ist): http://www.umetrics.com/simca
Es ermöglicht Ihnen die Durchführung einer latenten multivariaten Analyse vom Variablentyp (PCA und PLS) und enthält alle zugehörigen interpretativen Darstellungen / Berechnungen und Abfragewerkzeuge wie Beitragsdarstellungen, Darstellungen mit variabler Wichtigkeit, Q2-Berechnungen usw.
Es wird häufig bei hochdimensionalen (und häufig stark korrelierten / kollinearen) industriellen Datensätzen verwendet, bei denen OLS / MLR-Methoden ungeeignet sind (z. B. Informationen von einer Schiffsladung von Sensoren, Protokollinformationen usw.).
Es wird in einer vollständig GUI-Umgebung ausgeführt und der Benutzer muss keine einzige Codezeile schreiben. Leider ist es nicht kostenlos und kann nicht über die Programmierung erweitert werden.
quelle
Wenn Sie den Test meiner Meinung nach nicht selbst codieren, neigen Sie zu Fehlern und Missverständnissen bei den Ergebnissen.
Ich denke, dass Sie ihnen empfehlen sollten, einen Statistiker einzustellen, der über Computerkenntnisse verfügt.
Wenn es immer dasselbe sein soll, können Sie in der Tat ein kleines Tool (Blackbox) verwenden, das das Zeug erledigt. Ich bin mir jedoch nicht sicher, ob dies immer noch Datenexploration heißt.
quelle
Ich würde das R-Paket von John Fox mit dem Namen R commander empfehlen:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Es erstellt eine Benutzeroberfläche, die SPSS (oder ähnlichem) ähnelt und sich hervorragend für Anfänger eignet. Der Benutzer muss keinen Code eingeben. Dies geschieht über Dropdown-Felder (Sie können die R-Konsole sogar während der Arbeit minimieren).
Für mich besteht der Vorteil dieses Pakets darin, dass Sie alle großen Rechenfähigkeiten von R nutzen können, während Sie über eine Benutzeroberfläche verfügen, die für Anfänger vollständig funktionsfähig ist.
quelle
Ein weiteres nützliches Tool, obwohl nur für Windows, ist Spotfire - ich fand es sehr nützlich, um schnell verschiedene Histogramme und Streudiagramme für einzelne Variablen und Variablenpaare zu betrachten. Ein Recherchetool, mit dem Sie einzelne Variablen sowie Paare anhand einfacher Statistiken einstufen können - Hierarchical Clustering Explorer von HCIL. Dies ist nützlich, um die interessantesten Variablen / Variablenpaare zu finden.
quelle