Während ich mich auf einen Vortrag vorbereite, den ich in Kürze halten werde, habe ich kürzlich angefangen, mich mit zwei wichtigen (kostenlosen) Tools für die interaktive Datenvisualisierung zu befassen : GGobi und mondrian - beide bieten eine große Auswahl an Funktionen (auch wenn sie etwas fehlerhaft sind).
Ich möchte Sie um Ihre Hilfe beim Artikulieren bitten (sowohl für mich selbst als auch für mein zukünftiges Publikum). Wann ist es hilfreich, interaktive Handlungen zu verwenden? Entweder zur Datenexploration (für uns selbst) oder zur Datenpräsentation (für einen "Kunden")?
Wenn ich einem Kunden die Daten erkläre, sehe ich den Wert der Animation für:
- Verwenden Sie "Identifizieren / Verknüpfen / Putzen", um zu sehen, welcher Datenpunkt in der Grafik was ist.
- Präsentation einer Sensitivitätsanalyse der Daten (zB: "Wenn wir diesen Punkt entfernen, erhalten wir Folgendes)
- Darstellung der Auswirkung verschiedener Gruppen in den Daten (z. B .: "Schauen wir uns unsere Grafiken für Männer und jetzt für Frauen an")
- Den Einfluss der Zeit (oder des Alters oder allgemein, um der Präsentation eine andere Dimension zu verleihen) zeigen
Wenn ich die Daten selbst erkunde, kann ich den Wert von Identifizieren / Verknüpfen / Putzen erkennen, wenn ich einen Ausreißer in einem Datensatz erkunde, an dem wir arbeiten.
Abgesehen von diesen beiden Beispielen bin ich mir nicht sicher, welche andere praktische Anwendung diese Techniken bieten. Speziell für unsere eigene Datenexploration!
Es könnte argumentiert werden, dass der interaktive Teil gut ist, um (zum Beispiel) ein unterschiedliches Verhalten verschiedener Gruppen / Cluster in den Daten zu untersuchen. Aber wenn ich mich (in der Praxis) einer solchen Situation näherte, bestand meine Neigung darin, die relevanten statistischen Verfahren (und Post-Hoc-Tests) durchzuführen - und was ich als signifikant fand, plottete ich dann mit Farben, die die Daten klar auf die Daten verteilten relevanten Gruppen. Soweit ich gesehen habe, ist dies ein sicherer Ansatz, als sich über die Daten zu "wundern" (was leicht zu Datenverbesserungen führen kann, wenn der Umfang des für die Korrektur erforderlichen Mehrfachvergleichs nicht einmal klar ist).
Ich würde mich sehr freuen, Ihre Erfahrungen / Gedanken zu diesem Thema zu lesen.
(Diese Frage kann ein Wiki sein - obwohl sie nicht subjektiv ist und eine gut durchdachte Antwort gerne meine "Antwort" -Marke gewinnt :))
Antworten:
Zusätzlich zur Verknüpfung quantitativer oder qualitativer Daten mit räumlichen Mustern, wie von @whuber veranschaulicht, möchte ich die Verwendung von EDA mit Brushing und die verschiedenen Verknüpfungsdiagramme für die Analyse von longitudinalen und hochdimensionalen Daten erwähnen .
Beide werden in dem hervorragenden Buch Interaktive und dynamische Grafiken für die Datenanalyse mit R und GGobi von Dianne Cook und Deborah F. Swayne (Springer UseR !, 2007) besprochen, die Sie sicherlich kennen. Die Autoren haben eine nette Diskussion über EDA in Kapitel 1, die die Notwendigkeit von EDA begründet, "das Unerwartete auf uns zu zwingen", und John Tukey (S. 13) zitiert: Die Verwendung interaktiver und dynamischer Anzeigen ist weder Datenschnüffeln noch vorläufige Daten Inspektion (z. B. rein grafische Zusammenfassungen der Daten), sondern lediglich als interaktive Untersuchung der Daten, die einer rein hypothesenbasierten statistischen Modellierung vorausgehen oder diese ergänzen könnten.
Die Verwendung von GGobi zusammen mit seiner R-Schnittstelle ( rggobi ) löst dank der DescribeDisplay- oder ggplot2- Pakete auch das Problem, statische Grafiken für Zwischenberichte oder endgültige Veröffentlichungen zu generieren, selbst mit Projection Pursuit (S. 26-34) .
In der gleichen Richtung hat sich Michael Friendly lange für die Verwendung der Datenvisualisierung in der kategorialen Datenanalyse ausgesprochen, was zum großen Teil im vcd-Paket, aber auch im neueren vcdExtra- Paket (einschließlich des dynamischen Pakets über das rgl- Paket) zum Ausdruck kommt fungiert als Klebstoff zwischen den vcd- und gnm- Paketen zur Erweiterung logarithmischer linearer Modelle. Er gab vor kurzem eine schöne Zusammenfassung dieser Arbeit während der 6. CARME Konferenz Fortschritte in der Visualizing kategorischen Daten mit dem VCD, gnm und vcdExtra Paketen in R .
Daher kann EDA auch als visuelle Erklärung von Daten (in dem Sinne, dass unerwartete Muster in den beobachteten Daten berücksichtigt werden können) vor einem rein statistischen Modellierungsansatz oder parallel dazu angesehen werden. Das heißt, EDA bietet nicht nur nützliche Möglichkeiten zur Untersuchung der internen Struktur der vorliegenden Daten, sondern kann auch dazu beitragen, die darauf angewendeten statistischen Modelle zu verfeinern und / oder zusammenzufassen. Es ist im Wesentlichen das, was Biplots zum Beispiel erlauben. Obwohl sie nicht mehrdimensionale Analysetechniken sind per se , sie sind Werkzeuge für die Ergebnisse von mehrdimensionalen Analyse Visualisierung (durch eine Angabe Annäherungder Beziehungen, wenn alle Personen zusammen oder alle Variablen zusammen oder beides betrachtet werden). Faktorwerte können bei der nachfolgenden Modellierung anstelle der ursprünglichen Metrik verwendet werden, um entweder die Dimensionalität zu verringern oder um dazwischen liegende Repräsentationsebenen bereitzustellen.
Randnotiz
In der Gefahr, altmodisch zu sein, benutze ich immer noch
xlispstat
( Luke Tierney ) von Zeit zu Zeit. Es verfügt über einfache und dennoch effektive Funktionen für interaktive Anzeigen, die derzeit in Base R-Grafiken nicht verfügbar sind. Ich kenne keine ähnlichen Funktionen in Clojure + Incanter (+ Processing).quelle
Die dynamische Verknüpfung von Grafiken ist für die explorative Geodatenanalyse ( ESDA) natürlich und effektiv . ESDA-Systeme verknüpfen normalerweise eine oder mehrere quantitative Karten (z. B. Choroplethenkarten ) mit tabellarischen Ansichten und statistischen Grafiken der zugrunde liegenden Daten. Einige dieser Funktionen sind seit etwa 15 Jahren Bestandteil einiger Desktop-GIS-Systeme, insbesondere ArcView 3 (ein eingestelltes kommerzielles Produkt). Die kostenlose GeoDa- Software bietet einige dieser Funktionen in einer Umgebung, die für die Exploration und statistische Analyse von Geodaten konzipiert ist. Es ist klobig, mit einer eigenwilligen Oberfläche und unpolierten Grafiken, aber ziemlich fehlerfrei.
Diese Verwendung von EDA umgeht den Einwand, dass statistische Tests besser sind als interaktive Untersuchungen, da es in vielen (den meisten?) Situationen kein klares statistisches Modell gibt, keine offensichtlichen (oder sogar geeigneten) statistischen Tests gibt und Hypothesentests häufig irrelevant sind: Menschen müssen sehen, was passiert , wo es passiert , und die statistischen Beziehungen zwischen Variablen in einem räumlichen Kontext beobachten. Nicht jede Datenanalyse ist oder sollte aus formellen Verfahren bestehen!
quelle
Für mich ist die interaktive Visualisierung nur für meine eigene Erkundung oder bei der Arbeit mit einem sehr praktischen Kunden nützlich. Wenn ich mich mit einer Abschlusspräsentation beschäftige, bevorzuge ich die Auswahl des statischen Diagramms, das meinen Standpunkt am besten unterstreicht. Andernfalls können Kunden durch den Ge-Whiz-Faktor total abgelenkt werden.
Der größte Vorteil, den ich daraus ziehen kann, ist die Geschwindigkeit, mit der ich weitaus mehr untersuchen kann, als ich es hätte, wenn ich aufgehört hätte, eine Lösung zu programmieren. JMP ist eines meiner Lieblingstools dafür, da es so viel von dem, was ich will, in eine einzige Oberfläche integriert. Ich denke, die meisten Leute, die gute statistische Programmierer sind, probieren etwas wie JMP (oder GGobi usw.) viel zu kurz aus, um wirklich gut darin zu werden. Insbesondere JMP vermittelt Ihnen den Eindruck, als würden Sie es nur durch einen Blick auf die Menüs erkennen. Das Durcharbeiten des Handbuchs ist jedoch wirklich erforderlich, um alle seine Möglichkeiten auszuschöpfen.
Sie haben jedoch mein Hauptanliegen in Bezug auf diese Geschwindigkeitsstufe erwähnt: Sie haben absolut keine Ahnung, was Ihre p-Werte bedeuten. In nur wenigen Minuten können Sie Hunderte von Beziehungen visuell untersuchen. Nach all dem Hypothesentest zu machen, ist völlig irreführend, aber ich sehe, dass die Leute das die ganze Zeit tun.
Eine Funktion, die ich in GGobi liebe, ist die Projektionsverfolgung, bei der Sie angeben, welche Art von Muster Sie in einem hochdimensionalen Raum suchen, und dann zurücklehnen und zusehen, wie es dieses Ziel "verfolgt". Tolles Zeug!
quelle