Ich arbeite an einem Projekt, das 14 Variablen und 345.000 Beobachtungen für Wohnungsdaten umfasst (z. B. Baujahr, Quadratmeterzahl, Verkaufspreis, Wohnbezirk usw.). Ich befasse mich mit dem Versuch, gute grafische Techniken und R-Bibliotheken zu finden, die nette Plott-Techniken enthalten.
Ich sehe bereits, was in ggplot und lattice gut funktioniert, und ich denke darüber nach, für einige meiner numerischen Variablen Geigenpläne zu erstellen.
Welche anderen Pakete würden die Leute empfehlen, um eine große Anzahl von numerischen oder faktortypisierten Variablen übersichtlich, poliert und vor allem prägnant anzuzeigen?
r
data-visualization
large-data
eda
Christopher Aden
quelle
quelle
Antworten:
Das beste "Diagramm" ist so offensichtlich, dass es noch niemand erwähnt hat: Erstellen Sie Karten. Die Daten zu Wohnraum hängen im Wesentlichen von der räumlichen Lage ab (laut der alten Immobiliensäge). Daher ist es das allererste, was zu tun ist, eine klare detaillierte Karte jeder Variablen zu erstellen. Um dies mit einer Drittelmillion Punkten gut zu machen, ist ein industrielles GIS erforderlich, das den Prozess verkürzen kann. Danach ist es sinnvoll, Wahrscheinlichkeitsdiagramme und Boxplots zu erstellen, um univariate Verteilungen zu untersuchen, Streudiagramm-Matrizen und wandernde schematische Boxplots usw. zu zeichnen, um Abhängigkeiten zu untersuchen Datenbeziehungen und wie Sie die Daten geografisch in sinnvolle Teilmengen aufteilen.
quelle
ggplot2
(insb. Wenn Sie nicht brauchen , um Ländergrenzen zu ziehen), had.co.nz/ggplot2/coord_map.html . Ansonstenmaps
,gmaps
sind besser. Es gibt auchGeoXp
eine R-Schnittstelle zu GRASS. Übrigens hat Mondrian ein Plugin für geografische Daten :)lattice
‚slevelplot
undcontourplot
. Das Paketfields
hat einige nette Funktionen, einschließlichquiltplot
derer , die nützlich sind, wenn sich Ihre Daten nicht ausschließlich in einem Raster befinden. Es hat auch eine schöne Spline-FunktionTps
für dünne Platten , um nicht gerasterte Daten in ein Raster zu glätten. Bei dedizierter GIS-Software macht GRASS für mich irgendwie keinen Sinn, ich bevorzuge QGIS.Ich würde empfehlen, sich GGobi anzuschauen , das auch eine R-Schnittstelle hat, zumindest zu Erkundungszwecken. Es verfügt über eine Reihe von grafischen Darstellungen, die besonders nützlich sind, um mit einer großen Anzahl von Beobachtungen und Variablen umzugehen und diese miteinander zu verknüpfen. Vielleicht möchten Sie zunächst einige der Videos im Abschnitt "Demo ansehen " auf der Seite " Learn GGobi " ansehen .
Aktualisieren
Links zu Hadley Wickhams Tools für GGobi, wie von chl in den Kommentaren vorgeschlagen:
quelle
DescribeDisplay
undclusterfly
.Ich glaube, Sie stellen tatsächlich zwei Fragen: 1) Welche Arten von Visualisierungen sollen verwendet werden und 2) welches R-Paket kann sie erzeugen.
Welche Art von Grafik verwendet werden soll, hängt von Ihren Anforderungen ab (z. B. Arten von Variablen - numerisch, faktorisch, geografisch usw. und die Art der Verbindungen, die Sie anzeigen möchten):
Nun darüber, wie es geht. Ein Problem bei vielen Datenpunkten ist die Zeit, bis der Plot erstellt wird. ggplot2, iplots, ggobi sind nicht sehr gut für zu viele Datenpunkte (zumindest aus meiner Erfahrung). In diesem Fall möchten Sie sich möglicherweise auf R-Basisgrafiken konzentrieren oder Ihre Daten abtasten und alle anderen Tools verwenden. Oder Sie können hoffen, dass die Leute, die iplots extreme (oder Acinonyx ) entwickeln, eine fortgeschrittene Release-Phase erreichen.
quelle
rflowcyt
und Acinonyx.rflowcyt
wurde mit jüngsten Versionen von Bioconductor veraltet, es wird jetzt empfohlen, zu verwendenflowViz
. Wie auch immer, beide verlassen sich auflattice
.Mondrian bietet interaktive Funktionen und verarbeitet relativ große Datenmengen (allerdings in Java).
Paraview beinhaltet 2D / 3D nämlich. Eigenschaften.
quelle
iplots
von @Tal zitierte "äquivalente" R-Version . Über Paraview haben Sie die Möglichkeit, einen Screenshot Ihres Viz zu speichern.DescribeDisplay
Hier können Sie dynamische Visualisierungen aus GGobi exportieren: cran.r-project.org/web/packages/DescribeDisplay/index.html .Ich möchte Sie darauf aufmerksam machen, Parallele Koordinaten : Visuelle mehrdimensionale Geometrie und ihre Anwendungen , die die neuesten Durchbrüche und Anwendungen auf diesem Gebiet enthalten.
Das Buch wurde unter anderem von Stephen Hawking gelobt. Oberflächen werden (unter Verwendung von Dualität) durch ihre Normalenvektoren an ihren Punkten beschrieben. Es enthält Anwendungen für die Flugsicherung (Automatische Kollisionsvermeidung - 3 USA-Patente), multivariates Data Mining (für reale Datensätze, von denen einige Hunderte von Variablen enthalten), multiobjektive Optimierung, Prozesssteuerung, Smart Displays für die Intensivpflege, Sicherheit, Netzwerkvisualisierung und zuletzt Big Daten.
quelle