Moderner Nachfolger der exploratorischen Datenanalyse von Tukey?

52

Ich habe Tukeys Buch "Exploratory Data Analysis" gelesen. Das Buch wurde 1977 geschrieben und konzentriert sich auf Papier / Bleistift-Methoden. Gibt es einen "moderneren" Nachfolger, der berücksichtigt, dass wir jetzt große Datenmengen sofort zeichnen können?

Biofreezer
quelle
soll das community wiki sein
Richiemorrisroe
Mir ist nicht klar, ob das CW sein soll. Möglicherweise gibt es keine guten Antworten. es mag eine eindeutige Antwort geben; Möglicherweise generieren wir eine lange Liste wirksamer Antworten. Mal sehen was passiert.
whuber
4
Das ist eine gute Frage, Biofreezer. Ich wollte nur bemerken, dass es enge Analogien zu anderen Arbeitsmethoden gibt. Mein Favorit ist, Pen & Paper EDA ist für moderne Statistiken wie Handwerkzeuge für die moderne Holzbearbeitung. (Bei der "modernen" Holzbearbeitung werden viele Elektrowerkzeuge wie Tischsägen und Fräser eingesetzt, mit denen auch Anfänger in viel kürzerer Zeit akzeptable Ergebnisse erzielen können. Diese Werkzeuge verursachen jedoch auch jedes Jahr Tausende von fehlenden Stellen und Gliedmaßen. Menschen, die den Umgang mit Handwerkzeugen erlernen lerne im Allgemeinen besser und effizienter zu arbeiten, auch wenn sie Elektrowerkzeuge einsetzen.)
whuber
4
Ja, Holzbearbeitung ist eine nette Analogie (fehlende Ziffern, fehlende Ziffern). Siehe auch software-carpentry.org .
Denis

Antworten:

19

Das nächstgelegene ist Clevelands Visualizing Data . Es geht um explorative Datenanalyse, es geht um computergenerierte Visualisierungen, es ist tiefgreifend, es ist ein Klassiker.

Carlos Accioly
quelle
2
Gleiches gilt auch für das Buch The Elements of Graphing Data desselben Autors. Kaufen Sie beide; Sie sind beide ausgezeichnet.
Karl Ove Hufthammer
5

Hadley Wickhams ggplot2-Buch ist interessant, da es sowohl die Grammatik der Grafiken als auch die Verwendung der ggplot2-Software lehrt.

Jack Tanner
quelle
4

Erwähnenswert sind hier Ronald Pearsons Forschungsdaten in den Bereichen Ingenieurwesen, Naturwissenschaften und Medizin . Die Hauptzielgruppe scheinen Wissenschaftler zu sein, die keine Angst vor etwas Mathematik haben und sich wünschen, mehr Statistiken zu kennen. Das ist eine ziemlich große Gruppe, und eine, die hier gut vertreten ist. Es ist ein wenig schrullig und ungewöhnlich, aber es deckt viel Boden ab und enthält viele vernünftige Ratschläge. Es ist nicht Tukey in dem Sinne, dass es viele neue Ideen bietet, aber es kann sich lohnen zu studieren, auch wenn Sie denken, dass es ein wenig falsch ist.

Dieses Buch scheint sehr wenig Beachtung gefunden zu haben, möglicherweise, weil es sehr teuer ist, offensichtlich nicht als Kurstext geeignet ist und noch nur als gebundenes Buch erhältlich ist. Aber es ist intelligent und lesbar und frei von dem Müll moderner Einführungslehrbücher (Seiten und Seiten mit Grundübungen, dummen Ikonen, unentgeltlichen Fotos von glücklichen jungen Menschen, pingeligen Layouts mit Kisten usw.).

Nick Cox
quelle
0

Weitere gute Bücher sind Beautiful Visualization und Beautiful Data. Dies sind bearbeitete Bücher, es gibt erstaunlich gute Beispiele für das Durchsuchen von Daten mit Zeichnungen und einige absolut entsetzliche Kapitel.

Ein weiteres Buch, das einige gute Beispiele für die Verwendung von ggplot2 enthält, ist ein neues von Winston Chang

Dianne Cook
quelle
1
Ich möchte nur noch einmal nachsehen, Di, falls sich ein subtiler Tippfehler eingeschlichen hat: Wollten Sie vielleicht "ansprechend" schreiben, anstatt "entsetzlich"? Obwohl beide in diesem Zusammenhang sinnvoll sind, ist das Erscheinen der letzteren - ohne weitere Erklärung - eher überraschend!
Whuber
2
entsetzlich war richtig - es ist eine gemischte tüte - bearbeitete bände sind oft
dianne
Ich bin überrascht über diese Empfehlungen. Ich fand beide Bücher größtenteils enttäuschend (Long-on-Guff, Short-on-Graphics). Leider scheint O'Reilly, dem ich zum ersten Mal als Herausgeber von spektakulär guten Unix-Büchern begegnet bin, eine sehr ungleiche Qualitätskontrolle für Bücher zu haben, die auch nur aus der Ferne statistisch sind.
Nick Cox
Ich mag beide Bücher und empfinde sie als wesentliche Beiträge. Winston Chang's hat viele grundlegende Details zum Zeichnen mit ggplot2. Es ist eine gute Referenz für Anfänger. Es sagt Ihnen nicht viel darüber aus, warum Sie diese Handlungen machen würden, aber die meisten machen für diesen Zweck Sinn, aus den Stücken, die ich gelesen habe. Die schöne Visualisierung enthält einige sehr eindrucksvolle Kapitel, in denen schwierige Probleme wie die Visualisierung von Wikipedia, massive Daten und viele Komplexitäten behandelt werden. Außerdem werden die für die Erstellung der Zeichnungen getroffenen Überlegungen und Entscheidungen durchlaufen.
Dianne Cook
Nur für den Fall, dass mein Kommentar nicht eindeutig ist: Ich bezog mich auf die "schönen" Bücher. Winston Changs Buch ist nett und hilfreich.
Nick Cox
0

Ich denke an das Verständnis einer robusten und explorativen Analyse von Hoaglin, Mosteller und Tukey und an das begleitende Buch über das Erforschen von Datentabellen und Formen als technische Fortsetzung von EDA. Ich sehe auch Datenanalyse und -regression, einen zweiten Kurs in Statistik von Mosteller und Tukey, als Follow-up zu EDA. Die verschiedenen oben erwähnten Cleveland-Bücher sind Schätze.

SJC
quelle