Das Nachschlagewerk für Statistik mit R - gibt es es und was soll es enthalten?

25

Hintergrund

Es wird viel darüber diskutiert, daher dachte ich, ich könnte meine Antwort von früheren Schritten auf StackExchange finden und wütend googeln. Nachdem ich einen halben Tag lang versucht hatte, mit R nur ein Nachschlagewerk für (Bio-) Statistiken zu finden, war ich völlig verwirrt und musste aufgeben. Möglicherweise ist das kombinierte freie Material tatsächlich besser als jedes der Bücher, die Sie im Moment kaufen können. Lassen Sie es uns herausfinden.

Das Internet ist voll von guter freier Literatur für die R-Sprache , daher macht es keinen Sinn, für ein mittelmäßiges Buch zu bezahlen, das die meiste Zeit als Bürodekoration verwendet wird. Die R-Homepage listet Bücher zu R auf, von denen es viele gibt. Um genauer zu sein: 115. Nur einer von ihnen wird mit den Worten " Standalone Statistics Reference Book " beworben . Es ist jetzt 8 Jahre alt und möglicherweise veraltet. Die vierte Ausgabe von Modern Applied Statistics with S ist noch älter. Das R-Buch wird oft als zu einfach herausgekaut und aufgrund fehlender Referenzen, schlecht formatiertem Code und schlampiger Ausführung nicht empfohlen .

Ich suche jedoch ein Buch , das ich als eigenständige Referenz zur praktischen Statistik (in erster Linie) mit R (sekundär) verwenden könnte. Das Buch sollte auf meinem Schreibtisch liegen und Anmerkungen, Kaffeeflecken und fettige Fingerabdrücke anstelle von Staub auf dem Bücherregal sammeln. Es sollte die Sammlung von kostenlosen PDFs ersetzen, die ich bisher verwendet habe, nicht zu vergessen, dass R mit einer ausgezeichneten Referenzbibliothek geliefert wird. „ Was ist der richtige Ansatz? "," Warum? "und" technisch, wie geht das? "sind oft brennendere Fragen als" wie geht das mit R? "

Da ich Ökologe bin, interessieren mich vor allem Anwendungen in der Biostatistik. Da diese Dinge jedoch häufig miteinander verbunden sind, wäre eine interdisziplinäre allgemeine Bezugnahme für mich am wertvollsten.

Die Aufgabe

Wenn es ein solches Buch gibt (ich bezweifle es), geben Sie bitte den Namen des Buches (nur eines pro Antwort) und eine kurze Rezension des Buches an, in der erläutert wird, warum es als Nachschlagewerk für das Thema genannt werden sollte. Da diese Frage nicht sehr unterschiedlich ist, verwenden Sie bitte dieses Profil für Ihre Antwort. Sie können auch Fehler des Buches auflisten, damit wir diese als Merkmale für das ideale Nachschlagewerk auflisten können.

Meine Frage ist, was sollte das Nachschlagewerk für Statistiken (der am häufigsten verwendeten Arten) mit R enthalten?

Einige erste Gedanken sind folgende allgemeine Merkmale (bitte aktualisieren):

  • Dick wie ein Ziegelstein
  • Prägnant, aber verständlich
  • Mit Zahlen gefüllt (mit dem R-Code versehen)
  • Leicht verständliche Tabellen und Diagramme, die die wichtigsten Details aus dem Text beschreiben
  • Leicht verständlicher, beschreibender Text zu den Statistiken / Methoden mit den wichtigsten Gleichungen.
  • Gute Beispiele für jeden Ansatz (mit R-Code)
  • Umfangreiche und aktuelle Referenzliste
  • Minimale Anzahl von Tippfehlern

Inhaltsverzeichnis

Da ich kein Statistiker bin und dieses (nicht existierende?) Buch zur Beantwortung der Frage benötigen würde, fällt es mir schwer, über den Inhalt zu schreiben. Da das R-Buch eindeutig das Nachschlagewerk für Statistiken mit R sein soll, aber häufig kritisiert wird, habe ich das Inhaltsverzeichnis aus dem Buch als Ausgangspunkt für das Inhaltsverzeichnis für das eigenständige R-Statistik-Nachschlagewerk kopiert. Zusätzliche Aufgabe: Bitte geben Sie Ergänzungen, Vorschläge, Löschungen usw. für das Inhaltsverzeichnis an.

  1. Loslegen
  2. Grundlagen der R-Sprache
  3. Dateneingabe
  4. Datenrahmen
  5. Grafik
  6. Tabellen
  7. Mathematik
  8. Klassische Tests
  9. Statistische Modellierung
  10. Regression
  11. Varianzanalyse
  12. Analyse der Kovarianz
  13. Verallgemeinerte lineare Modelle
  14. Daten zählen
  15. Daten in Tabellen zählen
  16. Proportionsdaten
  17. Binäre Antwortvariablen
  18. Verallgemeinerte additive Modelle
  19. Modelle mit gemischten Effekten
  20. Nichtlineare Regression
  21. Baummodelle
  22. Zeitreihenanalyse
  23. Multivariate Statistik
  24. Raumstatistik
  25. Überlebensanalyse
  26. Simulationsmodelle
  27. Ändern des Aussehens von Grafiken
  28. Referenzen und weiterführende Literatur
  29. Index

Was wurde früher gesagt?

StackExhange enthält mehrere Schritte, in denen Statistiken und Vorschläge für R-Bücher abgefragt werden. Bücher zum Erlernen der R-Sprache fragt nach einem Nachschlagewerk zum Erlernen der R-Sprache ohne Statistikaspekt. Die Kunst der R-Programmierung wird als der beste einzelne Vorschlag eingestuft. Book to Learn Statistics mit R fragt nach einem idealen Einführungsbuch für Statistiken, das nicht mit einem Nachschlagewerk identisch ist. Open - Source - Statistiklehrbücher Reihen Multivariate Statistik mit R als die beste Alternative. Welches Buch würden Sie nicht-statistischen Wissenschaftlern empfehlen? fragt nach dem besten Statistik-Nachschlagewerk ohne Angabe des Programms Ihrer Wahl.Referenz oder Buch zur Simulation experimenteller Konstruktionsdaten in R- Scores, die meiner Frage vielleicht am nächsten kommen. Einführung in das wissenschaftliche Programmieren und Simulieren mit R ist hier das am meisten empfohlene Buch und könnte dem nahe kommen, wonach ich suche. Dieses Buch wird jedoch auch nicht als einziges Nachschlagewerk für Statistiken mit R ausreichen.

Einige Vorschläge für das Nachschlagewerk und ihre Mängel

R in Action hat bessere Kritiken erhalten als The R Book, ist aber anscheinend eher einleitend .

Biostatistisches Design und Analyse unter Verwendung von R: Ein praktischer Leitfaden ist vielleicht genau das, wonach ich suche. Es hat eine gute Bewertung erhalten , aber anscheinend enthält auch diese viele Tippfehler. Darüber hinaus konzentriert sich dieses Buch nicht auf die Erklärung von Statistiken, sondern liefert statistische Analysen als vorgefertigte Rezepte für Forscher.

Ökologische Modelle und Daten in R überspringen die Einführungsebene. Dies ist eine sehr nützliche Funktion, da das Wort "Einführung" 43 Vorkommen in der R-Book-Liste aufweist , aber vielleicht nicht ganz zufriedenstellend ist, wenn wir nach dem Nachschlagewerk für Statistiken suchen ...?

Einführung in die wissenschaftliche Programmierung und Simulation mit R wurde sehr positiv bewertet , ist jedoch auf die Datensimulation beschränkt.

Richiemorrisroe schlägt vor, dass Modern Applied Statistics with S für ein eigenständiges Statistik-Nachschlagewerk mit R ausreicht. Dieses Buch hat hervorragende Rezensionen erhalten ( 1 , 2 ) und ist im Moment wahrscheinlich der beste Kandidat für den Titel? Die neueste Version ist vor 10 Jahren erschienen, was angesichts der Programmentwicklung eine ziemlich lange Zeit ist.

Dimitriy V. Masterov schlägt eine Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen vor . Ich habe dieses Buch noch nicht ausgecheckt.


Nach dem Lesen vieler Buchbesprechungen scheint es offensichtlich, dass das hier angeforderte perfekte Buch noch nicht existiert. Es ist jedoch vielleicht möglich, eine zu wählen, die ziemlich nahe ist. Dieses Profil ist als Community-Wiki für Statistikbenutzer gedacht, um das beste existierende Nachschlagewerk zu finden, und als Motivation für die neuen und alten Buchautoren, ihre Arbeit zu verbessern.

Mikko
quelle
3
(+1) für die gute Bewertung! Es scheint jedoch, dass Sie Ihre eigene Frage innerhalb Ihrer eigenen Frage beantwortet haben ...
2.
1
Wenn Sie so viel Zeit damit verbracht haben, dies herauszufinden, eine lange eigene Liste und sogar einen Überblick über ein solches Buch zu erstellen, sollten Sie vielleicht eine schreiben. Dies ist eine Empfehlung, die ich häufig auf Statistik- und Ökonometrielisten gebe, wenn jemand nach einem guten Übersichtsartikel zu [BLAH] fragt und bespricht, was er an den fünf oder zehn vorhandenen Übersichtsartikeln nicht mag - schreiben Sie Ihren eigenen Artikel darauf.
StasK

Antworten:

12

Ich persönlich war der Meinung, dass Modern Applied Statistics mit S-Plus alle von Ihnen genannten Kriterien erfüllt. Jedes Beispiel hat R-Code, sie geben gute Verweise auf andere Quellen, und Venables und Ripley haben einen wunderbar knappen und erklärenden Schreibstil, den ich sehr geschätzt habe. Ich neige dazu, das Buch immer wieder neu zu lesen und jedes Mal, wenn ich mehr davon bekomme. Natürlich kann Ihr Kilometerstand variieren.

richiemorrisroe
quelle
2
Genau. Ich habe viele Statistikbücher, die auf R basieren, und MASS4 ist wahrscheinlich das, wonach Sie suchen, aber an manchen Stellen wird "knapp" unleserlich knapp und erfordert die meisten statistischen Hintergrundkenntnisse als ich. Das heißt, ich habe das Buch fast 10 Jahre und ich gehe immer wieder darauf zurück und lerne neue Sachen. Ich würde mich nicht von seinem Alter abschrecken lassen. Oh, und ich mache jetzt eine Statistik :-)
Sean
Ich gehe auch immer wieder auf MASS zurück, was sich anhört, als würde ich es als Nachschlagewerk bevorzugen.
Peter Ellis
Unterscheidet sich die 1998er Version von MASS stark von der 2003er? Ich frage mich, ob der inhaltliche Unterschied ausreicht, um etwa 50 Pfund mehr dafür auszugeben.
Vermutungen
6

Vielen Dank für eine so gute Frage und speziell für das Zusammenstellen all dieser Informationen. Leider existiert das Buch, das Sie beschreiben, nicht, und um ehrlich zu sein, konnte es unmöglich existieren. Wenn Sie in erster Linie ein Nachschlagewerk für Statistiken wollen, würde ich mit einem wirklich guten Buch über lineare Modelle beginnen. Meine Empfehlung ist Kutner et alEs erfüllt die Kriterien, in Bezug auf Volumen und Masse größer als ein Ziegelstein zu sein, ist sehr umfassend, klar und enthält viele Beispiele. In der Tat, wenn Sie die R-Anforderung eliminieren, tickt es so ziemlich Ihre ganze Liste. Ich beziehe mich oft darauf. In ~ 1500 Seiten werden jedoch so ziemlich nur lineare Modelle behandelt - dh Regression und ANOVA - es gibt einige kurze Kapitel zu ein paar anderen Themen, aber Sie werden wirklich andere Bücher dafür wollen. Als nächstes würde ich ein erstklassiges statistisches Nachschlagewerk erhalten, das auf der für Sie geeigneten Ebene für alle anderen Techniken verfügbar ist, mit denen Sie möglicherweise arbeiten müssen (z. B. Überlebensanalyse, räumliche Analyse usw.). Wenn diese Bücher kein R für ihre Beispiele verwenden, möchten Sie möglicherweise ein R-spezifisches Buch erhalten, wie eines der use-R! Bücher, aber zwischen der Dokumentation, den Vignetten, den R-Hilfe-Mailinglisten, StackOverflow und CV müssen Sie möglicherweise nicht. Wenn Sie lernen möchten, R richtig zu programmieren, sollten Sie sich auch eines dieser Bücher zulegen. Zu diesem Zeitpunkt haben Sie mindestens 4 Bücher. Es tut mir leid, aber so ist es. Keiner, der ausgiebig mit Statistiken arbeitet, hat nur ein Buch, das alles abdeckt.

gung - Setzen Sie Monica wieder ein
quelle
5

Ich glaube nicht, dass es ein solches Buch gibt. Das Buch, das meiner Meinung nach am nächsten kommt, ist die Datenanalyse von Gelman und Hill unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen .

Nachteile:

  • Es ist ~ 5 Jahre alt und richtet sich an Sozialwissenschaftler.

  • Ihre Inhaltsverzeichnisliste enthält nicht alle Informationen (keine räumlichen Informationen, im Grunde keine Informationen zu Zeitreihen usw.).

Vorteile:

  • Gut geschrieben

  • Es ist eine Liste von Errata und ein Inhaltsverzeichnis auf dem Link

  • Es behandelt wichtige Dinge wie fehlende Daten, die sich nicht in Ihrer nummerierten Liste befinden.

  • Es trifft die meisten Elemente auf Ihrer Aufzählungsliste.

  • Viele Grafiken und R-Code (einige Bugs-Code für die Multi-Level).

  • Alle Daten / Codes stehen zum Download zur Verfügung.

Dimitriy V. Masterov
quelle
4

Ich arbeite mich durch Elemente des statistischen Lernens . Dieses Buch deckt eine unglaubliche Bandbreite an Techniken ab (also mehr als 700 Seiten), aber jeder Ansatz wird auf sehr praktische und nicht auf hoch theoretische Weise erklärt. Es enthält nicht explizit etwas über R, jedoch sind die Darstellungen und Diagramme alle klar mit R erstellt und es gibt Pakete auf CRAN für alle diskutierten Themen. Die Autoren waren alle an der Entwicklung von R beteiligt (sowie an einem angemessenen Teil moderner maschineller Lerntechniken).

Bogdanovist
quelle
2
Es gibt sogar ein R-Paket für dieses Buch: ElemStatLearn :-)
chl
3

Ich stimmte der derzeit am häufigsten gewählten Antwort zu, dass MASS4 ziemlich gut zu der Anfrage passt und die gleiche Erfahrung hat wie ein anderer Befragter, der Schwierigkeiten hat, die Anforderung eines ziemlich hohen Niveaus an statistischer Raffinesse zu erfüllen. MASS3 war in der Tat mein erstes "Rbook" und es hat mir in dieser Eigenschaft ziemlich gut gedient. Ich habe Crawleys "The R Book" gekauft und fand es sowohl für eine ungenaue Beschreibung der R-Sprache als auch für eine Reihe von Beispielen, denen es anscheinend an Tiefe der statistischen Theorie mangelte, unbefriedigend.

Im Laufe der Zeit habe ich jedoch festgestellt, dass Harrells "Regression Modeling Strategies" (RMS) besser zum "biostatistischen" Schwerpunkt dieser Frage passt und eine gute Tiefe aufweist. Es ist kein Einführungstext zu R. Dafür muss man woanders hinschauen und dafür empfehle ich eine Einführung in das wissenschaftliche Programmieren und Simulieren mit R [ http://www.crcpress.com/product/isbn/9781420068726] oder (trotz Sein Name) "R for Dummies", geschrieben von einigen langjährigen Mitwirkenden an StackOverflows R-Posting-Tags. Ich habe RMS nur in seiner ersten Ausgabe, als es sich mehr auf S konzentrierte, aber seitdem hat Harrell auf R umgestellt und unterstützt das voll und ganzrms/HmiscR-Paket Duo. Ich glaube, es entspricht dem Vorschlag von @ gung, in mehreren der aufgelisteten Bereiche Spezialgebiete abzudecken, jedoch nicht für räumliche Analysen oder gemischte Modelle.

DWin
quelle
1
Ich kann RMS und MASS nur wärmstens empfehlen. Ich bin kein Biostatistiker, aber die meisten Ratschläge in Harrell sind viel allgemeiner. Ich bitte angehende Forschungsstudenten oft, Harrell oder zumindest Kapitel 4 zu lesen, und empfehle MASS dann oft als ein gutes allgemeines Buch, um sicherzugehen, dass sie mit ihm vertraut sind.
Glen_b -Reinstate Monica
Für das allgemeine Selbststudium nominiere ich Cox und Hinkleys "Theoretical Statistics" und Fellers 2 Band "Introduction to Probability Theory". Das geht aber offensichtlich nicht auf den R-Teil dieser Frage ein.
DWin
[Die Studenten, die ich betreue, sind in Bereichen außerhalb der Statistik tätig, obwohl ihre Arbeit ziemlich viel davon umfasst ... MASS und RMS sind für sie häufiger hilfreich als Cox und Hinkley und Feller Vol. 2, obwohl beide - zusammen mit Kendall und Stuart - waren sehr wertvoll für meine eigenen Hintergrund]
Glen_b -Reinstate Monica
2

Wenn Sie übersetzen möchten ... (dies ist ein Begleitbuch eines theoretischen Buches mit 4.900 Seiten):

Großes R-Buch

Dieses Buch (von dem ich Mitautor bin) ist eine Zusammenstellung von 15 Jahren Erfahrung in der Beratung und im Unterrichten von Studenten und Absolventen und zeigt nur Beispiele von R-Sachen, für deren Details der Mathematik (Beweise) auf meinen 4.900 Seiten angegeben sind Begleitbücher, in denen Berechnungen auch von Hand mit numerischen Werten durchgeführt werden (+500 Seiten, die in der nächsten Ausgabe verfügbar sein werden). Dieses Buch bietet auch die Möglichkeit zu überprüfen, ob die Software die richtigen Werte angibt, und es macht viel mehr Spaß, als Berechnungen von Hand oder in MS Excel über Fächer durchzuführen, die normalerweise in Kursen für Hochschulabsolventen an europäischen Schulen unterrichtet werden. In diesem Buch soll auch gezeigt werden, dass Sie 1 Software anstelle von vielen für dieselben Ergebnisse ohne Kosten verwenden können (anstatt JMP + Minitab + SPSS + SAS + MATLAB zusammen zu verwenden). Dieses Buch zeigt auch die Schwächen von R (Paketpflege nicht garantiert). Es ist auch ein Kompendium wertvoller Fragen in verschiedenen R-Foren und Blogs. Es ist kostenlos und in Farbe!

Vincent ISOZ
quelle
1
Können Sie auch die angeforderte "Kurzbewertung" abgeben? Warum empfehlen Sie dieses Buch? Was sind die guten (und schlechten) Dinge daran?
whuber
Ich bin einer der Co-Autor ... nicht sehr neutral für einen kurzen Rückblick ...
Vincent ISOZ
1
Das ist in Ordnung - wir wären dankbar, von Ihnen zu hören, was Ihrer Meinung nach die Stärken Ihres Buches sind oder wer davon profitieren würde. Indem Sie Ihre Verbindung zum Buch offenlegen (was von wesentlicher Bedeutung ist ), ermöglichen Sie es den Lesern, dies bei der Bewertung Ihrer Äußerungen zu berücksichtigen. Ich vermute, dass viele Leser verstehen würden, dass Sie sich mit diesem Buch bestens auskennen, und schätzen würden, was Sie sagen. Ohne eine Überprüfung müsste Ihre Antwort auf einen bloßen Kommentar verwiesen werden, der relativ wenig Beachtung finden würde.
whuber