Hintergrund
Es wird viel darüber diskutiert, daher dachte ich, ich könnte meine Antwort von früheren Schritten auf StackExchange finden und wütend googeln. Nachdem ich einen halben Tag lang versucht hatte, mit R nur ein Nachschlagewerk für (Bio-) Statistiken zu finden, war ich völlig verwirrt und musste aufgeben. Möglicherweise ist das kombinierte freie Material tatsächlich besser als jedes der Bücher, die Sie im Moment kaufen können. Lassen Sie es uns herausfinden.
Das Internet ist voll von guter freier Literatur für die R-Sprache , daher macht es keinen Sinn, für ein mittelmäßiges Buch zu bezahlen, das die meiste Zeit als Bürodekoration verwendet wird. Die R-Homepage listet Bücher zu R auf, von denen es viele gibt. Um genauer zu sein: 115. Nur einer von ihnen wird mit den Worten " Standalone Statistics Reference Book " beworben . Es ist jetzt 8 Jahre alt und möglicherweise veraltet. Die vierte Ausgabe von Modern Applied Statistics with S ist noch älter. Das R-Buch wird oft als zu einfach herausgekaut und aufgrund fehlender Referenzen, schlecht formatiertem Code und schlampiger Ausführung nicht empfohlen .
Ich suche jedoch ein Buch , das ich als eigenständige Referenz zur praktischen Statistik (in erster Linie) mit R (sekundär) verwenden könnte. Das Buch sollte auf meinem Schreibtisch liegen und Anmerkungen, Kaffeeflecken und fettige Fingerabdrücke anstelle von Staub auf dem Bücherregal sammeln. Es sollte die Sammlung von kostenlosen PDFs ersetzen, die ich bisher verwendet habe, nicht zu vergessen, dass R mit einer ausgezeichneten Referenzbibliothek geliefert wird. „ Was ist der richtige Ansatz? "," Warum? "und" technisch, wie geht das? "sind oft brennendere Fragen als" wie geht das mit R? "
Da ich Ökologe bin, interessieren mich vor allem Anwendungen in der Biostatistik. Da diese Dinge jedoch häufig miteinander verbunden sind, wäre eine interdisziplinäre allgemeine Bezugnahme für mich am wertvollsten.
Die Aufgabe
Wenn es ein solches Buch gibt (ich bezweifle es), geben Sie bitte den Namen des Buches (nur eines pro Antwort) und eine kurze Rezension des Buches an, in der erläutert wird, warum es als Nachschlagewerk für das Thema genannt werden sollte. Da diese Frage nicht sehr unterschiedlich ist, verwenden Sie bitte dieses Profil für Ihre Antwort. Sie können auch Fehler des Buches auflisten, damit wir diese als Merkmale für das ideale Nachschlagewerk auflisten können.
Meine Frage ist, was sollte das Nachschlagewerk für Statistiken (der am häufigsten verwendeten Arten) mit R enthalten?
Einige erste Gedanken sind folgende allgemeine Merkmale (bitte aktualisieren):
- Dick wie ein Ziegelstein
- Prägnant, aber verständlich
- Mit Zahlen gefüllt (mit dem R-Code versehen)
- Leicht verständliche Tabellen und Diagramme, die die wichtigsten Details aus dem Text beschreiben
- Leicht verständlicher, beschreibender Text zu den Statistiken / Methoden mit den wichtigsten Gleichungen.
- Gute Beispiele für jeden Ansatz (mit R-Code)
- Umfangreiche und aktuelle Referenzliste
- Minimale Anzahl von Tippfehlern
Inhaltsverzeichnis
Da ich kein Statistiker bin und dieses (nicht existierende?) Buch zur Beantwortung der Frage benötigen würde, fällt es mir schwer, über den Inhalt zu schreiben. Da das R-Buch eindeutig das Nachschlagewerk für Statistiken mit R sein soll, aber häufig kritisiert wird, habe ich das Inhaltsverzeichnis aus dem Buch als Ausgangspunkt für das Inhaltsverzeichnis für das eigenständige R-Statistik-Nachschlagewerk kopiert. Zusätzliche Aufgabe: Bitte geben Sie Ergänzungen, Vorschläge, Löschungen usw. für das Inhaltsverzeichnis an.
- Loslegen
- Grundlagen der R-Sprache
- Dateneingabe
- Datenrahmen
- Grafik
- Tabellen
- Mathematik
- Klassische Tests
- Statistische Modellierung
- Regression
- Varianzanalyse
- Analyse der Kovarianz
- Verallgemeinerte lineare Modelle
- Daten zählen
- Daten in Tabellen zählen
- Proportionsdaten
- Binäre Antwortvariablen
- Verallgemeinerte additive Modelle
- Modelle mit gemischten Effekten
- Nichtlineare Regression
- Baummodelle
- Zeitreihenanalyse
- Multivariate Statistik
- Raumstatistik
- Überlebensanalyse
- Simulationsmodelle
- Ändern des Aussehens von Grafiken
- Referenzen und weiterführende Literatur
- Index
Was wurde früher gesagt?
StackExhange enthält mehrere Schritte, in denen Statistiken und Vorschläge für R-Bücher abgefragt werden. Bücher zum Erlernen der R-Sprache fragt nach einem Nachschlagewerk zum Erlernen der R-Sprache ohne Statistikaspekt. Die Kunst der R-Programmierung wird als der beste einzelne Vorschlag eingestuft. Book to Learn Statistics mit R fragt nach einem idealen Einführungsbuch für Statistiken, das nicht mit einem Nachschlagewerk identisch ist. Open - Source - Statistiklehrbücher Reihen Multivariate Statistik mit R als die beste Alternative. Welches Buch würden Sie nicht-statistischen Wissenschaftlern empfehlen? fragt nach dem besten Statistik-Nachschlagewerk ohne Angabe des Programms Ihrer Wahl.Referenz oder Buch zur Simulation experimenteller Konstruktionsdaten in R- Scores, die meiner Frage vielleicht am nächsten kommen. Einführung in das wissenschaftliche Programmieren und Simulieren mit R ist hier das am meisten empfohlene Buch und könnte dem nahe kommen, wonach ich suche. Dieses Buch wird jedoch auch nicht als einziges Nachschlagewerk für Statistiken mit R ausreichen.
Einige Vorschläge für das Nachschlagewerk und ihre Mängel
R in Action hat bessere Kritiken erhalten als The R Book, ist aber anscheinend eher einleitend .
Biostatistisches Design und Analyse unter Verwendung von R: Ein praktischer Leitfaden ist vielleicht genau das, wonach ich suche. Es hat eine gute Bewertung erhalten , aber anscheinend enthält auch diese viele Tippfehler. Darüber hinaus konzentriert sich dieses Buch nicht auf die Erklärung von Statistiken, sondern liefert statistische Analysen als vorgefertigte Rezepte für Forscher.
Ökologische Modelle und Daten in R überspringen die Einführungsebene. Dies ist eine sehr nützliche Funktion, da das Wort "Einführung" 43 Vorkommen in der R-Book-Liste aufweist , aber vielleicht nicht ganz zufriedenstellend ist, wenn wir nach dem Nachschlagewerk für Statistiken suchen ...?
Einführung in die wissenschaftliche Programmierung und Simulation mit R wurde sehr positiv bewertet , ist jedoch auf die Datensimulation beschränkt.
Richiemorrisroe schlägt vor, dass Modern Applied Statistics with S für ein eigenständiges Statistik-Nachschlagewerk mit R ausreicht. Dieses Buch hat hervorragende Rezensionen erhalten ( 1 , 2 ) und ist im Moment wahrscheinlich der beste Kandidat für den Titel? Die neueste Version ist vor 10 Jahren erschienen, was angesichts der Programmentwicklung eine ziemlich lange Zeit ist.
Dimitriy V. Masterov schlägt eine Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen vor . Ich habe dieses Buch noch nicht ausgecheckt.
Nach dem Lesen vieler Buchbesprechungen scheint es offensichtlich, dass das hier angeforderte perfekte Buch noch nicht existiert. Es ist jedoch vielleicht möglich, eine zu wählen, die ziemlich nahe ist. Dieses Profil ist als Community-Wiki für Statistikbenutzer gedacht, um das beste existierende Nachschlagewerk zu finden, und als Motivation für die neuen und alten Buchautoren, ihre Arbeit zu verbessern.
quelle
Antworten:
Ich persönlich war der Meinung, dass Modern Applied Statistics mit S-Plus alle von Ihnen genannten Kriterien erfüllt. Jedes Beispiel hat R-Code, sie geben gute Verweise auf andere Quellen, und Venables und Ripley haben einen wunderbar knappen und erklärenden Schreibstil, den ich sehr geschätzt habe. Ich neige dazu, das Buch immer wieder neu zu lesen und jedes Mal, wenn ich mehr davon bekomme. Natürlich kann Ihr Kilometerstand variieren.
quelle
Vielen Dank für eine so gute Frage und speziell für das Zusammenstellen all dieser Informationen. Leider existiert das Buch, das Sie beschreiben, nicht, und um ehrlich zu sein, konnte es unmöglich existieren. Wenn Sie in erster Linie ein Nachschlagewerk für Statistiken wollen, würde ich mit einem wirklich guten Buch über lineare Modelle beginnen. Meine Empfehlung ist Kutner et alEs erfüllt die Kriterien, in Bezug auf Volumen und Masse größer als ein Ziegelstein zu sein, ist sehr umfassend, klar und enthält viele Beispiele. In der Tat, wenn Sie die R-Anforderung eliminieren, tickt es so ziemlich Ihre ganze Liste. Ich beziehe mich oft darauf. In ~ 1500 Seiten werden jedoch so ziemlich nur lineare Modelle behandelt - dh Regression und ANOVA - es gibt einige kurze Kapitel zu ein paar anderen Themen, aber Sie werden wirklich andere Bücher dafür wollen. Als nächstes würde ich ein erstklassiges statistisches Nachschlagewerk erhalten, das auf der für Sie geeigneten Ebene für alle anderen Techniken verfügbar ist, mit denen Sie möglicherweise arbeiten müssen (z. B. Überlebensanalyse, räumliche Analyse usw.). Wenn diese Bücher kein R für ihre Beispiele verwenden, möchten Sie möglicherweise ein R-spezifisches Buch erhalten, wie eines der use-R! Bücher, aber zwischen der Dokumentation, den Vignetten, den R-Hilfe-Mailinglisten, StackOverflow und CV müssen Sie möglicherweise nicht. Wenn Sie lernen möchten, R richtig zu programmieren, sollten Sie sich auch eines dieser Bücher zulegen. Zu diesem Zeitpunkt haben Sie mindestens 4 Bücher. Es tut mir leid, aber so ist es. Keiner, der ausgiebig mit Statistiken arbeitet, hat nur ein Buch, das alles abdeckt.
quelle
Ich glaube nicht, dass es ein solches Buch gibt. Das Buch, das meiner Meinung nach am nächsten kommt, ist die Datenanalyse von Gelman und Hill unter Verwendung von Regression und mehrstufigen / hierarchischen Modellen .
Nachteile:
Es ist ~ 5 Jahre alt und richtet sich an Sozialwissenschaftler.
Ihre Inhaltsverzeichnisliste enthält nicht alle Informationen (keine räumlichen Informationen, im Grunde keine Informationen zu Zeitreihen usw.).
Vorteile:
Gut geschrieben
Es ist eine Liste von Errata und ein Inhaltsverzeichnis auf dem Link
Es behandelt wichtige Dinge wie fehlende Daten, die sich nicht in Ihrer nummerierten Liste befinden.
Es trifft die meisten Elemente auf Ihrer Aufzählungsliste.
Viele Grafiken und R-Code (einige Bugs-Code für die Multi-Level).
Alle Daten / Codes stehen zum Download zur Verfügung.
quelle
Ich arbeite mich durch Elemente des statistischen Lernens . Dieses Buch deckt eine unglaubliche Bandbreite an Techniken ab (also mehr als 700 Seiten), aber jeder Ansatz wird auf sehr praktische und nicht auf hoch theoretische Weise erklärt. Es enthält nicht explizit etwas über R, jedoch sind die Darstellungen und Diagramme alle klar mit R erstellt und es gibt Pakete auf CRAN für alle diskutierten Themen. Die Autoren waren alle an der Entwicklung von R beteiligt (sowie an einem angemessenen Teil moderner maschineller Lerntechniken).
quelle
Ich stimmte der derzeit am häufigsten gewählten Antwort zu, dass MASS4 ziemlich gut zu der Anfrage passt und die gleiche Erfahrung hat wie ein anderer Befragter, der Schwierigkeiten hat, die Anforderung eines ziemlich hohen Niveaus an statistischer Raffinesse zu erfüllen. MASS3 war in der Tat mein erstes "Rbook" und es hat mir in dieser Eigenschaft ziemlich gut gedient. Ich habe Crawleys "The R Book" gekauft und fand es sowohl für eine ungenaue Beschreibung der R-Sprache als auch für eine Reihe von Beispielen, denen es anscheinend an Tiefe der statistischen Theorie mangelte, unbefriedigend.
Im Laufe der Zeit habe ich jedoch festgestellt, dass Harrells "Regression Modeling Strategies" (RMS) besser zum "biostatistischen" Schwerpunkt dieser Frage passt und eine gute Tiefe aufweist. Es ist kein Einführungstext zu R. Dafür muss man woanders hinschauen und dafür empfehle ich eine Einführung in das wissenschaftliche Programmieren und Simulieren mit R [ http://www.crcpress.com/product/isbn/9781420068726] oder (trotz Sein Name) "R for Dummies", geschrieben von einigen langjährigen Mitwirkenden an StackOverflows R-Posting-Tags. Ich habe RMS nur in seiner ersten Ausgabe, als es sich mehr auf S konzentrierte, aber seitdem hat Harrell auf R umgestellt und unterstützt das voll und ganz
rms/Hmisc
R-Paket Duo. Ich glaube, es entspricht dem Vorschlag von @ gung, in mehreren der aufgelisteten Bereiche Spezialgebiete abzudecken, jedoch nicht für räumliche Analysen oder gemischte Modelle.quelle
Wenn Sie übersetzen möchten ... (dies ist ein Begleitbuch eines theoretischen Buches mit 4.900 Seiten):
Großes R-Buch
Dieses Buch (von dem ich Mitautor bin) ist eine Zusammenstellung von 15 Jahren Erfahrung in der Beratung und im Unterrichten von Studenten und Absolventen und zeigt nur Beispiele von R-Sachen, für deren Details der Mathematik (Beweise) auf meinen 4.900 Seiten angegeben sind Begleitbücher, in denen Berechnungen auch von Hand mit numerischen Werten durchgeführt werden (+500 Seiten, die in der nächsten Ausgabe verfügbar sein werden). Dieses Buch bietet auch die Möglichkeit zu überprüfen, ob die Software die richtigen Werte angibt, und es macht viel mehr Spaß, als Berechnungen von Hand oder in MS Excel über Fächer durchzuführen, die normalerweise in Kursen für Hochschulabsolventen an europäischen Schulen unterrichtet werden. In diesem Buch soll auch gezeigt werden, dass Sie 1 Software anstelle von vielen für dieselben Ergebnisse ohne Kosten verwenden können (anstatt JMP + Minitab + SPSS + SAS + MATLAB zusammen zu verwenden). Dieses Buch zeigt auch die Schwächen von R (Paketpflege nicht garantiert). Es ist auch ein Kompendium wertvoller Fragen in verschiedenen R-Foren und Blogs. Es ist kostenlos und in Farbe!
quelle