Bücher über die "Wissenschaft" in Data Science? [geschlossen]

26

Was sind die Bücher über die Wissenschaft und Mathematik hinter der Datenwissenschaft? Es fühlt sich so an, als würden so viele "Data Science" -Bücher Tutorials programmieren und Dinge wie Datenerzeugungsprozesse und statistische Schlussfolgerungen nicht berühren. Ich kann bereits codieren, was ich schwach bin, ist die Mathematik / Statistik / Theorie hinter dem, was ich tue.

Was kann ich kaufen, wenn ich bereit bin, 1000 Dollar in Bücher zu stecken (also ungefähr 10 Bücher ... Seufzer)?

Beispiele: Agrestis kategoriale Datenanalyse , lineare gemischte Modelle für Längsschnittdaten , etc ... etc ...

Anton
quelle
Fragen nach "guten" Büchern ziehen meinungsbasierte Antworten an und sind daher nicht themenbezogen. Gekennzeichnet.
Spacedman
3
Ich habe es geändert, also suche ich nur nach Büchern. Nichts meinungsbasiertes.
Anton
Es heißt Statistik :) Bleiben Sie bei etwas Pragmatischem, das sich eher auf Vorhersage als auf Schlussfolgerung konzentriert. Beide Elemente des statistischen Lernens und eine Einführung in das statistische Lernen stehen auf den Listen der meisten Menschen.
Dirk Eddelbuettel
Ich kann noch keinen Kommentar
abgeben
1
Ich denke, diese Frage sollte als Community-Wiki markiert werden.
Shagun Sodhani

Antworten:

21

Einleitend:

Tiefer Graben:

Einige interessante Beispiele:

Weiterführende Nachschlagewerke zum maschinellen Lernen (nicht wirklich das, wonach Sie gefragt haben, aber zur Vollständigkeit):

Bonuspapier:

Def_Os
quelle
2
+1 für das Bonuspapier. Großartige Lektüre
Santiago Cepas
13

Wenn ich Ihnen nur eines empfehlen könnte, wäre es: Die Elemente des statistischen Lernens und der Vorhersage von Hastie, Tibshirani und Friedman. Es bietet die Mathematik / Statistik hinter vielen allgemein verwendeten Techniken in der Datenwissenschaft.

Für Bayesianische Techniken ist die Bayesianische Datenanalyse von Gelman, Carlin, Stern, Dunson, Vehtari und Rubin ausgezeichnet.

Statistical Inference von Casella und Berger ist ein gutes Lehrbuch für Hochschulabsolventen über die theoretischen Grundlagen der Statistik. Dieses Buch erfordert ein ziemlich hohes Maß an Komfort in Mathematik (die Wahrscheinlichkeitstheorie basiert auf der Maßtheorie, die nicht trivial zu verstehen ist).

In Bezug auf Datenerzeugungsprozesse habe ich keine Empfehlung für ein Buch. Was ich sagen kann, ist, dass ein gutes Verständnis der Annahmen der verwendeten Techniken und die Sicherstellung, dass die Daten in einer Weise gesammelt oder generiert wurden, die diese Annahmen nicht verletzt, einen großen Beitrag zu einer guten Analyse leisten.

Christopher Louden
quelle
7

Andere Antworten empfahlen eine Reihe guter Bücher über die Mathematik hinter den Datenwissenschaften. Aber wie Sie bereits erwähnt haben nicht nur Mathematik und Aktivitäten wie das Sammeln und Ableiten von Daten ihre eigenen Regeln und Theorien, auch wenn sie (noch) nicht so streng sind wie der mathematische Hintergrund.

Für diese Teile schlage ich das Buch Schöne Daten: Die Geschichten hinter eleganten Datenlösungen vor, das zwanzig Fallstudien wie Kapitel enthält, die von Menschen verfasst wurden, die sich wirklich mit Problemen der Datenanalyse in der realen Welt beschäftigen. Es enthält keine Mathematik, sondern untersucht Bereiche wie das Sammeln von Daten, das Auffinden praktischer Möglichkeiten für die Verwendung von Daten in Analysen, das Skalieren und das Auswählen der besten Lösungen.

Ein weiteres wirklich interessantes Buch ist Thinking with Data: Wie man Informationen in Einsichten umwandelt. Dies ist ebenfalls kein technisches (= Programmier-Tutorial), sondern behandelt wichtige Themen, wie man die datenwissenschaftliche Kraft in Entscheidungsprozessen und Problemen der realen Welt wirklich nutzt.

Amir Ali Akbari
quelle
7

Ich mag die Vorschläge von Amir Ali Akbari, und ich füge einige meiner eigenen hinzu, wobei ich mich auf Themen und Fähigkeiten konzentriere, die in den meisten Büchern über maschinelles Lernen und Datenanalyse, die sich auf Mathematik und / oder Programmierung konzentrieren, nicht ausreichend behandelt werden.

Datenreinigung:

Bayesian Data Analysis (Alternative zum Fisher-Style-Nullhypothesen-Signifikanztest):

Schlussfolgerung angesichts von Unsicherheit, Unvollständigkeit, Widersprüchen, Mehrdeutigkeit, Ungenauigkeit, Unwissenheit usw .:

Experimente:

Simulation:

Expertenermittlung, probabilistische Abschätzung:

MrMeritology
quelle