Ich bin ein arbeitender Datenwissenschaftler mit solider Erfahrung in Regression, anderen Algorithmen vom Typ maschinelles Lernen und Programmierung (sowohl für die Datenanalyse als auch für die allgemeine Softwareentwicklung). Der größte Teil meines Arbeitslebens konzentrierte sich auf das Erstellen von Modellen für die Vorhersagegenauigkeit (Arbeiten unter verschiedenen geschäftlichen Bedingungen) und das Erstellen von Datenpipelines zur Unterstützung meiner eigenen (und der anderer) Arbeit.
Ich habe keine formale Ausbildung in Statistik, meine Universitätsausbildung konzentrierte sich auf reine Mathematik. Als solche haben viele der klassischen Themen, insbesondere die verschiedenen populären Hypothesentests und Inferenztechniken, nicht gelernt.
Gibt es Referenzen zu diesen Themen, die für jemanden mit meinem Hintergrund und meiner Erfahrung geeignet wären? Ich kann mit mathematischer Strenge umgehen (und sie schätzen) und auch algorithmische Perspektiven genießen. Ich neige dazu, Referenzen zu mögen, die dem Leser geführte Übungen anbieten, mit sowohl (oder entweder) einem mathematischen als auch (oder) Programmierfokus.
quelle
Antworten:
Larry Wassermans All of Statistics ist ein schönes Buch für eine Wirbelwind-Tour durch mathematische Statistiken. Es war das erste Buch über mathematische Statistik, das ich selbst verwendet habe. Es enthält die Klassiker wie Hypothesentests und Maximum-Likelihood-Schätzungen, bietet aber auch zahlreiche neuere, aber ebenso wichtige Themen wie Bootstrapping. Wasserman hat immer einen Fuß in der Statistik und den anderen Fuß im maschinellen Lernen, was meiner Meinung nach alle zeitgenössischen Datenanalysten tun sollten. Wenn Sie nur mit einem der beiden Bereiche vertraut sind, werden Sie viel vermissen. Das Buch enthält auch viele gute Übungen.
Wenn Sie einen Hintergrund in der realen Analyse haben und das rohe, ungeschnittene Zeug wollen, womit ich eine messungstheoretische Behandlung von Wahrscheinlichkeit und Statistik meine, versuchen Sie Mark J. Schervishs Theorie der Statistik . Schervish ist die Hälfte von DeGroot und Schervish, deren weniger technisches Buch Probability and Statistics heute vielleicht das beliebteste Buch zur mathematischen Statistik ist. Theory of Statistics ist ein hilfreiches, gesprächiges Buch zu einem Thema, das normalerweise Doktoranden vorbehalten ist, die die ganze Arbeit selbst erledigen sollen. Um ganz ehrlich zu sein, fand ich dieses Buch sehr schwierig (obwohl nicht so schwer wie Jun Shaos mathematische Statistik) und bekam schließlich das Gefühl, dass die immense Anstrengung, die erforderlich war, um es zu meistern, meine Zeit als Analyst für angewandte Daten nicht gut nutzte. Aber ich habe noch viel gelernt und ein gutes Verständnis dafür gewonnen, was Maßtheorie ist und wie sie verwendet werden kann, um haarige theoretische Schwierigkeiten zu beseitigen, die sich aus dem naiveren traditionellen Ansatz der Wahrscheinlichkeitstheorie ergeben. Ich habe auch die Ähnlichkeiten und Unterschiede zwischen Austauschbarkeit und Unabhängigkeit besser erkannt.
quelle
Neben den sehr guten Vorschlägen des Kodiologen (+1) würde ich auch empfehlen, sich mit dem Thema Beobachtungsstudien zu befassen . Ich denke, es ist ein sehr unbeachtetes Feld zwischen Datenwissenschaftlern, obwohl die analysierten Daten in vielen Fällen beobachtenden Charakter haben. Ich denke, das liegt daran, dass der Großteil der Bibliographie (insbesondere in der Biostatistik) davon ausgeht, dass zumindest ein quasi-experimentelles Design bereits vorhanden ist. Paul Rosenbaums Bücher Observational Studies und Design of Observational Studies sind einige der am häufigsten verwendeten Referenzen.
quelle