Wo fange ich mit Statistiken für einen erfahrenen Entwickler an?

47

In der ersten Jahreshälfte 2015 habe ich den Coursera-Kurs für maschinelles Lernen (von Andrew Ng, GREAT-Kurs) absolviert. Und lernte die Grundlagen des maschinellen Lernens (lineare Regression, logistische Regression, SVM, Neuronale Netze ...)

Außerdem bin ich seit 10 Jahren Entwickler, sodass das Erlernen einer neuen Programmiersprache kein Problem darstellt.

In letzter Zeit habe ich angefangen, R zu lernen, um Algorithmen für maschinelles Lernen zu implementieren.

Ich habe jedoch festgestellt, dass ich, wenn ich weiterlernen möchte, formellere Kenntnisse der Statistik benötigen werde, derzeit jedoch nicht formell, aber so eingeschränkt, dass ich zum Beispiel nicht richtig bestimmen konnte, welches von mehreren linearen Modellen ich benötige wäre besser (normalerweise benutze ich dafür R-Quadrat, aber anscheinend ist das keine sehr gute Idee).

Mir scheint es ziemlich offensichtlich, dass ich die Grundlagen der Statistik lernen muss (ich habe das in Uni studiert, aber das meiste vergessen). Wo soll ich lernen, bitte beachte, dass ich nicht wirklich einen vollständigen Kurs brauche, sondern nur etwas Das erlaubt mir innerhalb eines Monats genug zu wissen, so dass ich eifrig werden und mehr lernen kann :).

Bisher habe ich über " Statistik ohne Tränen " noch einen anderen Vorschlag gelesen ?

Juan Antonio Gomez Moriano
quelle
2
Für Statistik: Casella, G. und RL Berger (2002): Statistical Inference, Duxbury. Für Ökonometrie: Hayashi, F. (2000): Ökonometrie, Princeton University Press. Für einen anderen Standpunkt: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
Ich habe den referencesTag hinzugefügt . Möglicherweise möchten Sie die erste Seite der Treffer zu diesem Thema durchsuchen.
Glen_b
3
Ich sehe nicht, dass dies geschlossen werden sollte. Ich sehe jedoch ein Argument dafür, dass es CW ist.
gung - Wiedereinsetzung von Monica
2
Aus meiner Sicht ist das Wissen voreingenommen, wenn Sie anfangen, Statistik zu lernen, ohne vorher mit Wahrscheinlichkeitstheorien vertraut zu sein.
Metariat
2
Ich möchte ein warnendes Wort hinzufügen. Ich bin mir sicher, dass Sie dies bereits zu einem gewissen Grad verstehen, aber ich möchte es nur sagen. Ich bin ein Doktorand. Mit meinem MD-Abschluss plane ich, innere Medizin zu praktizieren. Für meine Promotion studiere ich Biostatistik. Ich möchte, dass Sie wissen, dass Sie in einem Monat nicht mehr als in einem Monat die Statistik beherrschen können. Ich versuche keineswegs, Sie davon abzuhalten, Statistiken zu lernen. Im Gegenteil, ich hoffe, Sie verstehen es großartig. Aber verstehen Sie, dass es nicht weniger wichtig ist, als zum Beispiel Entwickler sein zu wollen.
Vincent Laufer

Antworten:

26

Ich würde Ihnen eine grundlegende Roadmap vorschlagen, wie Sie vorgehen sollen:

Bonus:

Eine wunderbare Site für solche Roadmaps ist die Metacademy , die ich persönlich als eine der besten Data Science-Ressourcen im Web bezeichnen würde.

Gitxiv ist eine weitere schöne Site, die die Arxiv-Forschungsberichte zu Data Science mit den relevanten Open-Source-Implementierungen / Bibliotheken verbindet.

Dawny33
quelle
2
OP hat Ngs Kurs bereits belegt, weshalb er die Frage gestellt hat.
Aksakal,
4
@Aksakal Ich habe es bemerkt. Aber es wurde als Teil der Roadmap aufgenommen. Würde nicht wirklich einen Unterschied machen, also dachte ich, es würde anderen helfen, die diesen Beitrag lesen.
Dawny33
12

Haben Sie Think Stats oder Think Bayes ausgecheckt? Es handelt sich um (kostenlose) Statistikbücher für Programmierer mit viel Python-Code.

Auch, wenn Sie in das Lernen interessiert sind , R dann CRAN hat eine Menge (kostenlos) pdfs , dass Sie prüfen möchten, wie Einführung in die Wahrscheinlichkeitsrechnung und Statistik Mit R . Es gibt auch einen Coursera-Kurs , der R verwendet, den viele Leute wirklich lieben (sie verwenden dieses Lehrbuch , das Sie vielleicht auch lesen möchten , und ich glaube , sie haben Labs zu DataCamp ).

Wenn Sie ein paar Stats-Themen auffrischen möchten, können Sie sich immer ein paar Videos auf Khan Academy ansehen .

Steve S
quelle
Ich mag Think Stats und Think Bayes, aber sie meiden bewusst einen Großteil der formalen statistischen Theorie, um Dinge durch Code zu erledigen. Hervorragend geeignet, um das Thema intuitiv zu erfassen, aber nicht so gut, wenn Sie die zugrunde liegende Theorie verstehen möchten.
Marius,
@Marius: Ich weiß was du meinst. Ich dachte jedoch, weil er bereits Programmierer ist und weil er "etwas Kleines, Einfaches und Schnelles" zu wollen schien, dass es mehr sein könnte, wonach er sucht.
Steve S
8

Wenn Sie jemals in der Vergangenheit in der Lage waren, Probleme in dieser Liste zu lösen , sollten Sie versuchen, die angewandten Statistiken "richtig" zu studieren . Ich gebe Ihnen einen einfachen zweistufigen Algorithmus.

Machen Sie sich zunächst mit der Wahrscheinlichkeitstheorie vertraut. Es gibt viele großartige Bücher. Mein Favorit ist der Klassiker von Feller. Es heißt "Einführung", aber lassen Sie sich nicht vom Titel täuschen, es ist so tief, wie Sie es wollen, und doch sehr gut geschrieben und einfach, wenn Sie nur die Oberfläche überfliegen wollen.

Der zweite Schritt ist die Statistik. Wieder gibt es eine Menge großartiger Bücher. Ich gebe Ihnen einen, den ich benutzt habe, einen anständigen Intro-Text von Gujarati "Basic Econometrics", 4. Auflage. Ökonometrie ist eine Statistik, die auf die Wirtschaft angewendet wird . Als Referenz ist Hal Varian, ein Berkeley-Ökonom , ein Typ, von dem jeder denkt, dass er in den nächsten 10 Jahren ein sexy Job für Datenwissenschaftler sein wird. Viele maschinelle Lerninhalte basieren auf grundlegenden Statistiken, Regressionen usw. Alles, was in diesem Buch behandelt wird, und Sie müssen nicht alles lesen, es ist so geschrieben, dass Sie Kapitel in Ihrer eigenen Reihenfolge auswählen können.

Sie werden überrascht sein, wie viele Lücken offen bleiben, nachdem Ngs Klasse sich beim Lesen dieser Texte schnell ausgefüllt hat.

Als Praktiker brauchen Sie nach diesen beiden Schritten nicht zu viel Theorie. Sie können weiterhin ML-Techniken lernen, indem Sie die Bücher in diesem Bereich lesen. Es ist wichtig, am Anfang nicht zu tief in die Wahrscheinlichkeiten und Statistiken einzudringen. Holen Sie sich Ihren Code für ML zuerst und füllen Sie die Lücken, wie Sie gehen.

Aksakal
quelle
4

Jeder empfiehlt Casella & Berger, das fast überall in Statistikprogrammen für Hochschulabsolventen verwendet wird. Es ist kein schlechtes Nachschlagewerk, aber ich bin mir nicht sicher, ob ich mehr tun würde, als die ersten 4-5 Kapitel zu scannen. Ich glaube nicht, dass Sie die Theorie brauchen, wie man einen Neyman-Pearson-Typentest erstellt, bevor Sie sich mit "Statistiken", dh Datenanalysen, befassen.

Stattdessen würde ich mich auf Lernmethoden konzentrieren. Mein Abschlussprogramm verwendete für die Frequentistentests Angewandte Lineare Statistische Methoden , und es ist eine ziemlich anständige, umfassende Referenz, aber vom Standpunkt des Autodidakts aus vielleicht nicht das zugänglichste Buch. Ein oder zwei Kurse von MIT oder coursera sind möglicherweise der bessere Einstieg, da Sie einen breiteren Überblick mit mehr Beispielen erhalten, als wenn Sie ein Buch lesen.

Für Bayes ist das Buch, das ich am häufigsten gesehen habe, die Bayesianische Datenanalyse , die mit Welpenbildern geliefert wird (dies macht das Buch eindeutig besser als andere Bayesianische Einführungslehrbücher). Ich habe das Buch selbst nie benutzt, aber ich habe es durchgesehen und es scheint ziemlich anständig zu sein - viel besser als Gelmans Buch, das ich nach zwei Klassen in der Bayes'schen Statistik etwas unverständlich fand - die Erklärungen sind schrecklich.

srvanderplas
quelle
1
Die ersten 5 Kapitel von C & B sind eigentlich gar keine Statistiken, eher Hintergrundinformationen ... Das Konzept einer Statistik wird am Anfang von Kapitel 6 angesprochen! Genauer gesagt, werden Lernmethoden dieser bestimmten Person wahrscheinlich nicht helfen. es würde ihm helfen, Statistiken anzuwenden, nicht zu verstehen, was er braucht. Wenn er ein fortgeschrittenes mathematisches Training hat, kann er es wahrscheinlich bis zu einem gewissen Grad überspringen, aber seine Antwort legt nahe, dass er derzeit die Grundlagen von ML nicht verstehen kann ... was stark darauf hindeutet, dass seine Mathematik einschränkend ist (zumindest für mich). C & B ist vielleicht kein schlechter Ausgangspunkt.
Vincent Laufer
1
Sie sind möglicherweise keine Statistiken, aber der Hintergrund der Wahrscheinlichkeitsverteilungen ist für jede Art von Modellierung von entscheidender Bedeutung. Sie müssen wissen, was eine Bernoulli-Verteilung ist und welche Eigenschaften sie hat, bevor Sie beispielsweise die logistische Regression verstehen können. Ich beziehe mich gelegentlich immer noch auf C & B, aber ich glaube, ich habe nie etwas anderes als Kapitel 6 außerhalb der Klasse verwendet, in der ich dieses Buch gelesen habe.
Srvanderplas
1
Ich stimme dem zu, was Sie gesagt haben, aber es bezieht sich auf den Exkurs anstatt auf den Hauptpunkt - was meine Schuld ist, den Exkurs überhaupt hinzuzufügen. Auf jeden Fall geht es darum, wie mehrere andere vorgeschlagen haben, dass OP tatsächlich ein besseres Verständnis der theoretischen Mathematik und Statistik erlangen muss. Nein, wo im Beitrag steht, dass er Hilfe bei der Anwendung weiterer statistischer Tests benötigt. das kann er. er möchte sie tiefer verstehen. Dafür ist C & B besser, als mehr über anwendungsorientierte Vorbereitung zu lernen.
Vincent Laufer
3

Dies ist keine vollständige Antwort, sondern lediglich ein Vorschlag. Wenn Sie mehr über Statistiken (die Grundlage) erfahren möchten, können Sie lesen:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Dies ist ein hübsches Standardbuch für Statistiker und es hat viele interessante Ergebnisse. Sie müssen nicht alle Beweise der Theoreme durchgehen, aber Sie möchten vielleicht einige Übungen machen, um sich mit den Ergebnissen sicherer zu fühlen.

Wenn Sie mehr über Ökonometrie (Modelle für Daten) erfahren möchten, schauen Sie sich Folgendes an:

Hayashi, F. (2000): Econometrics, Princeton University Press

Jemand anderes fragte tatsächlich etwas Ähnliches, was Sie gefragt und bekam eine schöne Antwort: Was nach „Casella & Berger“ zu tun .

Wenn Sie wirklich vorhaben, diese Bücher zu lesen, kann Ihnen dieser Lehrplan eines Ökonometrie-Kurses eine recht gute Richtung und ein gutes Tempo dafür geben, was zu lesen ist (CB & Hayashi) und wann zu lesen ist.

Guilherme Salomé
quelle
Vielen Dank für den Vorschlag, aber das erste Buch, das Sie erwähnen, hat ungefähr 660 Seiten ... Ich habe größere Bücher gelesen, aber gibt es etwas Kleines, Einfaches und Schnelles, damit ich ein grundlegendes Verständnis davon bekomme?
Juan Antonio Gomez Moriano
3
Casella und Berger geben Ihnen einen kleinen Einblick in die Theorie der Statistik, aber Sie werden nur sehr wenig über die Datenanalyse lernen.
Glen_b
1
@JuanAntonioGomezMoriano Wie klein warst du danach? Ich war schon immer ein Fan von Wie man mit Statistiken als Ausgangspunkt lügt .
icc97
(-1) Das klingt nach einer perfekten Wahl für jemanden, der einen mathematischen oder theoretischen Ansatz für die Statistik bevorzugt, so ziemlich das Gegenteil von dem, was das OP gefordert hat.
Gala
1
Er sagte, dass er ein "formelleres" Wissen und Grundkenntnisse über Statistik benötige.
Guilherme Salomé
2

Ich würde ein neues Buch vorschlagen, das seit der ursprünglichen Frage herausgekommen ist: Statistisches Umdenken: Ein Bayesianischer Kurs mit Beispielen in R und Stan von Richard McElreath, CRC Press.

Es ist sehr gut geschrieben und verwendet einen Bayes'schen Ansatz. Es ist sehr interaktiv, und Sie möchten die Probleme lösen, da Sie sonst auf halbem Weg sind und sich verlaufen.

Es fängt sehr einfach an und endet mit Mehrebenenmodellen. Es richtet sich an ziemlich fortgeschrittene Wissenschaftler, die über statistische Kenntnisse verfügen, sich aber mit Statistiken, wie sie ihnen vermittelt wurden, insgesamt nicht wohl fühlen. Ich kann also nicht genau sagen, dass es ein Anfängerbuch ist, aber es fängt sehr einfach an und er hat einen wunderbaren Bogen und Stil.

Der "Stan" -Teil des Titels ist ein allgemeines Bayes'sches Sampling-Tool. Im Wesentlichen handelt es sich um eine Programmiersprache, die automatisch in C ++ kompiliert und dann in eine ausführbare Datei kompiliert wird. (Bayesianische Inferenz ist im Gegensatz zu Alternativen allgemein, sodass Sie ein verallgemeinertes Werkzeug haben können.)

Wayne
quelle
1

Ich dachte, ich würde diese Antwort der Nachwelt geben, auch wenn es wahrscheinlich zu spät ist, um für Sie von Nutzen zu sein. Larry Wassermans All Of Statistics wurde als Kurs für Personen mit Hintergrundwissen in maschinellem Lernen, anderen Informatikdisziplinen oder Mathematik konzipiert, die keine formale Statistikausbildung hatten - dh für Personen, die sich so ziemlich genau in Ihrer aktuellen Situation befinden. Ein paar Freunde und ich hatten einen ähnlichen Mangel an offiziellen Statistiken und gründeten eine Selbstlerngruppe, um diese in der Graduiertenschule durchzuarbeiten. Ich denke, ich habe wirklich von dieser Erfahrung profitiert.

Die zusätzlichen Themen, die Wasserman jenseits des typischen Kursmaterials "Wahrscheinlichkeit und statistische Inferenz" behandelt, wie z. B. grafische Modelle und Bootstrapping, sind für jemanden, der im maschinellen Lernen tätig ist, besonders relevant. Ich sollte sagen, dass das Buch im Vergleich zu etwas wie Casella & Berger ziemlich knapp sein kann. Wenn Sie mehr Details oder Motivation für bestimmte Teile (insbesondere Probedrucke) wünschen, müssen Sie es möglicherweise mit anderem Lesematerial ergänzen. Trotzdem habe ich festgestellt, dass das Buch mit einer Reihe von Übungsproblemen übersichtlich geschrieben ist, und es ist eine hervorragende Kurzreferenz.

Ein Monat ist nicht viel Zeit. Wenn Sie jedoch ein sehr aggressives Tempo vorgeben, können Sie sicherlich in einem Semester viel aus diesem Text herausholen: Wir haben zum Beispiel unsere Selbstlerngruppe über den Sommer verteilt. Dies gilt insbesondere dann, wenn Sie hauptsächlich an linearer Modellierung interessiert sind, auf die Sie mit Ch. 13-14.

Patrick B.
quelle