In der ersten Jahreshälfte 2015 habe ich den Coursera-Kurs für maschinelles Lernen (von Andrew Ng, GREAT-Kurs) absolviert. Und lernte die Grundlagen des maschinellen Lernens (lineare Regression, logistische Regression, SVM, Neuronale Netze ...)
Außerdem bin ich seit 10 Jahren Entwickler, sodass das Erlernen einer neuen Programmiersprache kein Problem darstellt.
In letzter Zeit habe ich angefangen, R zu lernen, um Algorithmen für maschinelles Lernen zu implementieren.
Ich habe jedoch festgestellt, dass ich, wenn ich weiterlernen möchte, formellere Kenntnisse der Statistik benötigen werde, derzeit jedoch nicht formell, aber so eingeschränkt, dass ich zum Beispiel nicht richtig bestimmen konnte, welches von mehreren linearen Modellen ich benötige wäre besser (normalerweise benutze ich dafür R-Quadrat, aber anscheinend ist das keine sehr gute Idee).
Mir scheint es ziemlich offensichtlich, dass ich die Grundlagen der Statistik lernen muss (ich habe das in Uni studiert, aber das meiste vergessen). Wo soll ich lernen, bitte beachte, dass ich nicht wirklich einen vollständigen Kurs brauche, sondern nur etwas Das erlaubt mir innerhalb eines Monats genug zu wissen, so dass ich eifrig werden und mehr lernen kann :).
Bisher habe ich über " Statistik ohne Tränen " noch einen anderen Vorschlag gelesen ?
quelle
references
Tag hinzugefügt . Möglicherweise möchten Sie die erste Seite der Treffer zu diesem Thema durchsuchen.Antworten:
Ich würde Ihnen eine grundlegende Roadmap vorschlagen, wie Sie vorgehen sollen:
Bonus:
Eine wunderbare Site für solche Roadmaps ist die Metacademy , die ich persönlich als eine der besten Data Science-Ressourcen im Web bezeichnen würde.
Gitxiv ist eine weitere schöne Site, die die Arxiv-Forschungsberichte zu Data Science mit den relevanten Open-Source-Implementierungen / Bibliotheken verbindet.
quelle
Haben Sie Think Stats oder Think Bayes ausgecheckt? Es handelt sich um (kostenlose) Statistikbücher für Programmierer mit viel Python-Code.
Auch, wenn Sie in das Lernen interessiert sind , R dann CRAN hat eine Menge (kostenlos) pdfs , dass Sie prüfen möchten, wie Einführung in die Wahrscheinlichkeitsrechnung und Statistik Mit R . Es gibt auch einen Coursera-Kurs , der R verwendet, den viele Leute wirklich lieben (sie verwenden dieses Lehrbuch , das Sie vielleicht auch lesen möchten , und ich glaube , sie haben Labs zu DataCamp ).
Wenn Sie ein paar Stats-Themen auffrischen möchten, können Sie sich immer ein paar Videos auf Khan Academy ansehen .
quelle
Wenn Sie jemals in der Vergangenheit in der Lage waren, Probleme in dieser Liste zu lösen , sollten Sie versuchen, die angewandten Statistiken "richtig" zu studieren . Ich gebe Ihnen einen einfachen zweistufigen Algorithmus.
Machen Sie sich zunächst mit der Wahrscheinlichkeitstheorie vertraut. Es gibt viele großartige Bücher. Mein Favorit ist der Klassiker von Feller. Es heißt "Einführung", aber lassen Sie sich nicht vom Titel täuschen, es ist so tief, wie Sie es wollen, und doch sehr gut geschrieben und einfach, wenn Sie nur die Oberfläche überfliegen wollen.
Der zweite Schritt ist die Statistik. Wieder gibt es eine Menge großartiger Bücher. Ich gebe Ihnen einen, den ich benutzt habe, einen anständigen Intro-Text von Gujarati "Basic Econometrics", 4. Auflage. Ökonometrie ist eine Statistik, die auf die Wirtschaft angewendet wird . Als Referenz ist Hal Varian, ein Berkeley-Ökonom , ein Typ, von dem jeder denkt, dass er in den nächsten 10 Jahren ein sexy Job für Datenwissenschaftler sein wird. Viele maschinelle Lerninhalte basieren auf grundlegenden Statistiken, Regressionen usw. Alles, was in diesem Buch behandelt wird, und Sie müssen nicht alles lesen, es ist so geschrieben, dass Sie Kapitel in Ihrer eigenen Reihenfolge auswählen können.
Sie werden überrascht sein, wie viele Lücken offen bleiben, nachdem Ngs Klasse sich beim Lesen dieser Texte schnell ausgefüllt hat.
Als Praktiker brauchen Sie nach diesen beiden Schritten nicht zu viel Theorie. Sie können weiterhin ML-Techniken lernen, indem Sie die Bücher in diesem Bereich lesen. Es ist wichtig, am Anfang nicht zu tief in die Wahrscheinlichkeiten und Statistiken einzudringen. Holen Sie sich Ihren Code für ML zuerst und füllen Sie die Lücken, wie Sie gehen.
quelle
Jeder empfiehlt Casella & Berger, das fast überall in Statistikprogrammen für Hochschulabsolventen verwendet wird. Es ist kein schlechtes Nachschlagewerk, aber ich bin mir nicht sicher, ob ich mehr tun würde, als die ersten 4-5 Kapitel zu scannen. Ich glaube nicht, dass Sie die Theorie brauchen, wie man einen Neyman-Pearson-Typentest erstellt, bevor Sie sich mit "Statistiken", dh Datenanalysen, befassen.
Stattdessen würde ich mich auf Lernmethoden konzentrieren. Mein Abschlussprogramm verwendete für die Frequentistentests Angewandte Lineare Statistische Methoden , und es ist eine ziemlich anständige, umfassende Referenz, aber vom Standpunkt des Autodidakts aus vielleicht nicht das zugänglichste Buch. Ein oder zwei Kurse von MIT oder coursera sind möglicherweise der bessere Einstieg, da Sie einen breiteren Überblick mit mehr Beispielen erhalten, als wenn Sie ein Buch lesen.
Für Bayes ist das Buch, das ich am häufigsten gesehen habe, die Bayesianische Datenanalyse , die mit Welpenbildern geliefert wird (dies macht das Buch eindeutig besser als andere Bayesianische Einführungslehrbücher). Ich habe das Buch selbst nie benutzt, aber ich habe es durchgesehen und es scheint ziemlich anständig zu sein - viel besser als Gelmans Buch, das ich nach zwei Klassen in der Bayes'schen Statistik etwas unverständlich fand - die Erklärungen sind schrecklich.
quelle
Dies ist keine vollständige Antwort, sondern lediglich ein Vorschlag. Wenn Sie mehr über Statistiken (die Grundlage) erfahren möchten, können Sie lesen:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
Dies ist ein hübsches Standardbuch für Statistiker und es hat viele interessante Ergebnisse. Sie müssen nicht alle Beweise der Theoreme durchgehen, aber Sie möchten vielleicht einige Übungen machen, um sich mit den Ergebnissen sicherer zu fühlen.
Wenn Sie mehr über Ökonometrie (Modelle für Daten) erfahren möchten, schauen Sie sich Folgendes an:
Hayashi, F. (2000): Econometrics, Princeton University Press
Jemand anderes fragte tatsächlich etwas Ähnliches, was Sie gefragt und bekam eine schöne Antwort: Was nach „Casella & Berger“ zu tun .
Wenn Sie wirklich vorhaben, diese Bücher zu lesen, kann Ihnen dieser Lehrplan eines Ökonometrie-Kurses eine recht gute Richtung und ein gutes Tempo dafür geben, was zu lesen ist (CB & Hayashi) und wann zu lesen ist.
quelle
Ich würde ein neues Buch vorschlagen, das seit der ursprünglichen Frage herausgekommen ist: Statistisches Umdenken: Ein Bayesianischer Kurs mit Beispielen in R und Stan von Richard McElreath, CRC Press.
Es ist sehr gut geschrieben und verwendet einen Bayes'schen Ansatz. Es ist sehr interaktiv, und Sie möchten die Probleme lösen, da Sie sonst auf halbem Weg sind und sich verlaufen.
Es fängt sehr einfach an und endet mit Mehrebenenmodellen. Es richtet sich an ziemlich fortgeschrittene Wissenschaftler, die über statistische Kenntnisse verfügen, sich aber mit Statistiken, wie sie ihnen vermittelt wurden, insgesamt nicht wohl fühlen. Ich kann also nicht genau sagen, dass es ein Anfängerbuch ist, aber es fängt sehr einfach an und er hat einen wunderbaren Bogen und Stil.
Der "Stan" -Teil des Titels ist ein allgemeines Bayes'sches Sampling-Tool. Im Wesentlichen handelt es sich um eine Programmiersprache, die automatisch in C ++ kompiliert und dann in eine ausführbare Datei kompiliert wird. (Bayesianische Inferenz ist im Gegensatz zu Alternativen allgemein, sodass Sie ein verallgemeinertes Werkzeug haben können.)
quelle
Ich dachte, ich würde diese Antwort der Nachwelt geben, auch wenn es wahrscheinlich zu spät ist, um für Sie von Nutzen zu sein. Larry Wassermans All Of Statistics wurde als Kurs für Personen mit Hintergrundwissen in maschinellem Lernen, anderen Informatikdisziplinen oder Mathematik konzipiert, die keine formale Statistikausbildung hatten - dh für Personen, die sich so ziemlich genau in Ihrer aktuellen Situation befinden. Ein paar Freunde und ich hatten einen ähnlichen Mangel an offiziellen Statistiken und gründeten eine Selbstlerngruppe, um diese in der Graduiertenschule durchzuarbeiten. Ich denke, ich habe wirklich von dieser Erfahrung profitiert.
Die zusätzlichen Themen, die Wasserman jenseits des typischen Kursmaterials "Wahrscheinlichkeit und statistische Inferenz" behandelt, wie z. B. grafische Modelle und Bootstrapping, sind für jemanden, der im maschinellen Lernen tätig ist, besonders relevant. Ich sollte sagen, dass das Buch im Vergleich zu etwas wie Casella & Berger ziemlich knapp sein kann. Wenn Sie mehr Details oder Motivation für bestimmte Teile (insbesondere Probedrucke) wünschen, müssen Sie es möglicherweise mit anderem Lesematerial ergänzen. Trotzdem habe ich festgestellt, dass das Buch mit einer Reihe von Übungsproblemen übersichtlich geschrieben ist, und es ist eine hervorragende Kurzreferenz.
Ein Monat ist nicht viel Zeit. Wenn Sie jedoch ein sehr aggressives Tempo vorgeben, können Sie sicherlich in einem Semester viel aus diesem Text herausholen: Wir haben zum Beispiel unsere Selbstlerngruppe über den Sommer verteilt. Dies gilt insbesondere dann, wenn Sie hauptsächlich an linearer Modellierung interessiert sind, auf die Sie mit Ch. 13-14.
quelle