Ich glaube nicht, dass ich regelmäßig Zeit investieren kann, um die Datenanalyse fortzusetzen
Ich glaube nicht , Casella & Berger ein Ort ist , Daten viel mehr im Weg zu lernen , Datenanalyse . Hier können Sie einige Werkzeuge der statistischen Theorie erlernen.
Meine bisherige Erfahrung als Statistiker erfordert eine Menge mühsamer Berechnungen mit verschiedenen Verteilungen (Weibull, Cauchy, t, F ...).
Ich habe viel Zeit als Statistiker mit Datenanalysen verbracht. Es bringt mich selten (fast nie) dazu, mühsam zu rechnen. Manchmal handelt es sich um eine kleine, einfache Algebra, aber die allgemeinen Probleme sind in der Regel gelöst, und ich muss mich nicht jedes Mal darum bemühen, sie zu wiederholen.
Der Computer führt die mühsame Berechnung durch.
Wenn ich in einer Situation bin, in der ich nicht bereit bin, einen angemessenen Standardfall anzunehmen (z. B. nicht bereit bin, ein GLM zu verwenden), habe ich im Allgemeinen nicht genügend Informationen, um auch eine andere Verteilung anzunehmen, daher die Frage der Berechnungen in LRT ist normalerweise umstritten (ich kann sie tun, wenn ich muss, sie sind entweder bereits gelöst oder kommen so selten vor, dass es eine interessante Ablenkung ist).
Ich neige dazu, viel zu simulieren. Ich versuche auch häufig, Resampling in irgendeiner Form entweder neben oder anstelle von parametrischen Annahmen zu verwenden.
Muss ich mehr als 20 Stunden pro Woche dafür aufwenden, wie ich es früher war?
Es hängt davon ab, was Sie können möchten und wie schnell Sie gut darin werden möchten.
Datenanalyse ist eine Fähigkeit, die Übung und eine große Wissensbasis erfordert. Sie haben bereits einige Kenntnisse, die Sie benötigen.
Wenn Sie in einer Vielzahl von Dingen ein guter Praktiker sein wollen, wird es viel Zeit in Anspruch nehmen - aber meiner Meinung nach macht es viel mehr Spaß als die Algebra und solche, Casella- und Berger-Übungen zu machen.
Einige der Fähigkeiten, die ich aufgebaut habe, sagen, dass Regressionsprobleme beispielsweise bei Zeitreihen hilfreich sind - aber es sind viele neue Fähigkeiten erforderlich. Das Erlernen der Interpretation von Residuendiagrammen und QQ-Diagrammen ist praktisch, aber sie sagen mir nicht, wie sehr ich mich um ein kleines Problem in einem PACF-Diagramm sorgen muss, und geben mir keine Tools wie die Verwendung einer Vorausberechnung fehler.
So muss ich zum Beispiel keine Anstrengungen unternehmen, um herauszufinden, wie man ML für typische Gamma- oder Weibull-Modelle angemessen ausführt , da sie Standard genug sind, um Probleme zu lösen, die bereits größtenteils in eine bequeme Form gebracht wurden.
Wenn Sie zu Forschungszwecken kommen, benötigen Sie viel mehr Fähigkeiten, die Sie an Orten wie Casella & Berger erwerben (aber auch mit solchen Fähigkeiten sollten Sie mehr als ein Buch lesen).
Einige Vorschläge:
Sie sollten auf jeden Fall einige Regressionsfähigkeiten aufbauen, auch wenn Sie nichts anderes tun.
Es gibt eine Reihe recht guter Bücher, aber vielleicht Draper & Smith Applied Regression Analysis sowie Fox und Weisberg An R Companion to Applied Regression ; Ich würde auch vorschlagen, dass Sie Harrells Regressionsmodellierungsstrategien in Betracht ziehen
(Sie können Draper und Smith durch eine beliebige Anzahl guter Bücher ersetzen - finden Sie ein oder zwei, die zu Ihnen passen.)
Das zweite Buch enthält eine Reihe von zusätzlichen Online-Kapiteln, die es wert sind, gelesen zu werden (und ein eigenes R-Paket).
-
Eine gute zweite Portion wäre Venables & Ripleys Moderne Angewandte Statistik mit S .
Das ist eine Grundlage für eine ziemlich breite Palette von Ideen.
Es kann sich herausstellen, dass Sie in einigen Themen etwas grundlegenderes Material benötigen (ich kenne Ihren Hintergrund nicht).
Dann müssen Sie sich überlegen, welche Statistikbereiche Sie benötigen / wollen - Bayesianische Statistiken, Zeitreihen, multivariate Analysen usw
Antworten für andere, die später auf diese Frage kommen ...
Lernen Sie Datenbanken (SQL), Dplyr / Pandas, Unix-Tools (sed, grep), Scraping, Scripting, Datenbereinigung und Softwaretests. Die verschiedenen Spezialdistributionen haben in der Industrie wenig Wert.
Ein angewandtes Regressionsbuch wie Angrist & Pischke, Faraway oder Weisberg wird eine praktischere Art von Theorie sein.
Daher das Interesse an nichtparametrischen Statistiken. Aber gleichzeitig ist nichtparametrisch ohne Annahmen zu locker. Um Ihre Frage zu beantworten, können Sie sich die spezialisierten Familien als Antworten auf einfache Fragen vorstellen, auf die Sie möglicherweise stoßen. Zum Beispiel stelle ich mir einen Gaußschen Wert als "glatte" Punktschätzung vor. Poisson beantwortet eine andere einfache Frage. Wenn Menschen mathematische Modelle bauen, können diese speziellen Drehpunkte nützlich sein. (Aber Akademiker nehmen die Suche nach der Meisterverteilung oft falsch.)
OP: Ich hoffe, Sie hatten Spaß mit Ihrer Doktorarbeit!
quelle