Was kann man nach Casella & Berger lernen?

22

Ich bin ein reiner Mathematik-Student mit wenig Hintergrundwissen in angewandter Mathematik. Seit dem letzten Herbst habe ich Unterricht in Casella & Bergers Buch genommen und hunderte (230+) Seiten mit Übungsproblemen in dem Buch abgeschlossen. Im Moment bin ich bei Kapitel 10.

Da ich mich jedoch noch nicht mit Statistik befasst habe oder Statistiker werden möchte, glaube ich nicht, dass ich regelmäßig Zeit investieren kann, um die Datenanalyse fortzusetzen. Meine bisherige Erfahrung zeigt mir, dass man als Statistiker eine Menge mühsamer Berechnungen mit verschiedenen Verteilungen (Weibull, Cauchy, , ...) ertragen muss . Ich habe festgestellt, dass die grundlegenden Ideen zwar einfach sind, die Implementierung (zum Beispiel das LRT beim Testen von Hypothesen) jedoch aus technischen Gründen immer noch schwierig sein kann.tF

Ist mein Verständnis korrekt? Gibt es eine Möglichkeit, Wahrscheinlichkeiten und Statistiken zu lernen, die nicht nur fortgeschritteneres Material abdecken, sondern auch helfen können, falls ich eine Datenanalyse im wirklichen Leben benötige? Muss ich verbringen 20 Stunden pro Woche auf es , wie ich früher?

Ich glaube, es gibt keinen Königsweg für das Erlernen von Mathematik, aber ich kann mich oft wundern - die meiste Zeit wissen wir nicht, was die Verteilung für reale Daten ist, weshalb wir uns ausschließlich auf verschiedene Verteilungsfamilien konzentrieren ? Wenn die Stichprobengröße klein ist und der zentrale Grenzwertsatz nicht gilt, wie können wir die Daten neben dem Stichprobenmittelwert und der Varianz ordnungsgemäß analysieren, wenn die Verteilung unbekannt ist?

Mein Semester endet in einem Monat und ich möchte nicht, dass mein Wissen verfliegt, wenn ich mich auf meine Doktorarbeit konzentriere. Also beschloss ich zu fragen. Ich lerne gerade R und habe einige Programmierkenntnisse, aber mein Level entspricht in etwa einem Code-Affen.

Bombyx mori
quelle

Antworten:

24

Ich glaube nicht, dass ich regelmäßig Zeit investieren kann, um die Datenanalyse fortzusetzen

Ich glaube nicht , Casella & Berger ein Ort ist , Daten viel mehr im Weg zu lernen , Datenanalyse . Hier können Sie einige Werkzeuge der statistischen Theorie erlernen.

Meine bisherige Erfahrung als Statistiker erfordert eine Menge mühsamer Berechnungen mit verschiedenen Verteilungen (Weibull, Cauchy, t, F ...).

Ich habe viel Zeit als Statistiker mit Datenanalysen verbracht. Es bringt mich selten (fast nie) dazu, mühsam zu rechnen. Manchmal handelt es sich um eine kleine, einfache Algebra, aber die allgemeinen Probleme sind in der Regel gelöst, und ich muss mich nicht jedes Mal darum bemühen, sie zu wiederholen.

Der Computer führt die mühsame Berechnung durch.

Wenn ich in einer Situation bin, in der ich nicht bereit bin, einen angemessenen Standardfall anzunehmen (z. B. nicht bereit bin, ein GLM zu verwenden), habe ich im Allgemeinen nicht genügend Informationen, um auch eine andere Verteilung anzunehmen, daher die Frage der Berechnungen in LRT ist normalerweise umstritten (ich kann sie tun, wenn ich muss, sie sind entweder bereits gelöst oder kommen so selten vor, dass es eine interessante Ablenkung ist).

Ich neige dazu, viel zu simulieren. Ich versuche auch häufig, Resampling in irgendeiner Form entweder neben oder anstelle von parametrischen Annahmen zu verwenden.

Muss ich mehr als 20 Stunden pro Woche dafür aufwenden, wie ich es früher war?

Es hängt davon ab, was Sie können möchten und wie schnell Sie gut darin werden möchten.

Datenanalyse ist eine Fähigkeit, die Übung und eine große Wissensbasis erfordert. Sie haben bereits einige Kenntnisse, die Sie benötigen.

Wenn Sie in einer Vielzahl von Dingen ein guter Praktiker sein wollen, wird es viel Zeit in Anspruch nehmen - aber meiner Meinung nach macht es viel mehr Spaß als die Algebra und solche, Casella- und Berger-Übungen zu machen.

Einige der Fähigkeiten, die ich aufgebaut habe, sagen, dass Regressionsprobleme beispielsweise bei Zeitreihen hilfreich sind - aber es sind viele neue Fähigkeiten erforderlich. Das Erlernen der Interpretation von Residuendiagrammen und QQ-Diagrammen ist praktisch, aber sie sagen mir nicht, wie sehr ich mich um ein kleines Problem in einem PACF-Diagramm sorgen muss, und geben mir keine Tools wie die Verwendung einer Vorausberechnung fehler.

So muss ich zum Beispiel keine Anstrengungen unternehmen, um herauszufinden, wie man ML für typische Gamma- oder Weibull-Modelle angemessen ausführt , da sie Standard genug sind, um Probleme zu lösen, die bereits größtenteils in eine bequeme Form gebracht wurden.

Wenn Sie zu Forschungszwecken kommen, benötigen Sie viel mehr Fähigkeiten, die Sie an Orten wie Casella & Berger erwerben (aber auch mit solchen Fähigkeiten sollten Sie mehr als ein Buch lesen).


Einige Vorschläge:

Sie sollten auf jeden Fall einige Regressionsfähigkeiten aufbauen, auch wenn Sie nichts anderes tun.

Es gibt eine Reihe recht guter Bücher, aber vielleicht Draper & Smith Applied Regression Analysis sowie Fox und Weisberg An R Companion to Applied Regression ; Ich würde auch vorschlagen, dass Sie Harrells Regressionsmodellierungsstrategien in Betracht ziehen

(Sie können Draper und Smith durch eine beliebige Anzahl guter Bücher ersetzen - finden Sie ein oder zwei, die zu Ihnen passen.)

Das zweite Buch enthält eine Reihe von zusätzlichen Online-Kapiteln, die es wert sind, gelesen zu werden (und ein eigenes R-Paket).

-

Eine gute zweite Portion wäre Venables & Ripleys Moderne Angewandte Statistik mit S .

Das ist eine Grundlage für eine ziemlich breite Palette von Ideen.

Es kann sich herausstellen, dass Sie in einigen Themen etwas grundlegenderes Material benötigen (ich kenne Ihren Hintergrund nicht).

Dann müssen Sie sich überlegen, welche Statistikbereiche Sie benötigen / wollen - Bayesianische Statistiken, Zeitreihen, multivariate Analysen usw

Glen_b
quelle
6

Mein Rat aus der entgegengesetzten Perspektive (Stats Doktorand) ist, ein Regressionslehrbuch durchzuarbeiten. Dies scheint ein natürlicher Ausgangspunkt für jemanden mit einem soliden theoretischen Hintergrund ohne angewandte Erfahrung zu sein. Ich kenne viele Doktoranden von außerhalb unserer Abteilung, die einen Regressionskurs beginnen.

Ein gutes Beispiel ist Sanford Weisbergs Applied Linear Regression . Ich glaube, es ist in der vierten Version. Sie könnten wahrscheinlich relativ billige ältere Versionen finden.

http://users.stat.umn.edu/~sandy/alr4ed/

Eine schöne Sache an diesem Lehrbuch ist, besonders angesichts Ihrer relativen Unerfahrenheit mit R, der R-Primer, der über den obigen Link erhältlich ist. Es enthält ausreichende Anweisungen, um alles, was im Buch getan wurde, neu zu erstellen. Auf diese Weise können Sie tatsächlich die Regression erlernen (zusätzlich zu einigen Grundlagen von GLM), ohne dass Sie durch fehlende R-Programmierung behindert werden (und Sie werden wahrscheinlich viele der R-Grundlagen auf dem Weg erlernen).

Wenn Sie eine umfassende Einführung in R wünschen, sind Sie vielleicht besser beraten , wenn Sie Fox und Weisbergs Begleiter für angewandte Regression durcharbeiten , aber es hört sich so an, als würden Sie lieber Statistik lernen als Programmieren (wenn diese beiden Dinge getrennt betrachtet werden können).

Was Ihr zeitliches Engagement betrifft, denke ich nicht, dass Sie dieses Lehrbuch oder Material übermäßig schwierig finden würden. Anders als bei Casella-Berger wird es nicht viel Beweise oder Ableitungen geben. Es ist im Allgemeinen ziemlich einfach.

Abgesehen davon scheint es Lösungen zu geben, die online im Umlauf sind (oder sich irgendwann befanden), sodass Sie versuchen können, Probleme zu lösen, Lösungen zu überprüfen und sich schnell durch das Buch arbeiten können.

user23658
quelle
4

Ich versuche auf Umwegen, selbst eher ein Statistiker zu sein, aber ich bin hauptsächlich ein Psychologe, der zufällig quantitative und methodologische Interessen hat. Um die psychometrische Arbeit richtig ausführen zu können, habe ich fortgeschrittene (für einen Psychologen) Methoden studiert, von denen ich nicht träumen würde, sie manuell zu berechnen (viel weniger würde ich wissen wie). Ich war überrascht, wie zugänglich und bequem diese Methoden durch all die engagierten Bemühungen der Programmierer von R-Paketen in den letzten zehn Jahren geworden sind. Ich habe in der Praxis Analysen mit neuen Methoden durchgeführt, deren Verwendung ich in weniger als 20 Stunden pro Methode gelernt habe. Möglicherweise verbringe ich so viel Zeit mit einer neuen Methode, bis ich bereit bin, eine zu veröffentlichen es zu benutzen, aber es gibt sicherlich keine Notwendigkeit, einen Teilzeitjob zu machen, nur um Fortschritte wie ich zu machen. Tu, was du kannst, wenn du die Zeit dafür findest. Es ist nicht alles oder nichts, wenn Sie es nicht brauchen.

Ich habe mich mit Sicherheit nicht ausschließlich auf ein Thema konzentriert, geschweige denn auf Verteilerfamilien. Ich bezweifle, dass jeder Statistiker, der ehrlich ist, so eng studieren würde. Ich habe in der letzten Woche einige Male eine Stunde am Tag an theoretischen Verteilungen gearbeitet. Das hat sich in realen Datenanwendungen als nützlich erwiesen. Soweit ich das beurteilen kann, geht es nicht so sehr darum, Distributionen streng zu klassifizieren. Es geht darum, Verteilungsformen zu erkennen, die Theorien ähneln, und sie zu verwenden, um die geeigneten Analysen zu bestimmen und die grundlegende Dynamik zu verstehen. Ich habe ähnliche Gedanken zu meiner letzten Antwort auf " Ist es besser, Verteilungen basierend auf Theorie, Anpassung oder etwas anderem auszuwählen? "

Sie haben nicht gesagt, welche Analyse Sie in Ihrem hypothetischen Worst-Case-Szenario durchführen möchten, aber es gibt Möglichkeiten, die Empfindlichkeit einer Analyse gegenüber Stichprobenfehlern zu untersuchen. Wenn das CLT nicht zutrifft, gibt es noch einige statistische Fragen, die Sie stellen können, wenn Sie wissen, wie. Bei nichtparametrischen Methoden werden im Allgemeinen nur sehr begrenzte Annahmen über Verteilungen getroffen. Daher ist die vorherige Kenntnis der Verteilungsform einer Population nicht unbedingt ein großes Problem.

Wissen im Allgemeinen verdunstet nicht so schnell oder vollständig, aber wenn Sie es nicht verwenden, wird es Ihnen schwerer fallen, sich frei zu erinnern. Sie behalten einen weitaus längeren Wiedererkennungsvorteil, der sich immer noch als nützlich erweisen kann, wenn Sie jemals Themen studieren müssen, die Sie mehrere Jahre zuvor studiert haben und lerne weiter! R ist definitiv ein guter Ort, um Ihre Freizeit zu investieren. Es sollte auch für Ihre reine Mathematik hilfreich sein: Sehen Sie sich eine andere meiner jüngsten Antworten zu " Beste Open Source-Datenvisualisierungssoftware für PowerPoint " an.

Nick Stauner
quelle
3

Ich bin 2019 auf diesen gestoßen. Meine zwei Cent.

Ich bin ein Statistikprofessor mit einer Neigung zur Datenanalyse verschiedener Arten (deshalb habe ich mich für Statistik entschieden!). Um etwas praktisches Wissen zu erlangen, empfehle ich James, Witten, Hastie und Tibshirani "Eine Einführung in das statistische Lernen". Sie haben sogar ein MOOC, das darauf basiert. Das Buch verwendet viele "echte Daten" -Beispiele und ist auch R-basiert.

PA6OTA
quelle
Haben Sie etwas anderes als "Elemente des statistischen Lernens" vorzuschlagen? Ich glaube, ich bin jetzt mit den (Grund-) Teilen des Buches vertraut.
Bombyx Mori
2

Antworten für andere, die später auf diese Frage kommen ...


Datenanalyse im realen Leben

Lernen Sie Datenbanken (SQL), Dplyr / Pandas, Unix-Tools (sed, grep), Scraping, Scripting, Datenbereinigung und Softwaretests. Die verschiedenen Spezialdistributionen haben in der Industrie wenig Wert.

Ein angewandtes Regressionsbuch wie Angrist & Pischke, Faraway oder Weisberg wird eine praktischere Art von Theorie sein.

In den meisten Fällen wissen wir nicht, was die Verteilung für reale Daten ist. Aus welchem ​​Grund konzentrieren wir uns ausschließlich auf verschiedene Verteilerfamilien

Daher das Interesse an nichtparametrischen Statistiken. Aber gleichzeitig ist nichtparametrisch ohne Annahmen zu locker. Um Ihre Frage zu beantworten, können Sie sich die spezialisierten Familien als Antworten auf einfache Fragen vorstellen, auf die Sie möglicherweise stoßen. Zum Beispiel stelle ich mir einen Gaußschen Wert als "glatte" Punktschätzung vor. Poisson beantwortet eine andere einfache Frage. Wenn Menschen mathematische Modelle bauen, können diese speziellen Drehpunkte nützlich sein. (Aber Akademiker nehmen die Suche nach der Meisterverteilung oft falsch.)

OP: Ich hoffe, Sie hatten Spaß mit Ihrer Doktorarbeit!

Isomorphismen
quelle