Statistiktheorie und -anwendungen sinnvoll nutzen

13

Ich habe vor kurzem meinen Master in medizinischer und biologischer Modellierung abgeschlossen, begleitet von Ingenieurmathematik als Hintergrund. Obwohl mein Ausbildungsprogramm eine beträchtliche Anzahl von Kursen in mathematischer Statistik (siehe unten für eine Liste) enthielt, die ich mit ziemlich hohen Noten absolvierte, habe ich es häufig völlig verloren, sowohl auf Theorie als auch auf Anwendungen der Statistik zu starren. Ich muss sagen, im Vergleich zur "reinen" Mathematik macht Statistik für mich wirklich wenig Sinn. Insbesondere die Notationen und die Sprache, die von den meisten Statistikern (einschließlich meiner früheren Dozenten) verwendet werden, sind ärgerlich verworren, und fast keine der Ressourcen, die ich bisher gesehen habe (einschließlich Wikipedia), enthielt einfache Beispiele, auf die man sich leicht beziehen und die mit der angegebenen Theorie assoziieren könnte. ..

Dies ist der Hintergrund; Ich erkenne auch die bittere Realität, dass ich keine Karriere als Forscher / Ingenieur haben kann, ohne die Statistik fest im Griff zu haben, insbesondere im Bereich der Bioinformatik.

Ich hatte gehofft, dass ich ein paar Tipps von erfahreneren Statistikern / Mathematikern bekommen könnte. Wie kann ich dieses oben erwähnte Problem lösen? Kennen Sie gute Ressourcen? wie Bücher, E-Books, offene Kurse (z. B. über iTunes oder OpenCourseware) usw.

EDIT: Wie ich bereits erwähnt habe, bin ich ziemlich voreingenommen (negativ) gegenüber einem Großteil der Literatur unter dem allgemeinen Titel Statistik, und da ich nicht mehrere große (und teure) Lehrbücher pro Statistikzweig kaufen kann, würde ich das brauchen in Bezug auf ein Buch ist etwas ähnlich, was Tipler & Mosca für die Physik ist, sondern für die Statistik.

Für diejenigen, die Tipler nicht kennen; Es ist ein umfangreiches Lehrbuch, das einen Großteil der Themen abdeckt, denen man während des Hochschulstudiums begegnen könnte, und das sie jeweils von der Grundeinführung bis zu etwas tieferen Details darstellt. Im Grunde genommen ein perfektes Nachschlagewerk, das ich in meinem ersten Jahr an der Uni gekauft habe und immer noch ab und zu benutze.


Die Kurse, die ich in Statistik belegt habe:

  • einen großen Einführungskurs,
  • stationäre stochastische Prozesse,
  • Markov-Prozesse,
  • Monte-Carlo-Methoden
  • Überlebensanalyse
posdef
quelle

Antworten:

4

Ich kann Ihre Situation vollständig verstehen. Obwohl ich Doktorandin bin, fällt es mir manchmal schwer, Theorie und Anwendung in Beziehung zu setzen. Wenn Sie bereit sind, in das Verständnis der Theorie einzutauchen, ist es auf jeden Fall eine Belohnung, wenn Sie über Probleme der realen Welt nachdenken. Aber der Prozess kann frustrierend sein.

Eine der vielen Referenzen, die mir gefallen, ist die Datenanalyse nach Gelman und Hill mit hierarchischen / mehrstufigen Modellen . Sie vermeiden die Theorie, in der sie das zugrunde liegende Konzept mithilfe von Simulationen ausdrücken können. Es wird Ihnen definitiv zugute kommen, da Sie Erfahrung mit MCMC usw. haben. Wie Sie sagen, arbeiten Sie in der Bioinformatik, wahrscheinlich Harrells Regressionsmodellierungsstrategien eine großartige Referenz.

Ich werde dies zu einem Community-Wiki machen und andere hinzufügen lassen.

Suncoolsu
quelle
Vielen Dank für Ihre Aufmerksamkeit. Es ist schön zu sehen, dass ich nicht der Einzige bin, der über das Zeug verwirrt ist. Abgesehen davon denke ich, dass Sie meine Situation überschätzt haben; Ich habe eine Reihe von Kursen besucht und bin mit der Existenz einer Reihe verschiedener Arten der statistischen Analyse vertraut. Sie bleiben nach den Kursen nie bei mir. Ein paar Monate nach den Prüfungen wundere ich mich immer wieder. "Ich habe das irgendwo gesehen / gehört, aber wie hat es wirklich funktioniert?" Dies legt für mich nahe, dass ich alles abreißen und es mit einer stärkeren Grundlage wieder aufbauen muss.
posdef
Ich würde ein klares "Einverständnis" für Harrells Text hinzufügen. Es ist ausgezeichnet, ebenso wie die dazugehörige Kombination aus zwei Paketen des R-Codes. Ich denke auch, dass "Modern Applied Statistic with S" von Venables und Ripley eine gute Anschaffung wäre. Ich hatte einen Master-Hintergrund (mit einem Bachelor-Abschluss in Physik), bevor ich mit MASS R lernte. In diesem Text steckt eine Fülle von Anwendungswissen.
DWin
Das Gelman-Regressionsbuch ist wunderbar, erklärt alles sehr gut und bietet R-Code, der wirklich nützlich ist, um Ihr Verständnis des Materials zu überprüfen.
Richiemorrisroe
2

Kennen Sie sich mit der Bayes'schen Datenanalyse (von Gelman, Carlin, Stern und Rubin) aus? Vielleicht brauchen Sie dafür eine Dosis.

mef
quelle
2

Alle statistischen Probleme setzen sich im Wesentlichen aus den folgenden vier Schritten zusammen (die ich bei @whuber auf eine andere Frage ausgeliehen habe ):

  1. Schätzen Sie den Parameter.

  2. Bewerten Sie die Qualität dieser Schätzung.

  3. Erforschen Sie die Daten.

  4. Bewerten Sie die Passform.

Sie können Wortparameter mit Wort austauschenWortmodell .

Statistikbücher enthalten in der Regel die ersten beiden Punkte für verschiedene Situationen. Das Problem, dass jede reale Anwendung einen anderen Ansatz erfordert, daher ein anderes Modell, sodass ein großer Teil der Bücher diese verschiedenen Modelle katalogisiert. Dies hat den unerwünschten Effekt, dass es leicht ist, sich in den Details zu verlieren und den Überblick zu verlieren.

Das große Bilderbuch, das ich wärmstens empfehlen kann, ist die asymptotische Statistik . Es gibt eine rigorose Behandlung des Themas und ist mathematisch "rein". Obwohl der Titel die asymptotische Statistik erwähnt, ist das große Geheimnis, dass die Mehrheit der klassischen Statistikmethoden im Wesentlichen auf asymptotischen Ergebnissen basiert.

mpiktas
quelle
2

Ich denke, das Wichtigste dabei ist, eine Intuition über Statistik und einige allgemeine statistische Konzepte zu entwickeln. Vielleicht ist der beste Weg, dies zu tun, eine Domain zu haben, die Sie "besitzen" können. Dies kann zu einer positiven Rückkopplungsschleife führen, bei der Sie durch das Verständnis der Domain mehr über die zugrunde liegenden Statistiken erfahren, wodurch Sie mehr über die Domain usw. erfahren.

Für mich war diese Domain Baseballstatistik. Ich habe verstanden, dass ein Schlagmann, der in einem Spiel 3 gegen 4 geht, kein "wahrer" .750-Schlagmann ist. Dies hilft zu verstehen, dass die Beispieldaten nicht mit der zugrunde liegenden Verteilung übereinstimmen. Ich weiß auch, dass er wahrscheinlich einem durchschnittlichen Spieler näher ist als einem .750-Treffer. Dies hilft, Konzepte wie die Regression auf den Mittelwert zu verstehen. Von dort aus kann ich zu einer vollständigen Bayes'schen Folgerung gelangen, bei der meine vorherige Wahrscheinlichkeitsverteilung den Mittelwert des durchschnittlichen Baseballspielers hatte, und ich habe jetzt 4 neue Stichproben, mit denen ich meine hintere Verteilung aktualisieren kann.

Ich weiß nicht, was diese Domain für Sie ist, aber ich denke, es wäre hilfreicher als ein bloßes Lehrbuch. Beispiele helfen, die Theorie zu verstehen, was hilft, die Beispiele zu verstehen. Ein Lehrbuch mit Beispielen ist schön, aber wenn Sie diese Beispiele nicht zu "Ihren" machen können, frage ich mich, ob Sie genug davon bekommen.

Michael McGowan
quelle
1

Jeder lernt anders, aber ich kann mit Sicherheit sagen, dass Beispiele, Beispiele, Beispiele in der Statistik sehr hilfreich sind. Mein Vorschlag wäre, R zu lernen (nur die Grundlagen sind genug, um viel zu helfen) und dann können Sie jedes Beispiel ausprobieren, bis Ihre Augen bluten. Sie können es sortieren, anpassen, zeichnen und benennen. Und da R auf Statistik ausgerichtet ist, werden Sie beim Erlernen von R Statistik lernen. Die Bücher, die Sie aufgelistet haben, können dann unter dem Gesichtspunkt "Zeigen" angegriffen werden.

Da R kostenlos und viele Quellen kostenlos sind, müssen Sie nur Ihre Zeit investieren.

http://www.mayin.org/ajayshah/KB/R/index.html

http://math.illinoisstate.edu/dhkim/rstuff/rtutor.html

http://www.cyclismo.org/tutorial/R/

http://www.stat.pitt.edu/stoffer/tsa2/R_time_series_quick_fix.htm

http://www.statmethods.net/about/books.html

Es gibt viele gute Bücher über R, die Sie kaufen können. Hier ist eines, das ich verwendet habe:

http://www.amazon.com/Introductory-Statistics-R-Peter-Dalgaard/dp/0387954759

Bearbeiten ============

Ich habe vergessen, ein paar Links hinzuzufügen. Wenn Sie Windows verwenden, ist Tinn-R ein guter Editor, um R zu füttern (jemand anderes kann Links für Editoren auf einem Mac oder Linux hinzufügen).

http://www.sciviews.org/Tinn-R/

http://cran.r-project.org/web/packages/TinnR/

bill_080
quelle
danke für die links, ich werde versuchen, sie in den kommenden wochen so oft wie möglich durchzugehen ... ich war schon einmal mit r in einem überlebensanalysekurs konfrontiert, in dem wir viele multivariate regressionen durchgeführt haben (cox und aelen) Models) und ein paar andere Sachen, an die ich mich nicht wirklich erinnern kann. Mein Eindruck von R als einer Person, die sehr an MATLAB gewöhnt ist, war ziemlich negativ, aber ich tat es sehr, weil wir mehr oder weniger ans Ende des Pools geworfen wurden und dann erwartet wurden, dass wir es lernen Schwimmen auf eigene Faust, was natürlich dazu führte, dass ich die Software von da an hasste :) Zeit, das vielleicht zu ändern
posdef
1

Ich persönlich habe das geliebt das eine wirklich gute Mischung aus Theorie und Anwendung (mit vielen Beispielen) hatte. Es war eine gute Übereinstimmung mit Casella und Berger für einen eher theorieorientierten Ansatz. Und für eine breite Pinselübersicht dies .

immer
quelle
Beide Bücher scheinen gute Kritiken über Amazon zu haben. Kann jemand eine (vielleicht etwas detailliertere) Meinung dazu abgeben? übrigens; Mit casella & berger meinen Sie "Statistische Inferenz"?
Posdef
Ja, statistische Inferenz. Für mich war ein großer Schritt vom Verständnis von Wahrscheinlichkeitsmodellen zum Verständnis der Verwendung von Daten zum Testen von Modellen und zum Schätzen von Modellparametern. Besonders das Davison-Buch konzentriert sich wirklich auf diesen Punkt.
Alwaysean