Ein gutes Buch mit gleichem Schwerpunkt auf Theorie und Mathematik

10

Ich habe während meiner Schulzeit und an der Universität genug Kurse über Statistik gehabt. Ich habe ein gutes Verständnis für die Konzepte wie CI, p-Werte, Interpretation der statistischen Signifikanz, Mehrfachtests, Korrelation, einfache lineare Regression (mit kleinsten Quadraten) (allgemeine lineare Modelle) und alle Hypothesentests. Ich war in den früheren Tagen größtenteils mathematisch eingeführt worden. Und in letzter Zeit habe ich mit Hilfe des Buches Intuitive Biostatistik ein beispielloses Verständnis für die eigentliche konzeptuelle Theorie gewonnen, glaube ich.

Was mir jetzt fehlt, ist das Verständnis der Anpassungsmodelle (Schätzen von Parametern an das Modell) und dergleichen. Insbesondere Konzepte wie die Schätzung der maximalen Wahrscheinlichkeit, verallgemeinerte lineare Modelle und Bayes'sche Ansätze zur Inferenzstatistik scheinen mir immer fremd zu sein. Es gibt nicht genügend Beispiele oder Tutorials oder konzeptionell fundierte, wie man sie bei einfachen Wahrscheinlichkeitsmodellen oder anderen (grundlegenden) Themen im Internet finden würde.

Ich bin Bioinformatiker und arbeite an RNA-Seq-Daten, die sich mit rohen Lesezahlen befassen, um beispielsweise die Genexpression (oder die differentielle Genexpression) zu finden. Selbst wenn ich mit statistischen Modellen nicht vertraut bin, kann ich aus meinem Hintergrund den Grund für eine Annahme der Poissonverteilung und negative Binome usw. erfassen. Einige Artikel befassen sich jedoch mit verallgemeinerten linearen Modellen und schätzen eine MLE usw. Ich glaube, ich habe den notwendigen Hintergrund, um zu verstehen.

Ich denke, was ich verlange, ist ein Ansatz, den einige Experten unter Ihnen für nützlich halten, und (a) Bücher, die mir helfen, diese Konzepte auf intuitivere Weise zu verstehen (nicht nur strenge Mathematik, sondern Theorie, die mit Mathematik unterstützt wird). Da ich sie meistens anwenden werde, wäre ich (im Moment) zufrieden damit zu verstehen, was was ist, und später kann ich auf strenge mathematische Beweise zurückgreifen ... Hat jemand irgendwelche Empfehlungen? Es macht mir nichts aus, mehr als ein Buch zu kaufen, wenn die Themen, nach denen ich gefragt habe, tatsächlich verstreut sind, um in einem Buch behandelt zu werden.

Vielen Dank!

Arun
quelle
Können Sie mir einige gute Quellen empfehlen, um mehr über RNA-Seq-Daten und statistische Herausforderungen in diesem Bereich zu erfahren?
Biostat
1
Biostat, sicher, die Website seqanswers.com ist eine sehr gute Ressource für NGS. Sie können mit den verschiedenen Technologien beginnen und wie sie von hier aus funktionieren: goo.gl/NLuvJ Dies sind einige Artikel , die einige statistische Probleme mit NGS-Daten erklären. Kurz gesagt, es handelt sich um eine technische und biologische Varianzschätzung (in Bezug auf die Genexpression). 1) Eine der ersten Veröffentlichungen zur Bewertung technischer Variationen: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: Ein Tool zum Nachweis der Genexpression: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun
1
In CW konvertiert, weil es so aussieht, als würden eine Reihe guter Vorschläge angeboten, und es gibt keinen offensichtlichen objektiven Standard, um ein "Bestes" unter ihnen zu finden. Ich hoffe, dies erleichtert es den Lesern, auch viele Antworten abzustimmen :-).
whuber
whuber, klar! macht Sinn. Kann ich einen Community-Wiki-Beitrag erstellen? oder erfordert es Moderatorrechte?
Arun

Antworten:

5

Sie finden alles Nicht-Bayesianische, was Sie danach gefragt haben. Frank Harrells Regressionsmodellierungsstrategien . Ich würde Bayes'sche Empfehlungen sachkundigeren Leuten überlassen (obwohl ich Gelman, Carlin, Stern und Rubin sowie Gilks, Richardson und Speigelhalter in meinem Bücherregal habe). Es sollten einige Bayesianische Biostatbücher auf dem Markt sein.

Update: McCullach and Nelder (1989) ist natürlich ein klassisches Buch über GLMs. Es war bahnbrechend für seine Zeit, aber ich finde es ehrlich gesagt ziemlich langweilig. Außerdem werden spätere Ergänzungen wie Restdiagnosen, Modelle ohne Inflation oder mehrstufige / hierarchische Erweiterungen nicht behandelt. Hardin und Hilbe (2007) behandeln einige dieser neueren Dinge ausführlich mit praktischen Beispielen in Stata (wo GLMs und Erweiterungen sehr gut implementiert sind; Hardin arbeitete früher bei Stata Corp. und schrieb viele dieser Befehle und trug zum Sandwich-Schätzer).

StasK
quelle
Hallo StasK, vielen Dank! Ich finde, dass die Regressionsmodellierung meinen Anforderungen entspricht. Wie viel decken sie GLMs ab? Ich sehe auch, dass Ihre Referenzen zur Bayes'schen Inferenz die Standardreferenzen sind, die ich immer empfohlen finde. Wie einfach / schwierig ist es Ihrer Meinung nach, ihnen zu folgen (als ob das Level zu weit fortgeschritten wäre)? Haben Sie sich auch das Buch Generalisierte lineare Modelle angesehen ? Einer der Autoren ist JA Nelder. Außerdem möchte ich dieses Buch auch über statistische Modelle kaufen . Hast du irgendwelche Gedanken dazu? Vielen Dank!
Arun
Ich habe dieses Freedman-Buch nicht gesehen. Es ist ziemlich interessant, obwohl es in Bezug auf die Genauigkeit ziemlich leicht zu sein scheint, und ich bin mir nicht sicher, ob ich damit zufrieden bin. (Ein Buch, das sich sehr leicht mit Mathematik befasst und über Regression ohne Matrixalgebra spricht, aber SEHR tief in der wissenschaftlichen Strenge steckt, ist Mostly Harmless Econometrics von Angrist und Pischke. Wenn Sie mit kausalen Modellen arbeiten, ist dieses Buch ein Muss.) Ich nicht Ich kenne Ihren mathematischen / statistischen Hintergrund nicht wirklich, daher fällt es mir schwer zu beurteilen, ob diese Bücher schwierig sind. Einige Bayesianische Bücher könnten sein; Sie neigen dazu anzunehmen, dass Sie MLE und GLM bereits kennen.
StasK
1
Ich habe meine Antwort aktualisiert, um die McCullach- und Nelder-Referenz aufzunehmen.
StasK
Ich bin ein Elektronikgraveur. Bioinformatiker geworden. Ich hatte Kurse über Statistik (für Kommunikationstheorie), Wahrscheinlichkeits- und Zufallsprozesse, bin mit Kalkül (obwohl etwas rostig) und auch linearer Algebra vertraut. Natürlich sind dies meistens Bachelor-Studiengänge ... Mein Ziel ist es, konzeptionell fundiert zu sein (mehr geometrische Interpretationen, Verständnis der Methoden und vor allem des Zwecks) usw. ... Natürlich macht mir die Mathematik nichts aus, wenn es so ist kommt zusammen mit diesen Rezepten. Nochmals vielen Dank für Ihre Empfehlungen!
Arun
3

Ich würde folgende zwei Bücher empfehlen:

  1. Statistische Methoden für die Bioinformatik
  2. Die Elemente des statistischen Lernens
Biostat
quelle
Diese Bücher erklären gute Sachen, aber nicht die Sachen, nach denen das OP gefragt hat.
StasK
@StasK, Könntest du erklären, welche Sachen nicht in den obigen Büchern stehen?
Biostat
Ich unterrichtete an der HTF, und die Dinge, die ich an der HTF unterrichtete, betrafen Basisfunktionen, effektive Freiheitsgrade, Modellauswahl, Lasso, Kreuzvalidierung usw. MLE und GLM, an denen das OP interessiert war, werden bestenfalls nebenbei erwähnt. Es wird entweder davon ausgegangen, dass der Statistikstudent mit diesem Material aus seiner allgemeinen statistischen Ausbildung vertraut ist, oder CS-Studenten würden SVM anstelle der logistischen Regression als Reaktion auf binäre Ergebnisdaten verwenden. Bayesianisches Zeug wird auch nur insoweit erwähnt, als die Bayes'schen Entscheidungsregeln in gewissem Sinne optimal sind; sagen wir keine MCMC oder Konjugation.
StasK
Haben Sie das Buch "Statistische Methoden für die Bioinformatik" gelesen?
Biostat
@ Biostat, nein, ich habe nicht. Ich arbeite nicht in der Bioinformatik, aber ich weiß, dass es eine etwas andere Welt ist. Ich kann also keine vernünftigen Empfehlungen aussprechen. Meiner Meinung nach hat der Zweig der Biostatistik, der sich mit Modellen wie GLM, GEE, Längsschnitt- und Überlebensmodellen befasst, mehr mit Ökonometrie zu tun (so könnte Wooldridges Buch über Querschnitts- und Paneldatenmodelle eine gute Empfehlung für einige arbeitende Biostat-Leute sein mit diesen Modellen) als mit statistischer Genetik, familienbezogener Fehlerratenkontrolle und Data Mining, was Ihr Fachgebiet zu sein scheint.
StasK