Die Inspiration für diese Frage stammt aus dem bekannten Artikel Statistical Modeling: The Two Cultures von Leo-Breiman (Open Access verfügbar). Der Autor vergleicht zwei seiner Meinung nach unterschiedliche Ansätze zur Datenanalyse und geht dabei auf Schlüsselideen der klassischen Statistik und des maschinellen Lernens ein. Der Artikel ist jedoch für ein breites Publikum verständlich - wohl für jeden, der mit Daten arbeitet, unabhängig davon, ob er bereits auf Doktorandenebene Statistik betrieben hat oder nur einen Einführungskurs absolviert hat. Darüber hinaus ist der Artikel anregend . Das heißt, es erzeugt leicht eine Diskussion (wie aus der Reihe lebhafter Kommentare hervorgeht, die in derselben Ausgabe veröffentlicht wurden).
Ich bin gespannt auf weitere Artikel mit diesen Eigenschaften. Das heißt, Artikel, die:
- Berühren Sie grundlegende Konzepte in der Statistik / Datenanalyse
- Kann von einem breiten Publikum in Bezug auf Variation im Forschungsschwerpunkt und formale statistische Ausbildung verstanden werden
- Anregung zur Diskussion, sei es durch Einsicht oder Kontroversen
quelle
Antworten:
Schmueli, Galit. "Erklären oder vorhersagen?" Statistical science (2010): 289 & ndash; 310.
Ich glaube, dass es Ihren drei Aufzählungspunkten entspricht.
Es geht um erklärende versus vorhersagende Modellierung (die Begriffe sollten selbsterklärend sein) und stellt fest, dass Unterschiede zwischen ihnen häufig nicht erkannt werden.
Es wird darauf hingewiesen, dass abhängig vom Ziel der Modellierung (erklärend gegenüber vorhersagend) unterschiedliche Modellbildungsstrategien verwendet und unterschiedliche Modelle als "das beste" Modell ausgewählt werden können.
Es ist ein ziemlich umfangreiches Papier und eine angenehme Lektüre. Eine Diskussion darüber ist in Rob J. Hyndmans Blog-Post zusammengefasst . Eine verwandte Diskussion zu Cross Validated befindet sich in diesem Thread (mit vielen positiven Stimmen). Dies ist eine weitere (nicht beantwortete) Frage zum selben Thema .
quelle
Es ist vielen nicht bekannt, aber als die Giganten des Berufs noch unter uns waren, kamen sie nicht gut miteinander aus. In der Debatte über die Grundlagen des Hypothesentests, ob er induktiv oder deduktiv sein soll, flogen einige ziemlich ernste Beleidigungen zwischen Fisher einerseits und Neyman-Pearson andererseits umher. Und das Thema wurde zu ihren Lebzeiten nie geklärt.
Lange nachdem alle vorbei sind, versucht Lehmann, die Lücke zu schließen und macht meiner Meinung nach einen guten Job, da er zeigt, dass die Ansätze sich ergänzen und nicht ausschließen. Das lernen die Schüler heutzutage übrigens. Sie müssen ein paar grundlegende Dinge über das Testen von Hypothesen wissen, aber Sie können dem Artikel auch ohne Probleme folgen.
quelle
Wilk, MB und Gnanadesikan, R. 1968. Wahrscheinlichkeitsplotmethoden für die Analyse von Daten. Biometrika 55: 1-17. Jstor Link, wenn Sie Zugriff haben
Dieses Papier ist zum Zeitpunkt meines Schreibens fast 50 Jahre alt, fühlt sich aber immer noch frisch und innovativ an. Anhand einer Vielzahl interessanter und aussagekräftiger Beispiele vereinen und erweitern die Autoren eine Vielzahl von Ideen zum Plotten und Vergleichen von Verteilungen im Rahmen von QQ- (Quantil-Quantil) und PP-Plots (Wahrscheinlichkeit-Wahrscheinlichkeit). Verteilungen bedeuten hier im Großen und Ganzen alle Datensätze oder Zahlen (Residuen, Kontraste usw. usw.), die bei ihren Analysen auftreten.
Bestimmte Versionen dieser Diagramme reichen mehrere Jahrzehnte zurück, ganz offensichtlich Diagramme mit normaler Wahrscheinlichkeit oder normaler Punktzahl. Hierbei handelt es sich um Quantil-Quantil-Diagramme, d. h. Diagramme von beobachteten Quantilen gegenüber erwarteten oder theoretischen Quantilen aus einer Probe gleicher Größe mit normaler (Gauß'scher) Verteilung. Die Autoren zeigen jedoch bescheiden und dennoch zuversichtlich, dass dieselben Ideen leicht - und praktisch mit modernem Computing - erweitert werden können, um andere Arten von Quantilen zu untersuchen und die Ergebnisse automatisch zu zeichnen.
Die Autoren, damals beide bei Bell Telephone Laboratories, verfügten über hochmoderne Computereinrichtungen, und selbst viele Universitäten und Forschungseinrichtungen brauchten etwa ein Jahrzehnt, um aufzuholen. Sogar jetzt verdienen die Ideen in diesem Papier eine breitere Anwendung als sie erhalten werden. Es handelt sich um einen seltenen Einführungstext oder Kurs, der eine dieser Ideen außer dem normalen QQ-Plot enthält. Histogramme und Box-Plots (von denen jedes oft sehr nützlich, aber dennoch umständlich und in verschiedener Hinsicht begrenzt ist) sind weiterhin die Hauptgrundlagen für die Einführung von Verteilungsplots.
Persönlich mag ich es, wenngleich die Hauptideen dieses Papiers den größten Teil meiner Karriere lang bekannt waren, es alle paar Jahre erneut zu lesen. Ein guter Grund ist die Freude an der Art und Weise, wie die Autoren einfache, aber wirkungsvolle Ideen mit seriösen Beispielen zum Tragen bringen. Ein weiterer guter Grund ist die Art und Weise, wie das Papier, das kurz und bombastisch geschrieben ist, auf Erweiterungen der Hauptideen hinweist. Mehr als einmal habe ich Wendungen in Bezug auf die Hauptideen entdeckt, die explizit in Hinweisen und weiteren Kommentaren behandelt werden.
Dies ist nicht nur ein Artikel für diejenigen, die sich besonders für statistische Grafiken interessieren. Meiner Meinung nach sollte dies jedoch jeden einschließen, der sich für Statistiken jeglicher Art interessiert. Es fördert das Denken über Verteilungen, die praktisch hilfreich sind, um die statistischen Fähigkeiten und Erkenntnisse eines Menschen zu entwickeln.
quelle
Ioannidis, John PA "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind." PLoS Medicine (2005)
Ioannidis, John PA "Wie man mehr veröffentlichte Forschung wahr macht." PLoS Medicine (2014)
Muss für jeden Forscher / Statistiker / Analysten gelesen werden, der die Gefahren vermeiden möchte, Statistiken in der Forschung falsch zu verwenden und zu interpretieren. Der Artikel aus dem Jahr 2005 war der am häufigsten aufgerufene in der Geschichte der Public Library of Science und hat viele Kontroversen und Diskussionen ausgelöst.
quelle
Tukey, JW (1960) Schlussfolgerungen vs. Entscheidungen Technometrics 2 (4): 423-433
Dieses Papier basiert auf einem Vortrag von Tukey nach dem Abendessen, und es gibt einen Kommentar, der "erhebliche Diskussionen zur Folge hatte", sodass er mindestens dem Drittel Ihrer Punktzahl entspricht.
Ich habe dieses Papier zum ersten Mal gelesen, als ich einen Doktortitel in Ingenieurwissenschaften abschloss, und habe die Erforschung der praktischen Aspekte der Datenanalyse geschätzt.
quelle
Efron und Morris, 1977, Steins Paradox in Statistics .
Efron und Morris verfassten in den 1970er Jahren eine Reihe von Fachartikeln zum James-Stein-Schätzer, in denen sie Steins "Paradoxon" im Kontext von Empirical Bayes darlegten. Das Papier von 1977 ist ein populäres, das in Scientific American veröffentlicht wurde .
Es ist eine großartige Lektüre.
quelle
Nun, trotz des größeren Interesses an Roy Model unter den Ökonomen (aber ich kann mich irren) ist seine Originalarbeit "Some Thoughts on the Distribution of Earnings" von 1951 eine aufschlussreiche und nichttechnische Diskussion über das Problem der Selbstauswahl. Dieses Papier diente als Inspiration für die vom Nobelpreis James Heckman entwickelten Auswahlmodelle. Obwohl alt, denke ich, dass es Ihren drei Aufzählungspunkten entspricht.
quelle