Ich erinnere mich noch an das Papier Annals of Statistics on Boosting von Friedman-Hastie-Tibshirani und an die Kommentare anderer Autoren (einschließlich Freund und Schapire) zu denselben Themen. Damals galt Boosting in vielerlei Hinsicht als Durchbruch: rechnerisch machbar, eine Ensemblemethode mit hervorragender und dennoch mysteriöser Performance. Etwa zur gleichen Zeit wurde SVM erwachsen und bot ein solides theoretisches Gerüst mit zahlreichen Varianten und Anwendungen.
Das war in den wunderbaren 90ern. In den letzten 15 Jahren schien es mir, dass viele Statistiken eine Reinigungs- und Detaillierungsoperation waren, aber mit wenigen wirklich neuen Ansichten.
Also werde ich zwei Fragen stellen:
- Habe ich ein revolutionäres Papier verpasst?
- Wenn nicht, gibt es neue Ansätze, die Ihrer Meinung nach den Standpunkt der statistischen Inferenz verändern können?
Regeln:
- Eine Antwort pro Post;
- Verweise oder Links sind willkommen.
PS: Ich habe einige Kandidaten für vielversprechende Durchbrüche. Ich werde sie später posten.
quelle
Antworten:
Die Antwort ist so einfach , dass ich das alles Kauderwelsch schreiben machen CV lassen Sie mich schreiben: R
quelle
Ich bin mir nicht sicher, ob Sie es als "Durchbruch" bezeichnen würden, aber die Veröffentlichung der Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft von Edwin Jaynes und Larry Bretthorst ist vielleicht bemerkenswert. Einige der Dinge, die sie hier tun, sind:
1) Gleichwertigkeit zwischen einigen iterativen "Saisonbereinigungs" -Schemata und der Bayes'schen "Störparameter" -Integration zeigen.
2) das sogenannte "Marginalisierungsparadoxon" gelöst - das von einigen als "Tod des Bayesianismus" und von anderen als "Tod unzulässiger Vorgesetzter" angesehen wird.
3) die Vorstellung, dass Wahrscheinlichkeit einen Wissensstand über einen Satz beschreibt, der wahr oder falsch ist, im Gegensatz zur Beschreibung einer physikalischen Eigenschaft der Welt .
Die ersten drei Kapitel dieses Buches sind hier kostenlos erhältlich .
quelle
Als angewandter Statistiker und gelegentlicher kleiner Software-Autor würde ich sagen:
WinBUGS (veröffentlicht 1997)
Es basiert auf BUGS, das vor mehr als 15 Jahren (1989) veröffentlicht wurde, aber es ist WinBUGS, das die Bayes'sche Analyse von realistisch komplexen Modellen einer viel breiteren Anwenderbasis zur Verfügung stellt. Siehe z. B. Lunn, Spiegelhalter, Thomas & Best (2009) (und die Diskussion dazu in Statistics in Medicine, Band 28, Ausgabe 25 ).
quelle
Stan
es raus ist?LARS bekommt meine Stimme. Es kombiniert lineare Regression mit variabler Auswahl. Berechnungsalgorithmen liefern normalerweise eine Sammlung von linearen Modellen, von denen das te Koeffizienten ungleich Null für nur Regressoren hat, sodass Sie Modelle mit unterschiedlicher Komplexität leicht betrachten können.i ik i i
quelle
Die Einführung der Verlustfunktion "intrinsische Diskrepanz" und anderer Verlustfunktionen "ohne Parametrisierung" in die Entscheidungstheorie. Es hat viele andere "nette" Eigenschaften, aber ich denke, die beste ist wie folgt:
Wenn die beste Schätzung der unter Verwendung der intrinsische Diskrepanz Verlustfunktion ist , dann ist die beste Schätzung von einer-zu-Eins - Funktion der sagen ist einfach .θ e θ g ( θ ) g ( θ e )θ θe θ g(θ) g(θe)
Ich finde das sehr cool! (z. B. beste Schätzung der logarithmischen Wahrscheinlichkeit ist log (p / (1-p)), beste Schätzung der Varianz ist das Quadrat der Standardabweichung usw. usw.)
Der Fang? Die eigentliche Diskrepanz kann ziemlich schwierig zu erarbeiten sein! (Es beinhaltet min () -Funktion, ein Likelihood-Verhältnis und Integrale!)
Der "Gegenfang"? Sie können das Problem "neu ordnen", so dass es einfacher zu berechnen ist!
Der "Counter-Counter-Catch"? herauszufinden, wie das Problem "neu angeordnet" werden kann, kann schwierig sein!
Hier sind einige Referenzen, von denen ich weiß, dass sie diese Verlustfunktion verwenden. Obwohl mir die "intrinsischen Schätzungen" dieser Artikel / Folien sehr gefallen, habe ich einige Vorbehalte gegen den ebenfalls beschriebenen "Referenz-Prior" -Ansatz.
Testen der Bayes'schen Hypothese: Ein Referenzansatz
Intrinsische Schätzung
Normale Mittel vergleichen: Neue Methoden für ein altes Problem
Integrierte objektive Bayes'sche Schätzung und Hypothesentests
quelle
Ich glaube, nur innerhalb des 15-Jahres-Fensters liegen die Algorithmen zur Steuerung der False Discovery Rate . Ich mag den 'Q-Value'-Ansatz.
quelle
Zusammen mit meinen eigenen 5 Cent glaube ich, dass der bedeutendste Durchbruch der letzten 15 Jahre Compressed Sensing war. LARS, LASSO und eine Vielzahl anderer Algorithmen fallen in diesen Bereich, indem Compressed Sensing erklärt, warum sie funktionieren, und sie auf andere Bereiche erweitert.
quelle
Was mit der Statistik selbst sehr wenig zu tun hat, aber von großem Nutzen ist: Die zunehmende Feuerkraft von Computern, die Erleichterung des Zugriffs auf größere Datensätze und komplexere statistische Analysen, insbesondere in angewandten Bereichen.
quelle
Der Expectation-Propagation-Algorithmus für die Bayes'sche Inferenz, insbesondere in der Gauß'schen Prozessklassifikation, war wohl ein bedeutender Durchbruch, da er eine effiziente analytische Approximationsmethode bietet, die (anders als die übliche Laplace-Approximation) fast genauso gut funktioniert wie rechenintensive stichprobenbasierte Ansätze. Sehen Sie die Arbeit von Thomas Minka und anderen auf der EP-Roadmap
quelle
Ich denke, dass die 'Approximate Bayesian Inference for Latent Gaussian Models Using Integrated Nested Laplace Approximations' von H. Rue et. al (2009) ist ein potenzieller Kandidat.
quelle
Meiner Meinung nach ist alles, was es Ihnen ermöglicht, neue Modelle in großem Maßstab zu betreiben, ein Durchbruch. Die Kerninterpolation für skalierbare strukturierte Gauß-Prozesse (KISS-GP) könnte ein Kandidat sein (obwohl die Idee neu ist und es nicht viele Implementierungen der vorgestellten Idee gegeben hat).
quelle
Ein bisschen allgemeiner als die Statistik, glaube ich, dass die Methoden der reproduzierbaren Forschung (RR) wichtige Fortschritte gemacht haben . Zum Beispiel die Entwicklung von R
knittr
undSweave
Pakete und "R Markdown" -Notebooks sowie LyX- und LaTeX-Verbesserungen haben erheblich zum Datenaustausch, zur Zusammenarbeit, zur Überprüfung / Validierung und sogar zu weiteren statistischen Verbesserungen beigetragen. Referierte Arbeiten in statistischen, medizinischen und epidemiologischen Fachzeitschriften ermöglichten es selten, die Ergebnisse einfach zu reproduzieren, bevor diese reproduzierbaren Forschungsmethoden / -technologien auf den Markt kamen. Inzwischen erfordern mehrere Zeitschriften reproduzierbare Recherchen, und viele Statistiker verwenden RR und Buchungscode sowie deren Ergebnisse und Datenquellen im Internet. Dies hat auch dazu beigetragen, datenwissenschaftliche Disziplinen zu fördern und das statistische Lernen zugänglicher zu machen.quelle
Meiner Meinung nach wurde der Artikel 2011 in der Zeitschrift Science veröffentlicht. Die Autoren schlagen ein sehr interessantes Maß für die Assoziation zwischen zwei Zufallsvariablen vor, das in vielen Situationen gut funktioniert, in denen ähnliche Maßnahmen versagen (Pearson, Spearman, Kendall). Wirklich schönes Papier. Hier ist es.
quelle