Was sind die "großen Probleme" in der Statistik?

77

Die Mathematik hat ihre berühmten Millenniumsprobleme (und historisch gesehen Hilberts 23 ), Fragen, die dazu beigetragen haben, die Richtung des Feldes zu bestimmen.

Ich habe jedoch keine Ahnung, wie die Riemann-Hypothesen und die P-gegen-NP-Werte der Statistik aussehen würden.

Also, was sind die übergreifenden offenen Fragen in der Statistik?

Bearbeitet, um hinzuzufügen: Als Beispiel für den allgemeinen Geist (wenn auch nicht ganz bestimmten) der Antwort, die ich suche, fand ich einen "Hilbert's 23" -inspirierten Vortrag von David Donoho auf einer "Math Challenges of the 21st Century" -Konferenz: Hochdimensionale Datenanalyse: Die Flüche und Segnungen der Dimensionalität

Eine mögliche Antwort könnte sich also auf Big Data und die Frage beziehen, warum dies wichtig ist, welche statistischen Herausforderungen hochdimensionale Daten darstellen und welche Methoden entwickelt oder welche Fragen beantwortet werden müssen, um das Problem zu lösen.

raegtin
quelle
5
Vielen Dank, dass Sie dies gepostet haben. Es ist eine wichtige (und möglicherweise inspirierende) Diskussion.
whuber

Antworten:

48

Eine große Frage sollte zentrale Fragen der statistischen Methodik betreffen oder, da es sich bei der Statistik ausschließlich um Anwendungen handelt, die Verwendung der Statistik bei Problemen, die für die Gesellschaft wichtig sind.

Diese Charakterisierung legt nahe, dass Folgendes bei jeder Betrachtung großer Probleme berücksichtigt werden sollte:

  • Wie man am besten Arzneimittelstudien durchführt . Derzeit erfordert das Testen klassischer Hypothesen viele formale Studienphasen. In späteren (konfirmatorischen) Phasen spielen die wirtschaftlichen und ethischen Fragen eine große Rolle. Können wir es besser machen? Müssen wir Hunderte oder Tausende Kranke in Kontrollgruppen einordnen und dort bis zum Ende einer Studie aufbewahren, oder können wir bessere Wege finden, um wirklich wirksame Behandlungen zu identifizieren und sie den Mitgliedern der Studie zu verabreichen (und andere) früher?

  • Umgang mit wissenschaftlichen Publikationsbias . Negative Ergebnisse werden viel weniger einfach veröffentlicht, weil sie einfach keinen magischen p-Wert erreichen. Alle Wissenschaftszweige müssen bessere Wege finden, um wissenschaftlich wichtige und nicht nur statistisch signifikante Ergebnisse ans Licht zu bringen. (Das Mehrfachvergleichsproblem und der Umgang mit hochdimensionalen Daten sind Unterkategorien dieses Problems.)

  • Erforschung der Grenzen statistischer Methoden und ihrer Schnittstellen zum maschinellen Lernen und zur maschinellen Wahrnehmung . Unvermeidliche Fortschritte in der Computertechnologie werden wahre KI in unserem Leben zugänglich machen. Wie programmieren wir künstliche Gehirne? Welche Rolle könnten statistisches Denken und statistisches Lernen bei der Schaffung dieser Fortschritte spielen? Wie können Statistiker dabei helfen, über künstliches Erkennen und künstliches Lernen nachzudenken, ihre Grenzen auszuloten und Fortschritte zu erzielen?

  • Entwicklung besserer Methoden zur Analyse von Geodaten . Es wird oft behauptet, dass die Mehrheit oder die überwiegende Mehrheit der Datenbanken Standortreferenzen enthält. Bald werden viele Menschen und Geräte mit GPS- und Handytechnologien in Echtzeit lokalisiert. Statistische Methoden zur Analyse und Nutzung von Geodaten stecken noch in den Kinderschuhen (und scheinen auf GIS und Geodaten-Software, die in der Regel von Nicht-Statistikern verwendet wird, verwiesen zu werden).

whuber
quelle
1
Wie versuchen Menschen, diese Probleme zu lösen?
Start
3
@grautur: Das sind vier hervorragende Fragen (und viele weitere, da Ihre Antwort auf jede Antwort in diesem Thread zutrifft). Sie alle verdienen ausführliche Antworten, aber dafür ist hier offensichtlich kein Platz: Eine Frage nach der anderen, bitte!
Whuber
3
Zum ersten Punkt (Arzneimittelstudien): Auch Personen, die ansonsten möglicherweise nicht an medizinischen Experimenten interessiert sind, sollten den NYTimes-Artikel New Drugs Stir Debate über grundlegende Regeln für klinische Studien lesen ( nytimes.com/2010/09/19/health/research/). … ). Der statistisch versierte Leser wird sofort die unausgesprochenen Auswirkungen auf die Versuchsplanung und die Verwendung von p-Werten für die Entscheidungsfindung erkennen. Irgendwo gibt es eine statistische Lösung für das in diesem Artikel beschriebene Rätsel um Leben und Tod.
Whuber
26

Michael Jordan hat einen kurzen Artikel mit dem Titel Was sind die offenen Probleme in der Bayes'schen Statistik? , in dem er eine Reihe von Statistikern nach ihren Ansichten zu den offenen Problemen in der Statistik befragte. Ich werde hier ein wenig zusammenfassen (auch bekannt als "Kopieren und Einfügen"), aber es ist wahrscheinlich am besten, nur das Original zu lesen.

Nichtparametrie und Semiparametrie

  • Für welche Probleme ist Bayes'sche Nichtparametrie nützlich und die Mühe wert?
  • David Dunson: "Nichtparametrische Bayes-Modelle beinhalten unendlich viele Parameter, und die Prioritäten werden in der Regel aus Bequemlichkeitsgründen mit Hyperparametern gewählt, die auf scheinbar vernünftige Werte eingestellt sind, ohne dass eine angemessene objektive oder subjektive Rechtfertigung vorliegt."
  • "Mehrere Personen stellten fest, dass eine der attraktivsten Anwendungen der frequentistischen Nichtparametrie die semiparametrische Inferenz ist, bei der die nichtparametrische Komponente des Modells ein Störparameter ist. Diese Personen hielten es für wünschenswert, die (frequentistische) Theorie von zu konkretisieren Bayesianische Semiparametrie. "

Priors

  • "Die Elicitation bleibt eine Hauptursache für offene Probleme."
  • "Aad van der Vaart stellte das objektive Bayes auf den Kopf und wies auf einen Mangel an Theorie für" Situationen, in denen das Vorherige im Seitenzahnbereich durchgesetzt werden soll ", im Gegensatz zu" lediglich einem Bayes'schen Ansatz zur Glättung "."

Bayesianisch-frequentistische Beziehungen

  • "Viele Befragte äußerten den Wunsch, die bayesianisch-frequentistischen Beziehungen weiter auszubauen. Dies wurde am häufigsten im Zusammenhang mit hochdimensionalen Modellen und Daten deutlich, bei denen es nicht nur schwierig ist, subjektive Ansätze für die Spezifikation von Prioren zu implementieren, sondern auch zweckmäßige (hoch) irreführend. "
  • Einige Befragte wollten nicht-asymptotische Theorien, die die mutmaßlichen Vorteile der Bayes'schen Methoden besser aufzeigen könnten. zB David Dunson: "Oft wird die häufigste optimale Rate durch Verfahren erzielt, die in endlichen Stichproben eindeutig schlechter abschneiden als Bayes'sche Ansätze."

Berechnung und Statistik

  • Alan Gelfand: "Wenn MCMC für die Probleme, die die Menschen angehen möchten, nicht mehr tragfähig ist, welche Rolle spielen dann INLA, Variationsmethoden und ABC-Ansätze?"
  • Mehrere Befragte forderten eine gründlichere Integration von Computerwissenschaften und Statistikwissenschaften und stellten fest, dass die Schlussfolgerungen, die man in einer bestimmten Situation ziehen kann, gemeinsam eine Funktion des Modells, des Standes der Technik, der Daten und der Rechenressourcen und des Wunsches sind In der Tat hat Rob Kass die Möglichkeit eines Begriffs der "inferentiellen Lösbarkeit" angesprochen, bei dem einige Probleme als hoffnungslos angesehen werden (z. B.Modellauswahl in der Regression, bei der „für bescheidene Mengen von Daten, die nicht trivialem Rauschen ausgesetzt sind, keine nützlichen Konfidenzintervalle für Regressionskoeffizienten erhalten werden können, wenn es eine große Anzahl von Variablen gibt, deren Vorhandensein oder Fehlen im Modell a priori nicht spezifiziert ist“) und wo es gibt andere probleme ("bestimmte funktionalitäten, für die nützliche vertrauensintervalle bestehen"), auf die hoffnung besteht. "
  • "Während sich mehrere Befragte für eine bestimmte Unbestimmtheit entschuldigten, äußerten sie das Gefühl, dass eine große Datenmenge nicht unbedingt eine große Rechenmenge impliziert, sondern dass die in großen Daten vorhandene Inferenzstärke auf irgendeine Weise auf den Algorithmus übertragen und ermöglicht werden sollte mit weniger Rechenschritten auszukommen, um eine zufriedenstellende (ungefähre) Inferenzlösung zu erhalten. "

Modellauswahl und Hypothesentest

  • β1
  • Notwendigkeit weiterer Arbeiten zu entscheidungswissenschaftlichen Grundlagen bei der Modellauswahl.
  • David Spiegelhalter: "Wie lassen sich Überprüfungen auf Prioritäten und Datenkonflikte am besten zu einem integralen Bestandteil der Bayes'schen Analyse machen?"
  • Andrew Gelman: "Für die Modellprüfung ist die Entwicklung grafischer Tools zum Verstehen und Vergleichen von Modellen ein wichtiges offenes Problem. Grafiken sind nicht nur für Rohdaten gedacht, sondern komplexe Bayes-Modelle bieten die Möglichkeit einer besseren und effektiveren explorativen Datenanalyse."
raegtin
quelle
13

Ich bin nicht sicher, wie groß sie sind, aber es gibt eine Wikipedia-Seite für ungelöste Probleme in der Statistik. Ihre Liste enthält:

Rückschluss und Prüfung

  • Systematische Fehler
  • Zulässigkeit des Graybill-Deal-Schätzers
  • Abhängige p-Werte in der Meta-Analyse kombinieren
  • Behrens-Fisher-Problem
  • Mehrere Vergleiche
  • Offene Probleme in der Bayes'schen Statistik

Experimentelles Design

  • Probleme in lateinischen Quadraten

Probleme philosophischer Natur

  • Probenahme von Artenproblemen
  • Weltuntergangsargument
  • Austauschparadoxon
gung
quelle
6

Als Beispiel für den allgemeinen Geist (wenn auch nicht ganz spezifischen) der Antwort, die ich suche, fand ich einen von "Hilberts 23" inspirierten Vortrag von David Donoho auf einer Konferenz "Math Challenges of the 21st Century":

Hochdimensionale Datenanalyse: Die Flüche und Segnungen der Dimensionalität

raegtin
quelle
2
Darf ich vorschlagen, dass Sie Ihre Hauptfrage so bearbeiten, dass diese Informationen enthalten sind?
Russellpierce
4

Mathoverflow hat eine ähnliche Frage zu großen Problemen in der Wahrscheinlichkeitstheorie .

Auf dieser Seite scheint es, als hätten die größten Fragen damit zu tun, zufällige Spaziergänge und Perkolationen zu vermeiden.

Robby McKilliam
quelle
1
Ich denke, Statistik ist jedoch ein getrennter Bereich von der Wahrscheinlichkeitstheorie.
Start
3
@raegtin - Ich denke nicht, dass die Wahrscheinlichkeitstheorie von der Statistik getrennt ist, sondern vielmehr die Theorie. "Statistik" ist die Anwendung der Wahrscheinlichkeitstheorie auf Inferenzprobleme (dh die Praxis).
Wahrscheinlichkeitslogik
3

Meine Antwort wäre der Kampf zwischen frequentistischer und bayesianischer Statistik. Wenn Leute dich fragen, an was du "glaubst", ist das nicht gut! Besonders für eine wissenschaftliche Disziplin.

pmgjones
quelle
2
Es ist nichts Falsches daran, dass ein Wissenschaftler an etwas "glaubt", zumal eine Bayes'sche Wahrscheinlichkeit den Grad des Glaubens oder des Wissens über die Wahrheit eines Satzes darstellt.
Dikran Beuteltier
2
... Das Problem entsteht nur, wenn ein Wissenschaftler nicht zwischen einer Überzeugung und einer Tatsache unterscheiden kann. Es gibt nichts Unwissenschaftliches an der Annahme, dass Bayesianische oder frequentistische Statistiken überlegen sind, da es keinen objektiven Test gibt, der über die Antwort entscheiden kann (AFAIK), so dass die Wahl weitgehend subjektiv und / oder eine Frage von "Pferden für Kurse" ist.
Dikran Beuteltier
@propofol - Ich stimme zu, dass das Wort "glauben" kein angemessener Begriff für die Statistik ist - es enthält die falschen Konnotationen. Information ist meines Erachtens ein viel passenderes Wort (zB "Welche Informationen haben Sie?"). Es ändert weder die Mathematik noch die Optimalitätssätze der Bayes'schen Analyse, aber es gibt ihnen die richtige Bedeutung in Bezug darauf, wie sie tatsächlich verwendet werden. Beispielsweise ist die Kenntnis einer physikalischen Theorie oder eines Kausalmechanismus Information und kein Glaube.
Wahrscheinlichkeitslogik