Innerhalb der Statistik gab es viele Debatten zwischen Bayesianern und Frequentisten. Im Allgemeinen finde ich diese eher abstoßend (obwohl ich denke, dass es abgeklungen ist). Auf der anderen Seite habe ich einige Leute getroffen, die das Problem völlig pragmatisch beurteilen, und gesagt haben, dass es manchmal bequemer ist, eine frequentistische Analyse durchzuführen, und manchmal ist es einfacher, eine Bayes'sche Analyse durchzuführen. Ich finde diese Perspektive praktisch und erfrischend.
Mir fällt ein, dass es hilfreich wäre, eine Liste solcher Fälle zu haben. Weil es zu viele statistische Auswertungen gibt und ich davon ausgehe, dass es in der Regel praktischer ist, eine Frequentist-Analyse durchzuführen (das Codieren eines t-Tests in WinBUGS ist erheblich aufwendiger als der einzelne Funktionsaufruf, der für die Ausführung der auf Frequentisten basierenden Version in R erforderlich ist Zum Beispiel wäre es schön, eine Liste der Situationen zu haben, in denen ein Bayes-Ansatz einfacher, praktischer und / oder praktischer ist als ein frequentistischer Ansatz.
(Zwei Antworten, an denen ich kein Interesse habe, sind: 'immer' und 'nie'. Ich verstehe, dass die Leute eine starke Meinung haben, aber lasse sie bitte hier nicht aus. Wenn dieser Thread zu einem Schauplatz für kleine Streitereien wird, werde ich wahrscheinlich streichen Mein Ziel hier ist es, eine Ressource zu entwickeln, die für einen Analytiker nützlich ist, der einen Job zu erledigen hat, nicht eine Axt zum Schleifen.)
Menschen können gerne mehr als einen Fall vorschlagen, verwenden Sie dazu jedoch separate Antworten, damit jede Situation einzeln bewertet (abgestimmt / diskutiert) werden kann. Die Antworten sollten aufführen: (1) wie die Situation aussieht und (2) warum der Bayes'sche Ansatz in diesem Fall einfacher ist. Ein Code (z. B. in WinBUGS), der zeigt, wie die Analyse durchgeführt wird und warum die Bayes'sche Version praktischer ist, wäre ideal, aber ich erwarte, dass er zu umständlich sein wird. Wenn es einfach geht, würde ich es begrüßen, aber bitte erläutern, warum .
Schließlich erkenne ich, dass ich nicht definiert habe, was es bedeutet, dass ein Ansatz „einfacher“ als ein anderer ist. Die Wahrheit ist, ich bin nicht ganz sicher, was es bedeuten sollte, wenn ein Ansatz praktischer ist als der andere. Ich bin offen für verschiedene Vorschläge. Geben Sie einfach Ihre Interpretation an, wenn Sie erklären, warum eine Bayes'sche Analyse in der von Ihnen diskutierten Situation praktischer ist.
quelle
lm ()
in R, die einfacher zu verwenden ist? Oder gibt es noch etwas anderes?t.test()
ein Bayes'scher t-Test in WinBUGS verwendet, der wesentlich mehr Code erfordert , als dies bei der Codierung der Fall ist. Vielleicht hätte ich statt "praktischer" "einfacher" sagen sollen.Antworten:
(1) In Kontexten, in denen die Wahrscheinlichkeitsfunktion (zumindest numerisch) nicht realisierbar ist, hat die Verwendung des Bayes'schen Ansatzes mittels Approximate Bayesian Computation (ABC) gegenüber einigen häufigeren Konkurrenten wie zusammengesetzten Wahrscheinlichkeiten ( 1 , 2 ) an Boden gewonnen. oder die empirische Wahrscheinlichkeit, weil es in der Regel einfacher zu implementieren ist (nicht unbedingt richtig). Aus diesem Grund ist die Verwendung von ABC in Bereichen populär geworden, in denen es üblich ist, auf unlösbare Wahrscheinlichkeiten wie Biologie , Genetik und Ökologie zu stoßen . Hier könnten wir einen Ozean von Beispielen nennen.
Einige Beispiele für unlösbare Wahrscheinlichkeiten sind
Überlagerte Prozesse. Cox und Smith (1954) schlugen im Kontext der Neurophysiologie ein Modell vor, das aus überlagerten Punktprozessen besteht. Betrachten Sie zum Beispiel die Zeiten zwischen den elektrischen Impulsen, die an einem Teil des Gehirns beobachtet wurden und von mehreren Neuronen während eines bestimmten Zeitraums ausgesendet wurden. Diese Stichprobe enthält nicht-id-Beobachtungen, die es schwierig machen, die entsprechende Wahrscheinlichkeit zu berechnen, was die Schätzung der entsprechenden Parameter kompliziert. Eine (teilweise) frequentistische Lösung wurde kürzlich in diesem Artikel vorgeschlagen . Die Umsetzung des ABC - Ansatz wurde auch kürzlich untersucht und es kann gefunden werden hier .N
Die Populationsgenetik ist ein weiteres Beispiel für Modelle, die zu unlösbaren Wahrscheinlichkeiten führen. In diesem Fall hat die Unlösbarkeit einen anderen Charakter: Die Wahrscheinlichkeit wird in Form eines mehrdimensionalen Integrals (manchmal mit der Dimension ) was einige Jahrzehnte dauern würde, um es an einem einzelnen Punkt zu bewerten. Dieser Bereich ist wahrscheinlich der Hauptsitz von ABC.1000 +
quelle
Mit der Verbesserung der Bayes'schen Software wird das Problem der einfacheren Anwendung umstritten. Bayesianische Software wird immer einfacher verpackt. Ein aktuelles Beispiel stammt aus einem Artikel mit dem Titel: Die Bayes'sche Schätzung ersetzt den t-Test . Die folgende Website enthält Links zu dem Artikel und der Software: http://www.indiana.edu/~kruschke/BEST/
Ein Auszug aus der Einleitung des Artikels:
quelle
quelle
Ich bin in frequentistischen Statistik (Ökonometrie tatsächlich) trainiert, aber ich habe noch nie eine konfrontative Haltung gegenüber dem Bayes - Ansatz hatte, seit meiner Sicht ist , dass die philosophische Quelle dieses „epischen“ Kampfes von Anfang an grundsätzlich fehlgeleitet war (ich gelüftet habe meine Ansichten hier ). Tatsächlich plane ich, mich in naher Zukunft auch im Bayes'schen Ansatz zu schulen.
Warum? Da einer der Aspekte der frequentistischen Statistiken , die mich am meisten als mathematische und konzeptionelle Bestreben, zugleich fasziniert es stört mich am meisten: Probengröße Asymptotiken. Zumindest in der Ökonometrie, fast keineseriöses Papier behauptet heute, dass jeder der verschiedenen Schätzer, die üblicherweise in der frequentistischen Ökonometrie angewendet werden, alle wünschenswerten Eigenschaften einer "kleinen Stichprobe" besitzt, die wir von einem Schätzer erwarten würden. Sie alle stützen sich auf asymptotische Eigenschaften, um ihre Verwendung zu rechtfertigen. Die meisten Tests verwendet haben wünschenswerte Eigenschaften nur asymptotisch ... Aber wir sind nicht in „z-Land / t-Land“ mehr: all das anspruchsvolle (und formidable) Gerät der modernen frequentistischen Schätzung und Inferenz ist auch sehr idiosyncratic- was bedeutet, dass manchmal ein laaaaaaaaa ... ist aaaarge Probe in der Tat, um diese wertvollen asymptotischen Eigenschaften benötigt aufzutauchen und günstig die Schätzungen von den Schätzern abgeleitet beeinflussen, wie sie von verschiedenen Simulationen bewährt. Bedeutung Zehntausende von Beobachtungen -die obwohl sie für einige Bereiche der wirtschaftlichen Aktivität (wie Arbeit oder Finanzmärkte) zur Verfügung zu werden beginnen, gibt es andere (wie Makroökonomie), in dem sie nie (während meiner Lebensdauer mindestens) tun. Und das stört mich ziemlich, weil es die abgeleiteten Ergebnisse wirklich wiedergibtunsicher (nicht nur stochastisch).
Die Bayes'sche Ökonometrie für kleine Proben beruht nicht auf asymptotischen Ergebnissen. "Aber sie verlassen sich auf den subjektiven Prior !" ist die übliche Antwort ... auf , die, meint einfach, praktisch, Antwort ist folgende:. „ , wenn das Phänomen vor alt und studierte, kann der vor den vergangenen Daten nicht abschätzbar Wenn das Phänomen ist neu , von was sonst , wenn nicht Können wir mit subjektiven Argumenten die Diskussion darüber beginnen ?
quelle
Dies ist eine späte Antwort, trotzdem hoffe ich, dass es etwas hinzufügt. Ich bin in der Telekommunikation ausgebildet, wo wir die meiste Zeit den Bayes'schen Ansatz verwenden.
Hier ist ein einfaches Beispiel: Angenommen, Sie können vier mögliche Signale von +5, +2,5, -2,5 und -5 Volt übertragen. Eines der Signale von diesem Satz wird gesendet, aber das Signal wird durch Gaußsches Rauschen verfälscht, wenn es das Empfangsende erreicht. In der Praxis wird das Signal ebenfalls gedämpft, aber wir werden dieses Problem der Einfachheit halber weglassen. Die Frage ist: Wenn Sie am Empfangsende sind, wie können Sie einen Detektor entwerfen, der Ihnen sagt, welches dieser Signale ursprünglich gesendet wurde?
Dieses Problem liegt offensichtlich im Bereich des Hypothesentests. Sie können jedoch keine p-Werte verwenden, da Signifikanztests möglicherweise alle vier möglichen Hypothesen verwerfen können und Sie wissen, dass eines dieser Signale tatsächlich übertragen wurde. Wir können die Neyman-Pearson-Methode verwenden, um einen Detektor im Prinzip zu entwerfen, aber diese Methode funktioniert am besten für binäre Hypothesen. Für mehrere Hypothesen wird es zu umständlich, wenn Sie sich mit einer Anzahl von Einschränkungen für falsche Alarmwahrscheinlichkeiten befassen müssen. Eine einfache Alternative ist das Testen der Bayes'schen Hypothese. Jedes dieser Signale hätte zur Übertragung ausgewählt werden können, so dass der Stand der Technik gleich wahrscheinlich ist. In solchen Fällen läuft das Verfahren darauf hinaus, das Signal mit maximaler Wahrscheinlichkeit auszuwählen. Diese Methode kann eine schöne geometrische Interpretation gegeben werden: Wählen Sie das Signal, das dem empfangenen Signal am nächsten kommt. Dies führt auch zu einer Aufteilung des Entscheidungsraums in eine Anzahl von Entscheidungsbereichen, so dass dann, wenn das empfangene Signal in einen bestimmten Bereich fallen sollte, entschieden wird, dass die mit diesem Entscheidungsbereich verbundene Hypothese wahr ist. Dadurch wird der Aufbau eines Detektors erleichtert.
quelle
Sogenannte "Frequentist" -Statistiktests entsprechen unter bestimmten Voraussetzungen in der Regel dem im Prinzip komplexeren Bayes'schen Ansatz. Wenn diese Annahmen zutreffen, liefert jeder Ansatz das gleiche Ergebnis, sodass es sicher ist, den einfacher anzuwendenden Frequentist-Test zu verwenden. Der Bayes'sche Ansatz ist im Allgemeinen sicherer, da er die Annahmen explizit macht. Wenn Sie jedoch wissen, was Sie tun, ist der Frequentist-Test häufig genauso gut wie ein Bayes'scher Ansatz und in der Regel einfacher anzuwenden.
quelle
(Ich werde versuchen, was ich dachte, wäre die typischste Antwort.)
Angenommen, Sie haben eine Situation, in der es mehrere Variablen und eine Antwort gibt, und Sie wissen viel darüber, wie eine der Variablen mit der Antwort zusammenhängen sollte, aber nicht so viel über die anderen.
Wenn Sie in einer solchen Situation eine standardmäßige multiple Regressionsanalyse durchführen, wird dieses Vorwissen nicht berücksichtigt. Anschließend könnte eine Metaanalyse durchgeführt werden, die Aufschluss darüber geben könnte, ob das aktuelle Ergebnis mit den anderen Ergebnissen übereinstimmt und eine etwas genauere Schätzung zulässt (unter Einbeziehung der Vorkenntnisse zu diesem Zeitpunkt). Dieser Ansatz würde jedoch nicht zulassen, dass das, was über diese Variable bekannt war, die Schätzungen der anderen Variablen beeinflusst.
Eine andere Option ist, dass es möglich ist, Ihre eigene Funktion zu codieren und zu optimieren, die die Beziehung zu der fraglichen Variablen festlegt, und Parameterwerte für die anderen Variablen zu finden, die die Wahrscheinlichkeit der Daten bei dieser Einschränkung maximieren. Das Problem hierbei ist, dass die erste Option die Beta-Schätzung nicht ausreichend einschränkt, diese Methode sie jedoch überfordert.
Es kann möglich sein, einen Algorithmus zu beurteilen, der die Situation besser adressiert. Situationen wie diese scheinen ideale Kandidaten für die Bayes'sche Analyse zu sein. Jeder, der nicht dogmatisch gegen den Bayes'schen Ansatz ist, sollte bereit sein, ihn in solchen Fällen zu versuchen.
quelle
Ein Forschungsbereich, in dem die Bayes'schen Methoden äußerst einfach und die Frequentist-Methoden äußerst schwer zu befolgen sind, ist das Optimal Design .
Aus bayesianischer Sicht ist dieses Problem sehr einfach.
quelle
Vielleicht ist einer der einfachsten und häufigsten Fälle, in denen der Bayes'sche Ansatz einfacher ist, die Quantifizierung der Unsicherheit von Parametern.
In dieser Antwort beziehe ich mich nicht auf die Interpretation von Konfidenzintervallen gegenüber glaubwürdigen Intervallen. Angenommen, ein Benutzer kann mit beiden Methoden zufrieden sein.
Im Bayes'schen Rahmen ist dies klar und deutlich. Dies ist die marginale Varianz des Seitenzahns für jeden einzelnen interessierenden Parameter. Angenommen, Sie können vom posterior abtasten, dann nehmen Sie einfach Ihre Proben und berechnen Sie Ihre Varianzen. Getan!
Im Fall von Frequentist ist dies normalerweise nur in einigen Fällen einfach und es ist ein echter Schmerz, wenn dies nicht der Fall ist. Wenn wir eine große Anzahl von Stichproben im Vergleich zu einer kleinen Anzahl von Parametern haben (und wer wirklich weiß, wie groß genug ist), können wir die MLE-Theorie verwenden, um CIs abzuleiten. Diese Kriterien gelten jedoch nicht immer, insbesondere für interessante Fälle (dh Modelle mit gemischten Effekten). Manchmal können wir Bootstrapping verwenden, aber manchmal nicht! In den Fällen, in denen es nicht möglich ist, Fehlerschätzungen abzuleiten, kann es sehr schwierig sein, Fehler abzuschätzen, und sie erfordern oft ein wenig Klugheit (dh die Greenwood-Formel zum Ableiten von SEs für Kaplan-Meier-Kurven). "Mit etwas Cleverness" ist nicht immer ein verlässliches Rezept!
quelle