Wann (und warum) lehnen Bayesianer gültige Bayes'sche Methoden ab? [geschlossen]

9

Nach dem, was ich gelesen habe und nach Antworten auf andere Fragen, die ich hier gestellt habe, entsprechen viele sogenannte frequentistische Methoden mathematisch (es ist mir egal, ob sie philosophisch korrespondieren , es ist mir nur wichtig, ob sie mathematisch entsprechen) speziellen Fällen von sogenannten Bayesianische Methoden (für diejenigen, die dagegen sind, siehe den Hinweis am Ende dieser Frage). Diese Antwort auf eine verwandte Frage (nicht meine) stützt diese Schlussfolgerung:

Die meisten häufig vorkommenden Methoden haben ein Bayes'sches Äquivalent, das unter den meisten Umständen im Wesentlichen das gleiche Ergebnis liefert.

Beachten Sie, dass im Folgenden mathematisch gleich zu sein bedeutet, dasselbe Ergebnis zu erzielen. Wenn Sie zwei Methoden charakterisieren, von denen nachgewiesen werden kann, dass sie immer die gleichen Ergebnisse als "unterschiedlich" liefern, ist dies Ihr Recht, aber dies ist ein philosophisches Urteil, weder ein mathematisches noch ein praktisches.

Viele Menschen, die sich selbst als "Bayesianer" beschreiben, scheinen jedoch unter keinen Umständen die Verwendung der Maximum-Likelihood-Schätzung abzulehnen, obwohl dies ein Sonderfall von ( mathematisch ) Bayes'schen Methoden ist, da es sich um eine "frequentistische Methode" handelt. Anscheinend verwenden Bayesianer im Vergleich zu Frequentisten auch eine begrenzte Anzahl von Verteilungen, obwohl diese Verteilungen auch aus Bayes'scher Sicht mathematisch korrekt wären .

Frage: Wann und warum lehnen Bayesianer Methoden ab, die aus Bayes'scher Sicht mathematisch korrekt sind? Gibt es eine Rechtfertigung dafür, die nicht "philosophisch" ist?

Geben Sie hier die Bildbeschreibung ein

Hintergrund / Kontext: Das Folgende sind Zitate aus Antworten und Kommentaren zu einer früheren Frage von mir auf CrossValidated :

Die mathematische Grundlage für die Debatte zwischen Bayes und Frequentisten ist sehr einfach. In der Bayes'schen Statistik wird der unbekannte Parameter als Zufallsvariable behandelt. in der frequentistischen Statistik wird es als festes Element behandelt ...

Aus dem Vorstehenden wäre ich zu dem Schluss gekommen, dass ( mathematisch gesehen ) Bayes'sche Methoden allgemeiner sind als frequentistische, in dem Sinne, dass frequentistische Modelle alle gleichen mathematischen Annahmen erfüllen wie Bayes'sche, aber nicht umgekehrt. Dieselbe Antwort argumentierte jedoch, dass meine Schlussfolgerung aus dem oben Gesagten falsch war (die Betonung im Folgenden liegt bei mir):

Obwohl die Konstante ein Sonderfall einer Zufallsvariablen ist, würde ich zögern zu schließen, dass der Bayesianismus allgemeiner ist. Sie würden keine häufig auftretenden Ergebnisse von Bayes'schen erhalten, wenn Sie die Zufallsvariable einfach auf eine Konstante reduzieren. Der Unterschied ist tiefer ...

Zu persönlichen Vorlieben gehen ... Ich mag es nicht, dass die Bayes'sche Statistik eine ziemlich eingeschränkte Teilmenge der verfügbaren Distributionen verwendet.

Ein anderer Benutzer, in ihrer Antwort, das Gegenteil festgestellt, dass Bayes - Methoden sind allgemeinere, obwohl seltsam genug der beste Grund , warum ich für nicht finden könnte , warum dies der Fall in der vorherige Antwort war sein könnte, von jemandem gegeben als frequentistischen ausgebildet.

Die mathematische Konsequenz ist, dass Frequentisten glauben, dass die Grundgleichungen der Wahrscheinlichkeit nur manchmal gelten, und Bayesianer denken, dass sie immer gelten. Sie sehen die gleichen Gleichungen als richtig an, unterscheiden sich jedoch darin, wie allgemein sie sind ... Bayesian ist streng allgemeiner als Frequentist. Da über jede Tatsache Unsicherheit bestehen kann, kann jeder Tatsache eine Wahrscheinlichkeit zugewiesen werden. Insbesondere wenn sich die Fakten, an denen Sie arbeiten, auf Frequenzen der realen Welt beziehen (entweder als etwas, das Sie vorhersagen, oder als Teil der Daten), können Bayes'sche Methoden sie genauso berücksichtigen und verwenden wie jede andere reale Tatsache. Folglich kann jedes Problem, an dem Frequentisten glauben, dass ihre Methoden auf Bayesianer angewendet werden, auch auf natürliche Weise bearbeitet werden.

Aus den obigen Antworten habe ich den Eindruck, dass es mindestens zwei verschiedene Definitionen des häufig verwendeten Begriffs Bayesian gibt. Das erste würde ich "mathematisch Bayesian" nennen, das alle Methoden der Statistik umfasst, da es Parameter enthält, die konstante RVs sind und solche, die keine konstanten RVs sind. Dann gibt es "kulturell Bayesian", das einige "mathematisch Bayesian" -Methoden ablehnt, weil diese Methoden "frequentistisch" sind (dh aus persönlicher Feindseligkeit gegenüber dem Parameter, der manchmal als Konstante oder Frequenz modelliert wird). Eine andere Antwort auf die oben genannte Frage scheint diese Vermutung ebenfalls zu stützen:

Es ist auch anzumerken, dass es zwischen den Modellen, die von den beiden Lagern verwendet werden, viele Unterschiede gibt, die mehr mit dem zu tun haben, was getan wurde als mit dem, was getan werden kann (dh viele Modelle, die traditionell von einem Lager verwendet werden, können vom anderen Lager gerechtfertigt werden ).

Ich denke, eine andere Möglichkeit, meine Frage zu formulieren, wäre die folgende: Warum nennen sich kulturelle Bayesianer Bayesianer, wenn sie viele mathematisch Bayesianische Methoden ablehnen? Und warum lehnen sie diese mathematisch Bayes'schen Methoden ab? Ist es persönliche Feindseligkeit für die Menschen, die diese speziellen Methoden am häufigsten anwenden?

Bearbeiten: Zwei Objekte sind im mathematischen Sinne äquivalent, wenn sie dieselben Eigenschaften haben , unabhängig davon, wie sie aufgebaut sind. Zum Beispiel kann ich mir mindestens fünf verschiedene Möglichkeiten vorstellen, um die imaginäre Einheit zu konstruieren . Dennoch gibt es nicht mindestens fünf verschiedene "Denkschulen" zum Studium imaginärer Zahlen; Tatsächlich glaube ich, dass es nur eine gibt, nämlich die Gruppe, die ihre Eigenschaften untersucht. Für diejenigen, die Einwände erheben, dass das Erhalten einer Punktschätzung unter Verwendung der maximalen Wahrscheinlichkeit nicht dasselbe ist wie das Erhalten einer Punktschätzung unter Verwendung des Maximums a priori und eines einheitlichen Prior, da die beteiligten Berechnungen unterschiedlich sind, ich zu, dass sie sich in einer philosophischenich Sinne unterscheiden, sondern zu das Ausmaß, dass sie immerGeben Sie die gleichen Werte für die Schätzung an, sie sindmathematisch äquivalent, weil sie die gleichen Eigenschaften haben . Vielleicht ist der philosophische Unterschied für Sie persönlich relevant, aber für diese Frage ist er nicht relevant.

Hinweis: Diese Frage hatte ursprünglich eine falsche Charakterisierung der MLE-Schätzung und der MAP-Schätzung mit einem einheitlichen Prior.

Chill2Macht
quelle
8
(-1) Diese Frage basiert auf falschen Annahmen. MLE entspricht nicht der Verwendung eines einheitlichen Prior, sondern der Verwendung eines einheitlichen Prior und der Auswahl des Modus der posterioren Verteilung (also MAP mit einheitlichem Prior). Wenn MLE verwendet wird , wird der Parameter nicht eine Zufallsvariable, so Konstruktionen wie als oder Integrale über ist mathematisch nicht sinnvoll. θ yP.r(θ[0,1]]y)θy
Juho Kokkala
3
Ich erinnere mich nicht an Bayesianer, die entweder etwas ablehnen, das nicht Bayesianisch ist, oder die eine begrenzte Anzahl von Distributionen verwenden. Man könnte in Ihrer Frage leicht "Bayesianer" durch "Frequentisten" ersetzen und sich fragen, warum Frequentisten alles ablehnen, was nicht frequentistisch ist, und warum sie eine begrenzte Anzahl von Verteilungen verwenden (im Grunde überall Normalverteilung) - die resultierende Frage wäre das gleiche schlecht definiert wie deins. Ich stimme auch @JuhoKokkala zu, dass MLE Uniform Prior verwendet, obwohl ihre Punktschätzungen möglicherweise übereinstimmen.
Tim
5
MLE und MAP haben nicht die gleichen mathematischen Eigenschaften. Wenn Sie Ihre Variablen neu parametrisieren, werden MLE und MAP unterschiedlich transformiert (da MLE bei jeder Parametrisierung einen "Flat Prior" hat, MAP nicht). Die Definition eines mathematischen Objekts umfasst das Verhalten des Objekts unter Operatoren wie der Transformation von Variablen (siehe z. B. die Definition eines Tensors). Sie sind also nicht dasselbe.
Lacerbi
2
Ich werde es zu einer (kurzen) Antwort machen, da es überraschend ist, dass dies bisher noch niemand erwähnt hat. Ich musste es in der Vergangenheit auch oft erklären, da es eine Subtilität ist, die leicht übersehen werden kann.
Lacerbi
4
Haben Sie jemals Entwürfe mit einem Schachspiel gespielt? Es kann von Zeit zu Zeit vorkommen, dass Sie sich in einer gültigen Schachposition befinden und einen legalen Schachzug ausführen können, der auch ein legaler Zugzug ist. Natürlich wäre ein guter Schachzug nicht immer ein guter Zugzug. Und Sie werden es nicht vermeiden, einen guten Zug zu machen, nur weil es auch ein Schachzug ist. Dies unterscheidet sich eher von der Beschreibung eines Schachspiels auf Französisch als auf Englisch oder von der Drehung des Bretts, so dass schwarze Quadrate weiß werden, oder dem Austausch der Anfangspositionen und Regeln für ...
Scortchi - Reinstate Monica

Antworten:

12

Ich möchte eine falsche Annahme im ursprünglichen Beitrag korrigieren, ein Fehler, der relativ häufig ist. Das OP sagt:

Nach dem, was ich gelesen habe und nach Antworten auf andere Fragen, die ich hier gestellt habe, entspricht die Maximum-Likelihood-Schätzung mathematisch (es ist mir egal, ob sie philosophisch entspricht, es ist mir nur wichtig, ob sie mathematisch entspricht) der Maximum-a-priori-Schätzung unter Verwendung eines einheitlichen Prior ( Für diejenigen, die dagegen sind, siehe den Hinweis am Ende dieser Frage.

Und der Hinweis am Ende des Beitrags lautet:

Zwei Objekte sind im mathematischen Sinne äquivalent, wenn sie dieselben Eigenschaften haben, unabhängig davon, wie sie aufgebaut sind. [...]

Mein Einwand ist, dass abgesehen von der Philosophie die Maximum-Likelihood-Schätzung (MLE) und die Maximum-a-posteriori-Schätzung (MAP) dies nicht tun dieselben mathematischen Eigenschaften haben.

Entscheidend ist, dass sich MLE und MAP unter (nichtlinearer) Reparametrisierung des Raums unterschiedlich transformieren. Dies geschieht, weil MLE bei jeder Parametrisierung einen "flachen Prior" hat, während MAP dies nicht tut (der Prior transformiert sich als Wahrscheinlichkeitsdichte , daher gibt es einen Jacobi-Term).

Die Definition eines mathematischen Objekts umfasst das Verhalten des Objekts unter Operatoren wie der Transformation von Variablen (siehe z. B. die Definition eines Tensors) ).

Abschließend MLE und MAP sind nicht dasselbe, weder philosophisch noch mathematisch; Dies ist keine Meinung.

Lacerbi
quelle
Ich denke, vielleicht habe ich Ihren Standpunkt verfehlt. Ist es möglich, ein Modell so zu parametrisieren, dass die Punktschätzungen von MLE nicht denen von MAP mit einem einheitlichen Prior entsprechen? (Im MAP-Fall muss der Prior in Bezug auf die aktuelle Parametrisierung eindeutig einheitlich sein , damit die Gleichheit funktioniert. Wenn Sie das Modell neu parametrisieren, ohne den Prior zu ändern, ist es im Allgemeinen nicht mehr einheitlich.)
Kodiologe
1
@Kodiologe: Das OP stellte fest, dass MAP und MLE identische "mathematische Objekte" sind. Sie sind nicht. Bestimmte mathematische Objekte können in einem Unterraum gleich sein (z. B. in einer bestimmten Parametrisierung), aber das macht sie nicht identisch. Sie könnten sagen "Andere Parametrisierungen interessieren mich nicht", aber dann, wenn Sie eine starke praktische Einschränkung auferlegen, ist dies nicht mehr "nur" ein philosophischer Punkt, für den das OP ursprünglich argumentiert hatte.
Lacerbi
6

Persönlich bin ich eher ein "Pragmatiker" als ein "Frequentist" oder ein "Bayesianer", daher kann ich nicht behaupten, für ein Lager zu sprechen.

Trotzdem denke ich, dass die Unterscheidung, auf die Sie anspielen, wahrscheinlich nicht so sehr MLE vs. MAP ist, sondern zwischen Punktschätzungen und der Schätzung posteriorer PDFs . Als Wissenschaftler, der auf einem Gebiet mit spärlichen Daten und großen Unsicherheiten arbeitet, kann ich mitfühlen, dass ich nicht zu viel Vertrauen in "Best-Guess" -Ergebnisse setzen möchte, die irreführend sein können und zu Überbewusstsein führen.

Eine verwandte praktische Unterscheidung besteht zwischen parametrischen und nicht parametrischen Methoden. So denke ich zum Beispiel, dass sowohl die Kalman-Filterung als auch die Partikelfilterung als rekursive Bayes'sche Schätzung akzeptiert werden . Die Gaußsche Annahme der Kalman-Filterung (eine parametrische Methode) kann jedoch zu sehr irreführenden Ergebnissen führen, wenn der hintere Teil nicht unimodal ist. Für mich zeigen diese technischen Beispiele, wo Unterschiede weder philosophisch noch mathematisch sind, sondern sich in praktischen Ergebnissen manifestieren (dh wird Ihr autonomes Fahrzeug abstürzen?). Für die Bayesianischen Enthusiasten, mit denen ich vertraut bin, scheint diese Haltung im technischen Stil "sehen, was funktioniert" vorherrschend zu sein ... nicht sicher, ob dies allgemeiner zutrifft.

GeoMatt22
quelle
1
Ob das Rauschen nach Gauß oder aus einer anderen Verteilung modelliert wird, entscheidet nicht darüber, ob eine Methode parametrisch oder nicht parametrisch ist.
Cliff AB
1
Ich dachte an Partikelfilterung vs. Kalmanfilterung.
GeoMatt22
1
@CliffAB Ich habe meine Antwort bearbeitet, um hoffentlich die unbeabsichtigte Implikation zu beheben, dass "Gaußsche <==> parametrisch"
GeoMatt22
2
Nach meiner Erfahrung (überhaupt nicht umfassend!) Sind die Bücher, die sich an Ingenieure in "technischen" Bereichen richten, eher so. Dinge wie Robotik und andere Echtzeit- / robuste Anwendungen neigen dazu, schnell herauszufinden, wenn Dinge nicht funktionieren. Es ist wahrscheinlich nominell mehr Bayesianisch, aber Sebastian Thruns probabilistische Robotik war für mich aufschlussreich. Er ist der Udacity- Typ.
GeoMatt22
2
Ich habe diesen Bereich überhaupt nicht studiert, aber ich habe den Eindruck, dass ein Großteil des klassischen Reliability Engineering "frequentistische" Ansätze verwendet. Dies kann also auch ein Bereich mit pragmatischen Texten sein.
GeoMatt22
6

Viele Menschen, die sich selbst als "Bayesianer" beschreiben, scheinen jedoch unter keinen Umständen die Verwendung der Maximum-Likelihood-Schätzung abzulehnen, obwohl dies ein Sonderfall von (mathematisch) Bayes'schen Methoden ist, da es sich um eine "frequentistische Methode" handelt.

Solche Leute würden MLE als allgemeine Methode zur Erstellung von Punktschätzungen ablehnen. In bestimmten Fällen, in denen sie Grund hatten, einen einheitlichen Prior zu verwenden und eine maximale a posteriori-Schätzung vornehmen wollten, würde sie das Zusammentreffen ihrer Berechnungen mit MLE überhaupt nicht stören.

Anscheinend verwenden Bayesianer im Vergleich zu Frequentisten auch eine begrenzte Anzahl von Verteilungen, obwohl diese Verteilungen auch aus Bayes'scher Sicht mathematisch korrekt wären.

Vielleicht manchmal, um ihre Berechnungen zu vereinfachen, aber nicht aus irgendeinem Grundsatz.

Ich habe den Eindruck, dass es mindestens zwei verschiedene Definitionen des häufig verwendeten Begriffs Bayesian gibt. Das erste würde ich "mathematisch Bayesian" nennen, das alle Methoden der Statistik umfasst, da es Parameter enthält, die konstante RVs sind und solche, die keine konstanten RVs sind. Dann gibt es "kulturell Bayesian", das einige "mathematisch Bayesian" -Methoden ablehnt, weil diese Methoden "frequentistisch" sind (dh aus persönlicher Feindseligkeit gegenüber dem Parameter, der manchmal als Konstante oder Frequenz modelliert wird).

Es gibt sicherlich Unterschiede zwischen verschiedenen Ansätzen zur Bayes'schen Folgerung, aber nicht diesen. Wenn es einen Sinn gibt, in dem der Bayesianismus allgemeiner ist, dann in der Bereitschaft, das Konzept der Wahrscheinlichkeit auf die epistemische Unsicherheit über Parameterwerte anzuwenden und nicht nur auf die aleatorische Unsicherheit des Datenerzeugungsprozesses, mit der sich der Frequentismus nur befasst. Frequentistische Inferenz ist kein Sonderfall der Bayes'schen Inferenz und keine der Antworten oder Kommentare unter Gibt es eine mathematische Grundlage für die Debatte zwischen Bayesian und Frequentist?implizieren, dass es ist. Wenn Sie in einem Bayes'schen Ansatz den Parameter als konstante Zufallsvariable betrachten würden, würden Sie unabhängig von den Daten den gleichen posterioren Wert erhalten - und zu sagen, dass er konstant ist, aber Sie wissen nicht, welchen Wert er benötigt, würde nichts bedeuten erwähnenswert. Der frequentistische Ansatz verfolgt einen völlig anderen Ansatz und beinhaltet überhaupt keine Berechnung der posterioren Verteilungen.

Scortchi - Monica wieder einsetzen
quelle
"Der frequentistische Ansatz geht einen ganz anderen Weg und beinhaltet überhaupt keine Berechnung der posterioren Verteilungen" - das ist jedoch nicht mein Punkt. Ich spreche nicht von philosophischer Absicht, ich spreche von mathematischer Äquivalenz. Jemand könnte sagen, dass sie ein "Subtraktivist" sind, weil sie nur positive Zahlen addieren und subtrahieren, sich aber weigern, negative Zahlen zu verwenden, was "negativistisch" ist. Philosophisch mag das der Fall sein, aber mathematisch gesehen ist das Subtrahieren einer positiven Zahl dasselbe wie das Hinzufügen einer negativen.
Chill2Macht
Ich versuche zu sagen, dass "mathematisch Bayesian" das Konzept der Wahrscheinlichkeit sowohl auf die epistemische Unsicherheit über Parameterwerte anwenden als auch nicht anwenden würde. "Culturally Bayesian" würde das Konzept der Wahrscheinlichkeit nur auf die epistemische Unsicherheit über Parameterwerte anwenden (und niemals nicht anwenden). "Frequentist" würde nur keine Wahrscheinlichkeit auf epistemische Unsicherheit über Parameterwerte anwenden (und niemals anwenden). Was ich sage ist, dass sowohl "Bayesianische Folgerung = kulturell Bayesianisch" als auch "Frequentist" wie ein Sonderfall erscheinen, basierend auf dem, was die Leute sagen.
Chill2Macht
Wie auch immer, ich denke, ich werde versuchen, van der Vaarts asymptotische Statistik zu lesen, bevor ich weiter auf die Statistik der Frequentisten eingehen werde, aber nachdem ich bereits Casella und Berger und null Bayes'sche Lehrbücher gelesen habe, verstehe ich die Aussage nicht, dass "der frequentistische Ansatz einen ganz anderen Ansatz verfolgt" Anwendung des Wahrscheinlichkeitskonzepts auf "nur die aleatorische Unsicherheit des Datenerzeugungsprozesses", da es den anderen Teilen Ihres Schreibens zu widersprechen scheint.
Chill2Macht
2
3- -5
2
Modi der parametrischen statistischen Inferenz & Barnett (1999), Comparative Statistical Inference . (4) Der frequentistische Ansatz berücksichtigt nur die Wahrscheinlichkeit der Daten unter gegebenen Parameterwerten; die Bayes'schen Annäherungsbedingungen an die beobachteten Daten, um einen posterioren zu erhalten.
Scortchi - Monica wieder einsetzen