Nach dem, was ich gelesen habe und nach Antworten auf andere Fragen, die ich hier gestellt habe, entsprechen viele sogenannte frequentistische Methoden mathematisch (es ist mir egal, ob sie philosophisch korrespondieren , es ist mir nur wichtig, ob sie mathematisch entsprechen) speziellen Fällen von sogenannten Bayesianische Methoden (für diejenigen, die dagegen sind, siehe den Hinweis am Ende dieser Frage). Diese Antwort auf eine verwandte Frage (nicht meine) stützt diese Schlussfolgerung:
Die meisten häufig vorkommenden Methoden haben ein Bayes'sches Äquivalent, das unter den meisten Umständen im Wesentlichen das gleiche Ergebnis liefert.
Beachten Sie, dass im Folgenden mathematisch gleich zu sein bedeutet, dasselbe Ergebnis zu erzielen. Wenn Sie zwei Methoden charakterisieren, von denen nachgewiesen werden kann, dass sie immer die gleichen Ergebnisse als "unterschiedlich" liefern, ist dies Ihr Recht, aber dies ist ein philosophisches Urteil, weder ein mathematisches noch ein praktisches.
Viele Menschen, die sich selbst als "Bayesianer" beschreiben, scheinen jedoch unter keinen Umständen die Verwendung der Maximum-Likelihood-Schätzung abzulehnen, obwohl dies ein Sonderfall von ( mathematisch ) Bayes'schen Methoden ist, da es sich um eine "frequentistische Methode" handelt. Anscheinend verwenden Bayesianer im Vergleich zu Frequentisten auch eine begrenzte Anzahl von Verteilungen, obwohl diese Verteilungen auch aus Bayes'scher Sicht mathematisch korrekt wären .
Frage: Wann und warum lehnen Bayesianer Methoden ab, die aus Bayes'scher Sicht mathematisch korrekt sind? Gibt es eine Rechtfertigung dafür, die nicht "philosophisch" ist?
Hintergrund / Kontext: Das Folgende sind Zitate aus Antworten und Kommentaren zu einer früheren Frage von mir auf CrossValidated :
Die mathematische Grundlage für die Debatte zwischen Bayes und Frequentisten ist sehr einfach. In der Bayes'schen Statistik wird der unbekannte Parameter als Zufallsvariable behandelt. in der frequentistischen Statistik wird es als festes Element behandelt ...
Aus dem Vorstehenden wäre ich zu dem Schluss gekommen, dass ( mathematisch gesehen ) Bayes'sche Methoden allgemeiner sind als frequentistische, in dem Sinne, dass frequentistische Modelle alle gleichen mathematischen Annahmen erfüllen wie Bayes'sche, aber nicht umgekehrt. Dieselbe Antwort argumentierte jedoch, dass meine Schlussfolgerung aus dem oben Gesagten falsch war (die Betonung im Folgenden liegt bei mir):
Obwohl die Konstante ein Sonderfall einer Zufallsvariablen ist, würde ich zögern zu schließen, dass der Bayesianismus allgemeiner ist. Sie würden keine häufig auftretenden Ergebnisse von Bayes'schen erhalten, wenn Sie die Zufallsvariable einfach auf eine Konstante reduzieren. Der Unterschied ist tiefer ...
Zu persönlichen Vorlieben gehen ... Ich mag es nicht, dass die Bayes'sche Statistik eine ziemlich eingeschränkte Teilmenge der verfügbaren Distributionen verwendet.
Ein anderer Benutzer, in ihrer Antwort, das Gegenteil festgestellt, dass Bayes - Methoden sind allgemeinere, obwohl seltsam genug der beste Grund , warum ich für nicht finden könnte , warum dies der Fall in der vorherige Antwort war sein könnte, von jemandem gegeben als frequentistischen ausgebildet.
Die mathematische Konsequenz ist, dass Frequentisten glauben, dass die Grundgleichungen der Wahrscheinlichkeit nur manchmal gelten, und Bayesianer denken, dass sie immer gelten. Sie sehen die gleichen Gleichungen als richtig an, unterscheiden sich jedoch darin, wie allgemein sie sind ... Bayesian ist streng allgemeiner als Frequentist. Da über jede Tatsache Unsicherheit bestehen kann, kann jeder Tatsache eine Wahrscheinlichkeit zugewiesen werden. Insbesondere wenn sich die Fakten, an denen Sie arbeiten, auf Frequenzen der realen Welt beziehen (entweder als etwas, das Sie vorhersagen, oder als Teil der Daten), können Bayes'sche Methoden sie genauso berücksichtigen und verwenden wie jede andere reale Tatsache. Folglich kann jedes Problem, an dem Frequentisten glauben, dass ihre Methoden auf Bayesianer angewendet werden, auch auf natürliche Weise bearbeitet werden.
Aus den obigen Antworten habe ich den Eindruck, dass es mindestens zwei verschiedene Definitionen des häufig verwendeten Begriffs Bayesian gibt. Das erste würde ich "mathematisch Bayesian" nennen, das alle Methoden der Statistik umfasst, da es Parameter enthält, die konstante RVs sind und solche, die keine konstanten RVs sind. Dann gibt es "kulturell Bayesian", das einige "mathematisch Bayesian" -Methoden ablehnt, weil diese Methoden "frequentistisch" sind (dh aus persönlicher Feindseligkeit gegenüber dem Parameter, der manchmal als Konstante oder Frequenz modelliert wird). Eine andere Antwort auf die oben genannte Frage scheint diese Vermutung ebenfalls zu stützen:
Es ist auch anzumerken, dass es zwischen den Modellen, die von den beiden Lagern verwendet werden, viele Unterschiede gibt, die mehr mit dem zu tun haben, was getan wurde als mit dem, was getan werden kann (dh viele Modelle, die traditionell von einem Lager verwendet werden, können vom anderen Lager gerechtfertigt werden ).
Ich denke, eine andere Möglichkeit, meine Frage zu formulieren, wäre die folgende: Warum nennen sich kulturelle Bayesianer Bayesianer, wenn sie viele mathematisch Bayesianische Methoden ablehnen? Und warum lehnen sie diese mathematisch Bayes'schen Methoden ab? Ist es persönliche Feindseligkeit für die Menschen, die diese speziellen Methoden am häufigsten anwenden?
Bearbeiten: Zwei Objekte sind im mathematischen Sinne äquivalent, wenn sie dieselben Eigenschaften haben , unabhängig davon, wie sie aufgebaut sind. Zum Beispiel kann ich mir mindestens fünf verschiedene Möglichkeiten vorstellen, um die imaginäre Einheit zu konstruieren . Dennoch gibt es nicht mindestens fünf verschiedene "Denkschulen" zum Studium imaginärer Zahlen; Tatsächlich glaube ich, dass es nur eine gibt, nämlich die Gruppe, die ihre Eigenschaften untersucht. Für diejenigen, die Einwände erheben, dass das Erhalten einer Punktschätzung unter Verwendung der maximalen Wahrscheinlichkeit nicht dasselbe ist wie das Erhalten einer Punktschätzung unter Verwendung des Maximums a priori und eines einheitlichen Prior, da die beteiligten Berechnungen unterschiedlich sind, ich zu, dass sie sich in einer philosophischen Sinne unterscheiden, sondern zu das Ausmaß, dass sie immerGeben Sie die gleichen Werte für die Schätzung an, sie sindmathematisch äquivalent, weil sie die gleichen Eigenschaften haben . Vielleicht ist der philosophische Unterschied für Sie persönlich relevant, aber für diese Frage ist er nicht relevant.
Hinweis: Diese Frage hatte ursprünglich eine falsche Charakterisierung der MLE-Schätzung und der MAP-Schätzung mit einem einheitlichen Prior.
quelle
Antworten:
Ich möchte eine falsche Annahme im ursprünglichen Beitrag korrigieren, ein Fehler, der relativ häufig ist. Das OP sagt:
Und der Hinweis am Ende des Beitrags lautet:
Mein Einwand ist, dass abgesehen von der Philosophie die Maximum-Likelihood-Schätzung (MLE) und die Maximum-a-posteriori-Schätzung (MAP) dies nicht tun dieselben mathematischen Eigenschaften haben.
Entscheidend ist, dass sich MLE und MAP unter (nichtlinearer) Reparametrisierung des Raums unterschiedlich transformieren. Dies geschieht, weil MLE bei jeder Parametrisierung einen "flachen Prior" hat, während MAP dies nicht tut (der Prior transformiert sich als Wahrscheinlichkeitsdichte , daher gibt es einen Jacobi-Term).
Die Definition eines mathematischen Objekts umfasst das Verhalten des Objekts unter Operatoren wie der Transformation von Variablen (siehe z. B. die Definition eines Tensors) ).
Abschließend MLE und MAP sind nicht dasselbe, weder philosophisch noch mathematisch; Dies ist keine Meinung.
quelle
Persönlich bin ich eher ein "Pragmatiker" als ein "Frequentist" oder ein "Bayesianer", daher kann ich nicht behaupten, für ein Lager zu sprechen.
Trotzdem denke ich, dass die Unterscheidung, auf die Sie anspielen, wahrscheinlich nicht so sehr MLE vs. MAP ist, sondern zwischen Punktschätzungen und der Schätzung posteriorer PDFs . Als Wissenschaftler, der auf einem Gebiet mit spärlichen Daten und großen Unsicherheiten arbeitet, kann ich mitfühlen, dass ich nicht zu viel Vertrauen in "Best-Guess" -Ergebnisse setzen möchte, die irreführend sein können und zu Überbewusstsein führen.
Eine verwandte praktische Unterscheidung besteht zwischen parametrischen und nicht parametrischen Methoden. So denke ich zum Beispiel, dass sowohl die Kalman-Filterung als auch die Partikelfilterung als rekursive Bayes'sche Schätzung akzeptiert werden . Die Gaußsche Annahme der Kalman-Filterung (eine parametrische Methode) kann jedoch zu sehr irreführenden Ergebnissen führen, wenn der hintere Teil nicht unimodal ist. Für mich zeigen diese technischen Beispiele, wo Unterschiede weder philosophisch noch mathematisch sind, sondern sich in praktischen Ergebnissen manifestieren (dh wird Ihr autonomes Fahrzeug abstürzen?). Für die Bayesianischen Enthusiasten, mit denen ich vertraut bin, scheint diese Haltung im technischen Stil "sehen, was funktioniert" vorherrschend zu sein ... nicht sicher, ob dies allgemeiner zutrifft.
quelle
Solche Leute würden MLE als allgemeine Methode zur Erstellung von Punktschätzungen ablehnen. In bestimmten Fällen, in denen sie Grund hatten, einen einheitlichen Prior zu verwenden und eine maximale a posteriori-Schätzung vornehmen wollten, würde sie das Zusammentreffen ihrer Berechnungen mit MLE überhaupt nicht stören.
Vielleicht manchmal, um ihre Berechnungen zu vereinfachen, aber nicht aus irgendeinem Grundsatz.
Es gibt sicherlich Unterschiede zwischen verschiedenen Ansätzen zur Bayes'schen Folgerung, aber nicht diesen. Wenn es einen Sinn gibt, in dem der Bayesianismus allgemeiner ist, dann in der Bereitschaft, das Konzept der Wahrscheinlichkeit auf die epistemische Unsicherheit über Parameterwerte anzuwenden und nicht nur auf die aleatorische Unsicherheit des Datenerzeugungsprozesses, mit der sich der Frequentismus nur befasst. Frequentistische Inferenz ist kein Sonderfall der Bayes'schen Inferenz und keine der Antworten oder Kommentare unter Gibt es eine mathematische Grundlage für die Debatte zwischen Bayesian und Frequentist?implizieren, dass es ist. Wenn Sie in einem Bayes'schen Ansatz den Parameter als konstante Zufallsvariable betrachten würden, würden Sie unabhängig von den Daten den gleichen posterioren Wert erhalten - und zu sagen, dass er konstant ist, aber Sie wissen nicht, welchen Wert er benötigt, würde nichts bedeuten erwähnenswert. Der frequentistische Ansatz verfolgt einen völlig anderen Ansatz und beinhaltet überhaupt keine Berechnung der posterioren Verteilungen.
quelle