Änderungen: Ich habe ein einfaches Beispiel hinzugefügt: Rückschluss auf den Mittelwert von . Ich habe auch leicht geklärt, warum die glaubwürdigen Intervalle, die nicht mit den Konfidenzintervallen übereinstimmen, schlecht sind.
Ich, ein ziemlich gläubiger Bayesianer, bin mitten in einer Art Glaubenskrise.
Mein Problem ist folgendes. Angenommen, ich möchte einige IID-Daten analysieren . Was ich tun würde, ist:
Schlagen Sie zunächst ein Bedingungsmodell vor:
Dann wähle ein Prior auf : p ( θ )
Wenden Sie schließlich die Bayes-Regel an, berechnen Sie den posterioren Wert : (oder eine Annäherung daran, falls er nicht berechenbar sein sollte) und beantworten Sie alle Fragen, die ich zuθ
Dies ist ein vernünftiger Ansatz: Wenn das wahre Modell der Daten tatsächlich "innerhalb" meiner Bedingung liegt (es entspricht einem Wert von ), kann ich die statistische Entscheidungstheorie , um zu sagen, dass meine Methode zulässig ist (siehe Roberts) "Die Bayes'sche Wahl" für Details; "Alle Statistiken" liefert auch eine klare Darstellung im entsprechenden Kapitel.θ 0
Wie jeder weiß, ist die Annahme, dass mein Modell korrekt ist, ziemlich arrogant: Warum sollte die Natur ordentlich in die Schachtel der Modelle fallen, die ich in Betracht gezogen habe? Es ist viel realistischer anzunehmen, dass sich das reale Modell der Daten von für alle Werte von . Dies wird normalerweise als "falsch spezifiziertes" Modell bezeichnet.p ( X | θ ) θ
Mein Problem ist, dass ich in diesem realistischeren, falsch spezifizierten Fall keine guten Argumente dafür habe, Bayesianisch zu sein (dh die posteriore Verteilung zu berechnen), anstatt einfach den Maximum Likelihood Estimator (MLE) zu berechnen:
In der Tat laut Kleijn, vd Vaart (2012) , in dem falsch spezifizierten Fall die hintere Verteilung:
konvergiert als zu einer Dirac-Verteilung, die auf zentriert ist& thgr; M L
hat nicht die richtige Varianz (es sei denn, zwei Werte sind zufällig gleich), um sicherzustellen, dass glaubwürdige Intervalle des posterioren Konfidenzintervalls für . (Beachten Sie, dass Konfidenzintervalle den Bayesianern offensichtlich nicht besonders wichtig sind. Dies bedeutet jedoch qualitativ, dass die posteriore Verteilung an sich falsch ist, da dies impliziert, dass die glaubwürdigen Intervalle keine korrekte Abdeckung haben.)
Daher zahlen wir eine Rechenprämie (Bayes'sche Inferenz ist im Allgemeinen teurer als MLE) für keine zusätzlichen Eigenschaften
Abschließend meine Frage: Gibt es theoretische oder empirische Argumente für die Verwendung der Bayes'schen Folgerung gegenüber der einfacheren MLE-Alternative, wenn das Modell falsch spezifiziert ist?
(Da ich weiß, dass meine Fragen oft unklar sind, lassen Sie es mich bitte wissen, wenn Sie etwas nicht verstehen: Ich werde versuchen, es anders zu formulieren.)
Bearbeiten: Betrachten wir ein einfaches Beispiel: Ableiten des Mittelwerts von unter einem Gaußschen Modell (mit bekannter Varianz , um es noch weiter zu vereinfachen). Wir betrachten einen Gaußschen Prior: Wir bezeichnen den Prior-Mittelwert, die inverse Varianz des Prior. Sei das empirische Mittel des . Schließlich sei angemerkt: . σ μ 0 β 0 ≤ X X i μ = ( β 0 μ 0 + n
Die hintere Verteilung ist:
In dem richtig spezifizierten Fall (wenn die wirklich eine Gaußsche Verteilung haben) hat dieser Posterior die folgenden schönen Eigenschaften
Wenn die aus einem hierarchischen Modell generiert werden, in dem ihr gemeinsamer Mittelwert aus der vorherigen Verteilung ausgewählt wird, haben die posterioren glaubwürdigen Intervalle eine genaue Abdeckung. Abhängig von den Daten ist die Wahrscheinlichkeit, dass sich in einem Intervall befindet, gleich der Wahrscheinlichkeit, die der Posterior diesem Intervall zuschreibt θ
Auch wenn der Prior nicht korrekt ist, haben die glaubwürdigen Intervalle eine korrekte Abdeckung in dem Bereich in dem der vorherige Einfluss auf den Posterior verschwindet
der posterior hat weiterhin gute frequentistische Eigenschaften: Jeder aus dem posterior konstruierte Bayes'sche Schätzer ist garantiert zulässig, der posteriore Mittelwert ist ein effizienter Schätzer (im Cramer-Rao-Sinne) der mittleren, glaubwürdigen Intervalle sind asymptotisch Konfidenzintervalle.
Im falsch spezifizierten Fall werden die meisten dieser Eigenschaften von der Theorie nicht garantiert. Um Ideen zu korrigieren, nehmen wir an, dass das reale Modell für das ist, dass es sich stattdessen um Student-Verteilungen handelt. Die einzige Eigenschaft, die wir garantieren können (Kleijn et al.), Ist, dass sich die posteriore Verteilung auf den realen Mittelwert des im Grenzwert . Im Allgemeinen würden alle Bedeckungseigenschaften verschwinden. Schlimmer noch, wir können im Allgemeinen garantieren, dass die Abdeckungseigenschaften innerhalb dieser Grenze von Grund auf falsch sind: Die posteriore Verteilung schreibt verschiedenen Regionen des Raums die falsche Wahrscheinlichkeit zu.X i n → ∞
quelle
Antworten:
Ich betrachte den Bayes'schen Ansatz, wenn mein Datensatz nicht alles ist, was über das Thema bekannt ist, und möchte dieses exogene Wissen irgendwie in meine Prognose einbeziehen.
Zum Beispiel möchte mein Kunde eine Prognose der Kreditausfälle in seinem Portfolio. Sie haben 100 Kredite mit einigen Jahren von vierteljährlichen historischen Daten. Es gab ein paar Fälle von Zahlungsverzug und nur ein paar Ausfälle. Wenn ich versuche, das Überlebensmodell für diesen Datensatz zu schätzen, sind nur sehr wenige Daten zu schätzen und zu viele Unsicherheiten zu prognostizieren.
Andererseits sind die Portfoliomanager erfahrene Personen, von denen einige Jahrzehnte damit verbracht haben, Beziehungen zu Kreditnehmern zu pflegen. Sie haben Ideen, wie die Ausfallraten aussehen sollten. Sie sind also in der Lage, vernünftige Prioritäten zu setzen. Beachten Sie , nicht der priors der schönen mathematische Eigenschaften haben und schauen intellektuell ansprechend zu mir . Ich werde mit ihnen plaudern und ihre Erfahrungen und Kenntnisse in Form dieser Vorgesetzten extrahieren.
Das Bayes'sche Gerüst wird mir nun die Möglichkeit geben, das exogene Wissen in Form von Prioren mit den Daten zu verbinden und den Posterioren zu erhalten, der meiner Meinung nach sowohl der reinen qualitativen Beurteilung als auch der reinen datengetriebenen Vorhersage überlegen ist. Dies ist keine Philosophie und ich bin kein Bayesianer. Ich verwende nur die Bayes'schen Werkzeuge, um Expertenwissen konsequent in die datengetriebene Schätzung einzubeziehen.
quelle
Eine sehr interessante Frage ... die vielleicht keine Antwort hat (aber das macht es nicht weniger interessant!)
Ein paar Gedanken (und viele Links zu meinen Blogeinträgen!) Darüber, dass alle Modelle falsch sind :
quelle
Bearbeitungen: Verweis auf dieses Papier im Hauptteil hinzugefügt , wie vom OP gefordert.
Ich gebe hier eine Antwort als naiver empirischer Bayesianer.
Erstens können Sie mit der posterioren Verteilung Berechnungen durchführen, die Sie mit einem einfachen MLE einfach nicht durchführen können. Der einfachste Fall ist, dass der Posterior von heute der Prior von morgen ist . Die Bayes'sche Inferenz ermöglicht natürlich sequentielle Aktualisierungen oder allgemein Online-Aktualisierungen oder eine verzögerte Kombination mehrerer Informationsquellen (die Einbeziehung eines Prior ist nur eine Lehrbuchinstanz einer solchen Kombination). Ein weiteres Beispiel ist die Bayes'sche Entscheidungstheorie mit einer nichttrivialen Verlustfunktion. Ich würde nicht wissen, was ich sonst tun soll.
Zweitens versuche ich mit dieser Antwort zu argumentieren, dass das Mantra, dass die Quantifizierung der Unsicherheit im Allgemeinen besser ist als keine Unsicherheit, effektiv eine empirische Frage ist, da Theoreme (wie Sie erwähnt haben und soweit ich weiß) keine Garantien bieten.
Optimierung als Spielzeugmodell wissenschaftlichen Handelns
Eine Domäne, die meines Erachtens die Komplexität des Problems vollständig erfasst, ist eine sehr praktische, sinnlose, die Optimierung einer Black-Box- Funktion . Wir nehmen an, dass wir nacheinander einen Punkt abfragen und eine möglicherweise verrauschte Beobachtung mit . Unser Ziel ist es, möglichst nahe an mit der minimalen Anzahl von Funktionsbewertungen heranzukommen.f:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Ein besonders effektiver Weg, um fortzufahren, ist, wie Sie vielleicht erwarten, ein Vorhersagemodell dessen zu erstellen, was passieren würde, wenn ich ein beliebiges , und anhand dieser Informationen zu entscheiden, was als nächstes zu tun ist (oder) lokal oder global). Siehe Rios und Sahinidis (2013) für einen Überblick über derivative-freie globale Optimierungsmethoden. Wenn das Modell komplex genug ist, spricht man von einem Metamodell- oder Ersatzfunktions- oder Antwortoberflächenansatz . Entscheidend könnte das Modell eine Punktschätzung von (z. B. die Anpassung einer radialen Basisnetzfunktion an unsere Beobachtungen), oder wir könnten bayesisch sein und auf irgendeine Weise eine vollständige posteriore Verteilung überx′∈X f f (zB über einen Gaußschen Prozess).
Die Bayes'sche Optimierung verwendet den posterioren über (insbesondere den gemeinsamen bedingten posterioren Mittelwert und die Varianz an jedem Punkt), um die Suche nach dem (globalen) Optimum über eine prinzipielle Heuristik zu steuern. Die klassische Wahl besteht darin, die erwartete Verbesserung gegenüber dem derzeit besten Punkt zu maximieren. Es gibt jedoch auch ausgefeiltere Methoden, z. B. die Minimierung der erwarteten Entropie über den Ort des Minimums (siehe auch hier ).f
Das empirische Ergebnis ist, dass der Zugang zu einem Posterior, auch wenn er teilweise falsch spezifiziert ist, im Allgemeinen bessere Ergebnisse liefert als andere Methoden. (Es gibt Vorbehalte und Situationen, in denen die Bayes'sche Optimierung nicht besser ist als die Zufallssuche, z. B. in großen Dimensionen.) In diesem Artikel wird eine empirische Bewertung einer neuartigen BO-Methode im Vergleich zu anderen Optimierungsalgorithmen durchgeführt, um zu prüfen, ob die Verwendung von BO zweckmäßig ist in der Praxis mit vielversprechenden Ergebnissen.
Seit Sie gefragt haben, hat dies einen viel höheren Rechenaufwand als andere nicht-bayesianische Methoden, und Sie haben sich gefragt, warum wir bayesianisch sein sollten. Hierbei wird davon ausgegangen, dass die Kosten für die Bewertung der wahren (z. B. in einem realen Szenario, einem komplexen Engineering oder einem Experiment zum maschinellen Lernen) viel höher sind als die Rechenkosten für die Bayes'sche Analyse, sodass sich Bayes'sche Analyse auszahlt .f
Was können wir aus diesem Beispiel lernen?
Erstens, warum funktioniert die Bayes'sche Optimierung überhaupt? Ich vermute, dass das Modell falsch ist, aber nicht so falsch, und wie üblich hängt die Falschheit davon ab, wofür Ihr Modell ist. Zum Beispiel ist die genaue Form von für die Optimierung nicht relevant, da wir eine monotone Transformation davon optimieren könnten. Ich denke, die Natur ist voll von solchen Invarianzen. Die Suche, die wir durchführen, ist möglicherweise nicht optimal (dh wir werfen gute Informationen weg), aber immer noch besser als ohne Unsicherheitsinformationen.f
Zweitens hebt unser Beispiel hervor, dass es möglich ist, dass der Nutzen eines Bayesianismus vom Kontext abhängt , z. B. von den relativen Kosten und der Menge der verfügbaren (rechnerischen) Ressourcen. (Wenn Sie ein Hardcore-Bayesianer sind, glauben Sie natürlich, dass jede Berechnung eine Bayesianische Folgerung unter einer gewissen Vorab- und / oder Annäherungsbedingung ist.)
Die große Frage ist schließlich, warum die Modelle, die wir verwenden, überhaupt nicht so schlecht sind , in dem Sinne, dass die Hintermänner immer noch nützlich und kein statistischer Müll sind. Wenn wir das No-Free-Lunch-Theorem verwenden, sollten wir anscheinend nicht viel sagen können, aber zum Glück leben wir nicht in einer Welt von völlig zufälligen (oder nach dem Zufallsprinzip ausgewählten ) Funktionen.
Allgemeiner, da Sie das "philosophische" Tag setzen ... Ich denke, wir betreten den Bereich des Problems der Induktion oder der unvernünftigen Wirksamkeit der Mathematik in den statistischen Wissenschaften (insbesondere unserer mathematischen Intuition und der Fähigkeit, Modelle zu spezifizieren) das funktioniert in der Praxis) - in dem Sinne, dass es aus rein a priori Sicht keinen Grund gibt, warum unsere Vermutungen gut sein sollten oder irgendeine Garantie haben sollten (und Sie können sicher mathematische Gegenbeispiele erstellen, in denen die Dinge schief gehen), aber sie drehen sich in der Praxis gut zu arbeiten.
quelle
Ich sehe das nur heute, aber ich denke trotzdem, ich sollte mich einmischen, dass ich eine Art Experte bin und dass mindestens zwei Antworten (Nr. 3 und 20 (danke für den Hinweis auf meine Arbeit Xi'an!)) Meine Arbeit über erwähnen SafeBayes - insbesondere G. und van Ommen, "Inkonsistenz der Bayes'schen Inferenz für falsch spezifizierte lineare Modelle und ein Vorschlag für deren Reparatur" (2014). Und zu Kommentar 2 möchte ich noch etwas hinzufügen:
2 sagt: (Ein Vorteil von Bayes bei falscher Spezifikation ist ...) "Nun, Bayes'sche Ansätze regulieren. Das ist etwas, um einer Überanpassung entgegenzuwirken - unabhängig davon, ob Ihr Modell falsch spezifiziert ist oder nicht. Das führt natürlich nur zu der damit verbundenen Frage nach Argumente für Bayesianische Folgerungen gegen regularisierte klassische Ansätze (Lasso usw.)
Dies ist wahr, aber es ist wichtig hinzuzufügen, dass Bayes'sche Ansätze möglicherweise nicht genug regulieren wenn das Modell falsch ist. Dies ist der Hauptpunkt der Arbeit mit Van Ommen - wir sehen dort, dass Standard-Bayes in einem gewissen Regressionskontext mit falschen, aber sehr nützlichen Modellen ziemlich schrecklich überpassen. Nicht so schlimm wie MLE, aber dennoch viel zu viel, um nützlich zu sein. Es gibt eine ganze Reihe von Arbeiten im (frequentistischen und spieltheoretischen) theoretischen maschinellen Lernen, bei denen ähnliche Methoden wie bei Bayes angewendet werden, die jedoch eine viel geringere „Lernrate“ aufweisen - wodurch die Priorität und die Daten weniger wichtig werden und somit mehr reguliert werden. Diese Methoden sind so konzipiert, dass sie im schlimmsten Fall (Fehlspezifikation und noch schlimmer widrige Daten) gut funktionieren - der SafeBayes-Ansatz ist so konzipiert, dass aus den Daten selbst die optimale Lernrate und diese optimale Lernrate, dh die optimale Menge, gelernt wird der Regularisierung,
In ähnlicher Weise gibt es einen Folk-Satz (der von mehreren oben erwähnt wurde), der besagt, dass Bayes das hintere Konzentrat auf die Verteilung haben wird, die in der KL-Divergenz der 'Wahrheit' am nächsten kommt. Dies gilt jedoch nur unter sehr strengen Bedingungen - VIEL strenger als die Bedingungen, die für die Konvergenz im genau festgelegten Fall erforderlich sind. Wenn Sie es mit niedrigdimensionalen parametrischen Standardmodellen zu tun haben und die Daten einer gewissen Verteilung entsprechen (nicht im Modell), konzentriert sich der Posterior in der Tat um den Punkt im Modell, der der Wahrheit in der KL-Divergenz am nächsten kommt. Wenn Sie es mit großen nichtparametrischen Modellen zu tun haben und das Modell korrekt ist, wird sich Ihr Posterior (im Wesentlichen) immer noch auf die wahre Verteilung konzentrieren, wenn genügend Daten vorliegen. Solange Ihr Vorgänger genügend Masse in kleinen KL-Bällen um die wahre Verteilung legt. Dies ist dasschwache Bedingung, die für die Konvergenz im nichtparametrischen Fall benötigt wird, wenn das Modell korrekt ist.
Wenn Ihr Modell jedoch nicht parametrisch und dennoch falsch ist, konzentriert sich der Posterior möglicherweise nicht auf den nächstgelegenen KL-Punkt, auch wenn Ihre vorherige Masse dort nahe 1 (!) Liegt - Ihr Posterior bleibt möglicherweise für immer verwirrt und konzentriert sich auf immer unterschiedliche Verteilungen im laufe der zeit aber nie um die beste. In meinen Papieren habe ich einige Beispiele dafür. Die Papiere, die Konvergenz bei falscher Spezifikation aufweisen (z. B. Kleijn und van der Vaart), erfordern viele zusätzliche Bedingungen, z. B. muss das Modell konvex sein oder der Prior muss bestimmte (komplizierte) Eigenschaften aufweisen. Das meine ich mit "strengen" Bedingungen.
In der Praxis haben wir es häufig mit parametrischen, aber sehr hochdimensionalen Modellen zu tun (denken Sie an die Bayes'sche Gratregression usw.). Wenn das Modell dann falsch ist, wird sich Ihr Posterior eventuell auf die beste KL-Verteilung im Modell konzentrieren, aber eine Miniversion der nichtparametrischen Inkonsistenz ist noch gültig: Es kann Größenordnungen mehr Daten erfordern, bevor Konvergenz eintritt - wieder meine Arbeit mit Van Ommen nennt Beispiele.
Der SafeBayes-Ansatz modifiziert Standard-Bayes so, dass die Konvergenz in nichtparametrischen Modellen unter (im Wesentlichen) den gleichen Bedingungen wie im gut spezifizierten Fall gewährleistet ist, dh eine ausreichende Vormasse in der Nähe der KL-optimalen Verteilung im Modell (G. und Mehta, 2014) ).
Dann stellt sich die Frage, ob Bayes überhaupt eine Rechtfertigung für eine falsche Angabe hat. IMHO (und wie auch von mehreren oben erwähnten Personen erwähnt), gelten die Standardbegründungen von Bayes (Zulässigkeit, Savage, De Finetti, Cox usw.) hier nicht (denn wenn Sie erkennen, dass Ihr Modell falsch spezifiziert ist, stimmen Ihre Wahrscheinlichkeiten nicht mit Ihren wahren Überzeugungen überein !). Viele Bayes-Methoden können jedoch auch als MDL-Methoden (Minimum Description Length) interpretiert werden. MDL ist eine informationstheoretische Methode, die das Lernen aus Daten mit dem Versuch gleichsetzt, die Daten so weit wie möglich zu komprimieren. Diese Datenkomprimierungsinterpretation von (einigen) Bayes'schen Methoden bleibt bei falscher Angabe gültig. So gibt es immer noch einigeGrundlegende Interpretation, die sich bei falscher Spezifikation behaupten kann - trotzdem gibt es Probleme, wie meine Arbeit mit van Ommen (und das im ursprünglichen Beitrag erwähnte Konfidenzintervall / Glaubwürdigkeitsproblem) zeigt.
Und noch eine abschließende Bemerkung zum Originalbeitrag: Sie erwähnen die "Zulässigkeits" -Begründung von Bayes (zurückgehend auf Walds komplette Klasse in den 1940er / 50er Jahren). Ob dies wirklich eine Rechtfertigung für Bayes ist oder nicht, hängt sehr stark von der genauen Definition der Bayes'schen Folgerung ab (die von Forscher zu Forscher unterschiedlich ist ...). Der Grund dafür ist, dass diese Zulässigkeitsergebnisse die Möglichkeit bieten, dass ein Prior verwendet wird, der von Aspekten des Problems wie Stichprobengröße und interessierender Verlustfunktion usw. abhängt Daten, die sie verarbeiten müssen, oder wenn die Verlustfunktion von Interesse plötzlich geändert wird. Zum Beispiel mit streng konvexen Verlustfunktionen, Minimax-Schätzer sind ebenfalls zulässig - obwohl sie normalerweise nicht als Bayes-Schätzer angesehen werden! Der Grund dafür ist, dass sie für jede feste Stichprobengröße Bayes mit einem bestimmten Vorgänger entsprechen, der Vorgänger jedoch für jede Stichprobengröße unterschiedlich ist.
Hoffe das ist nützlich!
quelle
Es gibt den üblichen Bias-Varianz-Kompromiss. Bayesianische Inferenz unter der Annahme eines M-geschlossenen Falls [1,2] hat eine geringere Varianz [3], aber im Fall einer Modellfehlspezifikation wächst die Verzerrung schneller [4]. Es ist auch möglich, eine Bayes'sche Inferenz unter der Annahme eines offenen M-Falls [1,2] durchzuführen, der eine höhere Varianz aufweist [3], aber im Fall einer Modellfehlspezifikation ist die Verzerrung kleiner [4]. Die Auswirkungen dieses Bias-Varianz-Kompromisses zwischen Bayes'schen M-geschlossenen und M-offenen Fällen tauchen auch in einigen der Referenzen auf, die in den nachstehenden Referenzen enthalten sind, aber es besteht eindeutig Bedarf an mehr.
[1] Bernardo und Smith (1994). Bayesianische Theorie. John Wiley \ & Söhne.
[2] Vehtari und Ojanen (2012). Eine Übersicht über Bayes'sche Vorhersagemethoden für die Bewertung, Auswahl und den Vergleich von Modellen. Statistics Surveys, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen und Aki Vehtari (2017). Vergleich der Bayes'schen Vorhersagemethoden für die Modellauswahl. Statistics and Computing, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson und Andrew Gelman (2017). Verwendung des Stapelns zur Mittelung der Bayes'schen Vorhersageverteilung. arXiv-Vorabdruck arXiv: 1704.02030 arxiv.org/abs/1704.02030
quelle
Hier sind einige andere Möglichkeiten, die Bayes'sche Folgerung in falsch spezifizierten Modellen zu rechtfertigen.
Sie können ein Konfidenzintervall für den posterioren Mittelwert mithilfe der Sandwich-Formel erstellen (auf die gleiche Weise wie beim MLE). Selbst wenn die glaubwürdigen Mengen keine Abdeckung haben, können Sie dennoch gültige Konfidenzintervalle für Punktschätzer erstellen, wenn Sie daran interessiert sind.
Sie können die posteriore Verteilung neu skalieren, um sicherzustellen, dass glaubwürdige Mengen abgedeckt sind.
Müller, Ulrich K. "Risiko der Bayes'schen Inferenz in falsch spezifizierten Modellen und der Sandwich-Kovarianz-Matrix." Econometrica 81.5 (2013): 1805 & ndash; 1849.
quelle
Bayesian Interpretation dieser Annahme ist , dass es eine zusätzliche Zufallsvariable und ein Wert in seinem Bereich so dass . Ihr Vorwissen besagt und . Dann ist was nicht die richtige Wahrscheinlichkeitsverteilung ist.φ 0 φ 0 ∫ P ( X | θ , φ = φ 0 ) d θ = 0ϕ ϕ0 ϕ0 ∫p(X|θ,ϕ=ϕ0)dθ=0 p(ϕ=ϕ0)∝1 p(ϕ≠ϕ0)=0 p(θ|X,ϕ=ϕ0)=0
Dieser Fall entspricht einer ähnlichen Inferenzregel in der Logik, in der , dh Sie können aus einem Widerspruch nichts schließen. Das Ergebnis ist eine Art und Weise, in der die Bayes'sche Wahrscheinlichkeitstheorie Ihnen sagt, dass Ihr Vorwissen nicht mit Ihren Daten übereinstimmt. Wenn jemand dieses Ergebnis bei der Ableitung des Seitenzahns nicht erzielt, bedeutet dies, dass die Formulierung nicht alle relevanten Vorkenntnisse codiert. Zur Einschätzung dieser Situation übergebe ich Jaynes (2003, S.41):A,¬A⊢∅ p(θ|X,ϕ=ϕ0)=0
Mit anderen Worten, wenn Ihre Problemformulierung ungenau ist - wenn Ihr Modell falsch ist, können Sie mithilfe der Bayes'schen Statistik herausfinden, ob dies der Fall ist, und herausfinden, welcher Aspekt des Modells die Ursache des Problems ist.
In der Praxis ist möglicherweise nicht ganz klar, welches Wissen relevant ist und ob es in die Ableitung einbezogen werden sollte. Anschließend werden verschiedene Modellprüftechniken (Kapitel 6 und 7 in Gelman et al., 2013, geben einen Überblick) verwendet, um eine ungenaue Problemformulierung herauszufinden und zu identifizieren.
A. Gelman, JB Carlin, HS Stern, DB Dunson, A. Vehtari & DB Rubin (2013). Bayesianische Datenanalyse, 3. Auflage. Chapman & Hall / CRC.
Jaynes, ET (2003). Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft. Cambridge University Press.
quelle
Die MLE ist weiterhin ein Schätzer für einen Parameter in einem Modell, das Sie angeben und als korrekt annehmen. Die Regressionskoeffizienten in einem häufig auftretenden OLS können mit dem MLE geschätzt werden, und alle Eigenschaften, die Sie ihm zuordnen möchten (unverzerrt, eine bestimmte asymptotische Varianz), setzen voraus, dass Ihr ganz bestimmtes lineares Modell korrekt ist.
Ich gehe noch einen Schritt weiter und sage, dass Sie jedes Mal, wenn Sie einem Schätzer Bedeutung und Eigenschaften zuweisen möchten, ein Modell annehmen müssen. Selbst wenn Sie einen einfachen Stichprobenmittelwert nehmen, gehen Sie davon aus, dass die Daten austauschbar sind und häufig eine IID aufweisen.
Bayes'sche Schätzer haben viele wünschenswerte Eigenschaften, die ein MLE möglicherweise nicht hat. Zum Beispiel partielle Zusammenfassung, Regularisierung und Interpretierbarkeit eines Seitenzahns, die es in vielen Situationen wünschenswert machen.
quelle
Ich empfehle die Philosophie von Gelman & Shalizi und die Praxis der Bayes'schen Statistik . Sie haben kohärente, detaillierte und praktische Antworten auf diese Fragen.
quelle
Ich denke, Sie beschreiben einen Einfluss der Modellunsicherheit - Sie befürchten, dass Ihre Schlussfolgerung über einen unbekannten Parameter im Lichte der Daten von einem Modell, , sowie den Daten, abhängig ist . Was ist, wenn ein unplausibles Modell ist? Wenn es alternative Modelle existieren, mit dem gleichen unbekannten Parameter , dann können Sie Modellunsicherheit mit Bayesian Model Averaging, marginalisieren obwohl dies ein funktionales der betrachteten Modelle und ihrer Vorgesetzten.x d m
Wenn andererseits die Definition des Parameters untrennbar mit dem Modell , so dass es keine Alternativen gibt, ist es kaum überraschend, dass Schlussfolgerungen über von abhängig sind .x m x m
quelle
Wie definieren Sie, was ein "falsch angegebenes" Modell ist? Bedeutet das das Modell ...
Wenn Sie überlegen, wie ein bestimmtes Modell falsch angegeben werden könnte, extrahieren Sie im Wesentlichen Informationen darüber, wie Sie ein besseres Modell erstellen können. Fügen Sie diese zusätzlichen Informationen in Ihr Modell ein!
Wenn Sie sich überlegen, was ein "Modell" im Bayes'schen Framework ist, können Sie immer ein Modell erstellen, das nicht falsch angegeben werden kann. Eine Möglichkeit, dies zu tun, besteht darin, Ihrem aktuellen Modell weitere Parameter hinzuzufügen. Durch Hinzufügen weiterer Parameter wird Ihr Modell flexibler und anpassungsfähiger. Maschinelles Lernen nutzt diese Idee voll aus. Dies liegt Dingen wie "Kernnetzwerken" und "Regressionsbäumen" zugrunde. Sie müssen jedoch über Prioritäten nachdenken (ähnlich wie beim Regularisieren für ML).
Sie haben zum Beispiel das "lineare Modell" als Beispiel angegeben, also haben Sie ... Wobei . Nehmen wir nun an, wir fügen für jede Beobachtung einen neuen Parameter hinzu .... Wobei
e i ∼ N ( 0 , 1 ) Modell 2: x i = θ + σ e i
quelle