Wenn jemand sagte
"Dieses Verfahren verwendet die MLE- Punktschätzung für den Parameter, der maximiert , daher ist es häufig; und außerdem ist es nicht bayesianisch."
würdest du zustimmen?
- Update zum Hintergrund : Ich habe kürzlich eine Zeitung gelesen, die behauptet, häufig zu sein. Ich bin mit ihrer Behauptung nicht einverstanden, bestenfalls bin ich der Meinung, dass sie mehrdeutig ist. In dem Papier wird weder die MLE (noch die MAP) ausdrücklich erwähnt ) . Sie nehmen nur eine Punktschätzung vor und gehen einfach so vor, als ob diese Punktschätzung wahr wäre. Sie tun es nichtAnalysieren Sie die Stichprobenverteilung dieses Schätzers oder ähnliches. Das Modell ist recht komplex und daher ist eine solche Analyse wahrscheinlich nicht möglich. Sie verwenden das Wort "posterior" auch zu keinem Zeitpunkt. Sie nehmen einfach diese Punktschätzung zum Nennwert und fahren mit ihrem Hauptinteressenthema fort - Ableiten fehlender Daten. Ich glaube nicht, dass ihre Herangehensweise einen Hinweis auf ihre Philosophie gibt. Sie haben vielleicht vorgehabt, häufig zu sein (weil sie sich verpflichtet fühlen, ihre Philosophie im Ärmel zu tragen), aber ihr tatsächlicher Ansatz ist recht einfach / bequem / faul / mehrdeutig. Ich bin jetzt geneigt zu sagen, dass die Forschung eigentlich keine Philosophie hat; stattdessen denke ich, dass ihre Haltung pragmatischer oder bequemer war:
Ich habe Daten beobachtet, , und ich möchte einige fehlende Daten abschätzen, . Es gibt einen Parameter der die Beziehung zwischen und steuert . mir eigentlich egal, außer als Mittel zum Zweck ich habe eine Schätzung für wird es leichter vorherzusagen , von ich werde eine Punktschätzung von wählen. , weil es bequem ist, insbesondere werde ich die wählen θ , die maximiert P ( x | θ ) .“
In Bayes'schen Methoden sind die Rollen der Daten und des Parameters umgekehrt. Insbesondere bedingen wir nun die beobachteten Daten und fahren fort, Rückschlüsse auf den Wert des Parameters zu ziehen. Dies erfordert eine vorherige.
So weit so gut, aber wo passt die MLE (Maximum Likelihood Estimation) in all das? Ich habe den Eindruck, dass viele Leute meinen, es sei ein Frequentist (oder genauer gesagt, es ist kein Bayesianer). Aber ich fühle , dass es Bayes ist , weil es die beobachteten Daten beinhaltet nehmen und dann das Finden der Parameter, der maximiert . Die MLE verwendet implizit eine einheitliche Priorisierung und Konditionierung der Daten und eine Maximierung von P ( p a r a m e t e . Ist es fair zu sagen, dass die MLE sowohl frequentistisch als auch bayesianisch aussieht? Oder muss jedes einfache Werkzeug genau in eine dieser beiden Kategorien fallen?
Die MLE ist konsistent, aber ich bin der Meinung, dass Konsistenz als bayesianische Idee dargestellt werden kann. Bei beliebig großen Stichproben konvergiert die Schätzung mit der richtigen Antwort. Die Aussage "Die Schätzung entspricht dem wahren Wert" gilt für alle Werte des Parameters. Das Interessante ist, dass diese Aussage auch dann zutrifft, wenn Sie die beobachteten Daten als Bayes'sch bezeichnen. Diese interessante Seite gilt für die MLE, aber nicht für einen unvoreingenommenen Schätzer.
Aus diesem Grund bin ich der Meinung, dass die MLE die "Bayesianischste" Methode ist, die man als Frequentist bezeichnen könnte.
Auf jeden Fall gelten die meisten Frequentist-Eigenschaften (wie Unparteilichkeit) in allen Fällen, einschließlich endlicher Stichprobengrößen. Die Tatsache, dass Konsistenz nur im unmöglichen Szenario (unendliche Stichprobe innerhalb eines Experiments) gilt, legt nahe, dass Konsistenz keine so nützliche Eigenschaft ist.
Gibt es bei einer realistischen (dh endlichen) Stichprobe eine Frequentist-Eigenschaft, die für die MLE gilt? Wenn nicht, ist der MLE nicht wirklich Frequentist.
quelle
Antworten:
Nein. Einfache (und nicht so einfache Werkzeuge) können aus vielen verschiedenen Blickwinkeln betrachtet werden. Die Wahrscheinlichkeitsfunktion an sich ist ein Eckpfeiler sowohl in der Bayes'schen als auch in der frequentistischen Statistik und kann unter beiden Gesichtspunkten untersucht werden! Wenn Sie möchten, können Sie die MLE als ungefähre Bayes-Lösung untersuchen oder ihre Eigenschaften mit Hilfe der asymptotischen Theorie häufig untersuchen.
quelle
Bei der Maximum-Likelihood-Schätzung berücksichtigen Sie den Wert der Schätzung und die Stichprobeneigenschaften des Schätzers, um die als Konfidenzintervall ausgedrückte Unsicherheit Ihrer Schätzung zu ermitteln. Ich halte dies für wichtig in Bezug auf Ihre Frage, da ein Konfidenzintervall im Allgemeinen von nicht beobachteten Stichprobenpunkten abhängt, die von manchen als im Wesentlichen unbayesianische Eigenschaft angesehen werden.
PS Dies hängt mit der allgemeineren Tatsache zusammen, dass die Maximum-Likelihood-Schätzung (Punkt + Intervall) das Likelihood-Prinzip nicht erfüllt , während dies bei einer vollständigen Bayes'schen Analyse (" Savage- Stil") der Fall ist.
quelle
Die Wahrscheinlichkeitsfunktion ist eine Funktion, die die Daten und die unbekannten Parameter umfasst. Sie kann als Wahrscheinlichkeitsdichte für die beobachteten Daten bei gegebenen Werten der Parameter angesehen werden. Die Parameter sind festgelegt. Die Wahrscheinlichkeit ist also für sich genommen eine häufig vorkommende Vorstellung. Das Maximieren der Wahrscheinlichkeit besteht nur darin, die spezifischen Werte der Parameter zu finden, die bewirken, dass die Wahrscheinlichkeit ihren Maximalwert annimmt. Die Maximum-Likelihood-Schätzung ist also eine häufig verwendete Methode, die ausschließlich auf den Daten und der Form des Modells basiert, von dem angenommen wird, dass es sie generiert. Die Bayes'sche Schätzung wird nur angewendet, wenn eine vorherige Verteilung auf den / die Parameter angewendet wird und die Bayes'sche Formel verwendet wird, um eine aposteriori-Verteilung für den / die Parameter zu erhalten, indem der Prioritätswert mit der Wahrscheinlichkeit kombiniert wird.
quelle
Unter der Annahme, dass Sie sich mit "Bayesian" auf subjektive Bayes (auch bekannt als epistemische Bayes, De-Finetti Bayes) und nicht auf die derzeitige empirische Bayes-Bedeutung beziehen, ist dies alles andere als trivial. Zum einen schließen Sie allein aufgrund Ihrer Daten. Es gibt keine subjektiven Überzeugungen. Dies scheint häufig genug zu sein ... Aber die Kritik, die auch von Fisher selbst (einem strengen nicht (subjektiven) Bayesian) geäußert wird, ist, dass sich bei der Auswahl der Stichprobenverteilung die Datensubjektivität eingeschlichen hat Überzeugungen des Datenerzeugungsprozesses.
Fazit: Ich glaube, die MLE wird normalerweise als frequentistisches Konzept angesehen, auch wenn es nur darum geht, wie Sie "frequentistisch" und "bayesianisch" definieren.
quelle
(Beantwortung eigener Frage)
Ein Schätzer ist eine Funktion, die Daten aufnimmt und eine Zahl (oder einen Zahlenbereich) erzeugt. Ein Schätzer an sich ist nicht wirklich „Bayesianer“ oder „Frequentist“ - Sie können sich das als eine Black Box vorstellen, in der Zahlen ein- und Zahlen ausgehen. Sie können einem Frequentisten und einem Bayesianer den gleichen Schätzer präsentieren, und sie werden verschiedene Dinge über den Schätzer zu sagen haben.
(Ich bin mit meiner simplen Unterscheidung zwischen Frequentisten und Bayesianern nicht zufrieden - es gibt noch andere Punkte, die zu berücksichtigen sind. Nehmen wir der Einfachheit halber an, es seien nur zwei genau definierte philosophische Lager.)
Sie können nicht sagen, ob ein Forscher häufig Bayesianer ist, nur nach dem Schätzer, den er wählt. Wichtig ist, dass Sie sich anhören, welche Analysen sie für den Schätzer durchführen und welche Gründe sie für die Auswahl dieses Schätzers angeben.
Stellen Sie sich vor, Sie erstellen eine Software, die den Wert von findetθ was maximiert P ( x | θ) . Sie präsentieren diese Software einem Frequentist und bitten ihn, eine Präsentation darüber zu halten. Sie werden wahrscheinlich fortfahren, indem sie die Stichprobenverteilung analysieren und testen, ob der Schätzer verzerrt ist . Und vielleicht prüfen sie, ob es konsistent ist . Sie werden den Schätzer auf der Grundlage solcher Eigenschaften entweder genehmigen oder ablehnen. Dies sind die Arten von Eigenschaften, an denen ein Frequentist interessiert ist.
Wenn die gleiche Software einem Bayesianer präsentiert wird, kann der Bayesianer mit einem Großteil der Analyse des Frequentisten zufrieden sein. Ja, alle anderen Dinge sind gleich, Voreingenommenheit ist nicht gut und Konsistenz ist gut. Aber der Bayesianer wird sich mehr für andere Dinge interessieren. Der Bayesianer wird sehen wollen, ob der Schätzer die Form einer Funktion der posterioren Verteilung annimmt; und wenn ja, welcher Prior wurde verwendet? Wenn der Schätzer auf einem Posterior basiert, wird sich der Bayesianer fragen, ob der Prior ein guter ist. Wenn sie mit dem Prior zufrieden sind und der Schätzer den Modus des Seitenzahns angibt (im Gegensatz zum Mittelwert des Seitenzahns), wenden sie diese Interpretation gerne auf die Schätzung an: "Diese Schätzung ist der Punkt Schätzung, die die beste Chance hat, richtig zu sein. "
Ich höre oft, dass Frequentisten und Bayesianer die Dinge unterschiedlich "interpretieren", auch wenn die Zahlen gleich sind. Dies kann ein wenig verwirrend sein, und ich denke nicht, dass es wirklich wahr ist. Ihre Interpretationen widersprechen sich nicht; Sie machen einfach Aussagen über verschiedene Aspekte des Systems. Lassen Sie uns Punktschätzungen für den Moment beiseite legen und stattdessen Intervalle berücksichtigen. Insbesondere gibt es häufig auftretende Konfidenzintervalle und Bayes'sche glaubwürdige Intervalle . Sie geben in der Regel unterschiedliche Antworten. Bei bestimmten Modellen mit bestimmten Prioritäten geben die beiden Intervalltypen dieselbe numerische Antwort.
Wie können wir dieselben Intervalle unterschiedlich interpretieren? Ein Frequentist wird von einem Intervallschätzer sagen:
während ein Bayesianer von einem Intervallschätzer sagt:
Diese beiden Aussagen sind abgesehen von den Worten "Vorher" und "Nachher" identisch. Der Bayesianer wird die frühere Aussage verstehen und ihr zustimmen und auch anerkennen, dass seine Wahrheit unabhängig von irgendwelchen Prioritäten ist, wodurch er "stärker" wird. Aber wenn ich als Bayesianer spreche, würde ich mir Sorgen machen, dass die vorherige Aussage nicht sehr nützlich sein könnte . Letzteres wird dem Frequentisten nicht gefallen, aber ich verstehe es nicht gut genug, um die Einwände des Frequentisten angemessen zu beschreiben.
Ist der Frequentist nach der Anzeige der Daten weiterhin optimistisch, dass der wahre Wert im Intervall enthalten ist? Vielleicht nicht. Dies ist ein wenig eingängig, aber wichtig, um Konfidenzintervalle und andere Konzepte, die auf der Stichprobenverteilung basieren, wirklich zu verstehen. Sie könnten annehmen, dass der Frequentist immer noch sagt: "Angesichts der Daten glaube ich immer noch, dass die Wahrscheinlichkeit, dass der wahre Wert in diesem Intervall liegt, bei 95% liegt." Ein Frequentist würde nicht nur fragen, ob diese Aussage wahr ist, sondern auch, ob es sinnvoll ist , Wahrscheinlichkeiten auf diese Weise zuzuweisen. Wenn Sie weitere Fragen dazu haben, fragen Sie mich nicht, diese Ausgabe ist zu viel für mich!
Der Bayesianer freut sich, diese Aussage zu machen: "Unter Berücksichtigung der Daten, die ich gerade gesehen habe, liegt die Wahrscheinlichkeit bei 95%, dass der wahre Wert in diesem Bereich liegt."
Ich muss zugeben, dass ich in einem letzten Punkt etwas verwirrt bin. Ich verstehe und stimme der Aussage des Frequentisten zu, bevor die Daten eingesehen werden. Ich verstehe die Aussage des Bayesianers, nachdem die Daten eingesehen wurden , und stimme ihr zu . Ich bin mir jedoch nicht sicher, was der Frequentist sagen wird, nachdem die Daten gesehen wurden. Wird sich ihre Weltanschauung geändert haben? Ich bin nicht in der Lage, die frequentistische Philosophie hier zu verstehen.
quelle
Der Punktschätzer, der maximiertP( x | θ ) ist die MLE. Dies ist ein häufig verwendeter Punktschätzer in der Frequenzstatistik, wird jedoch in der Bayes'schen Statistik weniger häufig verwendet. In der Bayes'schen Statistik ist es üblich, einen Punktschätzer zu verwenden, der entweder der hintere erwartete Wert oder der Wert ist, der den erwarteten Verlust (Risiko) in einem Entscheidungsproblem minimiert. Es gibt sicherlich einige Fälle, in denen der Bayes'sche Schätzer mit dem MLE korrespondiert (z. B. wenn wir eine einheitliche Priorität haben oder in einigen speziellen Fällen, um den Verlust zu minimieren), aber dies ist kein gewöhnliches Ereignis. Daher ist der MLE in der Regel ein häufiger Schätzer.
quelle