Wenn Sie eine Punktschätzung verwenden, die

12

Wenn jemand sagte

"Dieses Verfahren verwendet die MLE- Punktschätzung für den Parameter, der maximiert P(x|θ), daher ist es häufig; und außerdem ist es nicht bayesianisch."

würdest du zustimmen?

  • Update zum Hintergrund : Ich habe kürzlich eine Zeitung gelesen, die behauptet, häufig zu sein. Ich bin mit ihrer Behauptung nicht einverstanden, bestenfalls bin ich der Meinung, dass sie mehrdeutig ist. In dem Papier wird weder die MLE (noch die MAP) ausdrücklich erwähnt ) . Sie nehmen nur eine Punktschätzung vor und gehen einfach so vor, als ob diese Punktschätzung wahr wäre. Sie tun es nichtAnalysieren Sie die Stichprobenverteilung dieses Schätzers oder ähnliches. Das Modell ist recht komplex und daher ist eine solche Analyse wahrscheinlich nicht möglich. Sie verwenden das Wort "posterior" auch zu keinem Zeitpunkt. Sie nehmen einfach diese Punktschätzung zum Nennwert und fahren mit ihrem Hauptinteressenthema fort - Ableiten fehlender Daten. Ich glaube nicht, dass ihre Herangehensweise einen Hinweis auf ihre Philosophie gibt. Sie haben vielleicht vorgehabt, häufig zu sein (weil sie sich verpflichtet fühlen, ihre Philosophie im Ärmel zu tragen), aber ihr tatsächlicher Ansatz ist recht einfach / bequem / faul / mehrdeutig. Ich bin jetzt geneigt zu sagen, dass die Forschung eigentlich keine Philosophie hat; stattdessen denke ich, dass ihre Haltung pragmatischer oder bequemer war:

    Ich habe Daten beobachtet, x , und ich möchte einige fehlende Daten abschätzen, z . Es gibt einen Parameter θ der die Beziehung zwischen z und steuert x. mir eigentlich egal, θaußer als Mittel zum Zweck ich habe eine Schätzung für θ wird es leichter vorherzusagen , z von x ich werde eine Punktschätzung von wählen. θ , weil es bequem ist, insbesondere werde ich die wählen θ , die maximiert P ( x | θ ) .“θ^P(x|θ)

Die Idee eines unvoreingenommenen Schätzers ist eindeutig ein häufig vorkommendes Konzept. Dies liegt daran, dass es keine Bedingung für die Daten darstellt und eine nette Eigenschaft (Unparteilichkeit) beschreibt, die für alle Werte des Parameters gelten würde.

In Bayes'schen Methoden sind die Rollen der Daten und des Parameters umgekehrt. Insbesondere bedingen wir nun die beobachteten Daten und fahren fort, Rückschlüsse auf den Wert des Parameters zu ziehen. Dies erfordert eine vorherige.

So weit so gut, aber wo passt die MLE (Maximum Likelihood Estimation) in all das? Ich habe den Eindruck, dass viele Leute meinen, es sei ein Frequentist (oder genauer gesagt, es ist kein Bayesianer). Aber ich fühle , dass es Bayes ist , weil es die beobachteten Daten beinhaltet nehmen und dann das Finden der Parameter, der maximiert . Die MLE verwendet implizit eine einheitliche Priorisierung und Konditionierung der Daten und eine Maximierung von P ( p a r a m e t eP(data|parameter) . Ist es fair zu sagen, dass die MLE sowohl frequentistisch als auch bayesianisch aussieht? Oder muss jedes einfache Werkzeug genau in eine dieser beiden Kategorien fallen?P(parameter|data)

Die MLE ist konsistent, aber ich bin der Meinung, dass Konsistenz als bayesianische Idee dargestellt werden kann. Bei beliebig großen Stichproben konvergiert die Schätzung mit der richtigen Antwort. Die Aussage "Die Schätzung entspricht dem wahren Wert" gilt für alle Werte des Parameters. Das Interessante ist, dass diese Aussage auch dann zutrifft, wenn Sie die beobachteten Daten als Bayes'sch bezeichnen. Diese interessante Seite gilt für die MLE, aber nicht für einen unvoreingenommenen Schätzer.

Aus diesem Grund bin ich der Meinung, dass die MLE die "Bayesianischste" Methode ist, die man als Frequentist bezeichnen könnte.

Auf jeden Fall gelten die meisten Frequentist-Eigenschaften (wie Unparteilichkeit) in allen Fällen, einschließlich endlicher Stichprobengrößen. Die Tatsache, dass Konsistenz nur im unmöglichen Szenario (unendliche Stichprobe innerhalb eines Experiments) gilt, legt nahe, dass Konsistenz keine so nützliche Eigenschaft ist.

Gibt es bei einer realistischen (dh endlichen) Stichprobe eine Frequentist-Eigenschaft, die für die MLE gilt? Wenn nicht, ist der MLE nicht wirklich Frequentist.

Aaron McDaid
quelle
6
Ausgehend von der Interpretation der Parameter in beiden Paradigmen kann der MLE nicht als Bayesian angesehen werden. Aus Bayes-Sicht ist ein Parameter eine Zufallsvariable, während es sich bei der klassischen Einstellung um einen zu schätzenden Wert handelt. Das MLE stimmt in vielen Fällen mit dem MAP (und möglicherweise anderen Punkt-Bayes-Schätzern) überein, aber die Interpretation ist völlig anders.
3
@Procrastinator, du solltest deinen Kommentar als Antwort posten. Ich erwarte nicht, es zu unterstützen oder anzunehmen, aber ich fühle nur, dass Ihr Kommentar eine Antwort ist. Dann könnten Sie und ich unsere Kommentare hier löschen.
Aaron McDaid
1
Ich verstehe diese Frage nicht. (Ich bin vielleicht allein dabei.) Was genau meinen Sie mit "Frequentist"? "Nicht Bayesianisch" geht nicht, denn das umfasst eine Vielzahl von Philosophien und Methoden. Was macht etwas zu einem "frequentistischen Eigentum"? Gibt es überhaupt einen Zusammenhang zwischen Ihrem "Frequentisten" und beispielsweise einem Abraham Wald oder Jack Kiefer, der statistische Verfahren mit entscheidungswissenschaftlichen Grundsätzen rechtfertigt? (Insbesondere Kiefer hatte auf dieser Grundlage eine eher kritische Meinung zu MLE.)
whuber
3
@whuber: Du bist nicht allein. Die eine Stimme zu schließen ist meine und wurde vor ein oder zwei Tagen gemacht. Dieser Frage mangelt es aus meiner Sicht an Klarheit und Konzentration, und sie ist aufgrund ihrer diskursiven und etwas polemischen Gestaltung nicht konstruktiv .
Kardinal
1
Die Moderatoren zögern, diesen Thread zu schließen, da er viele Antworten (einschließlich einer, die angenommen wurde!) Und Kommentare gesammelt hat, was darauf hindeutet, dass die Community Ihrer neuen Bewertung dieses Threads, Aaron, möglicherweise nicht zustimmt.
Whuber

Antworten:

7

Oder muss jedes einfache Werkzeug genau in eine dieser beiden Kategorien fallen?

Nein. Einfache (und nicht so einfache Werkzeuge) können aus vielen verschiedenen Blickwinkeln betrachtet werden. Die Wahrscheinlichkeitsfunktion an sich ist ein Eckpfeiler sowohl in der Bayes'schen als auch in der frequentistischen Statistik und kann unter beiden Gesichtspunkten untersucht werden! Wenn Sie möchten, können Sie die MLE als ungefähre Bayes-Lösung untersuchen oder ihre Eigenschaften mit Hilfe der asymptotischen Theorie häufig untersuchen.

kjetil b halvorsen
quelle
4
Das ist falsch, Aaron. Frequentisten verwenden die Maximum-Likelihood-Schätzung und glauben an das Likelihood-Prinzip. Kjetil hat Recht, dass die Wahrscheinlichkeitsfunktion ein Schlüsselelement sowohl des Bayesianischen als auch des Frequentistischen Inferenzansatzes ist. Aber sie benutzen es anders.
Michael R. Chernick
3
Ich habe eine sehr gute Antwort auf Aarons Frage gegeben, aber aus irgendeinem seltsamen Grund stimmen die Leute ab. Sie dürfen nicht verstehen, was los ist. Es gibt keine Möglichkeit, die Maximum-Likelihood-Schätzung als Bayesian zu klassifizieren, da sie die Wahrscheinlichkeit maximiert und vorherige Verteilungen überhaupt nicht berücksichtigt!
Michael R. Chernick
4
(Ich habe gerade einen eigenen Kommentar gelöscht. Ich versuche sicherzustellen, dass ich nur hilfreiche Kommentare hinzufüge.) Michael, es hat keinen Sinn, sich über Ablehnungen zu beschweren, und Sie werden kein Mitgefühl bekommen, wenn Sie einfach sagen: "Sie dürfen nicht verstehen, was ist los. "
Aaron McDaid
7
@Michael, haben Sie jemals ein produktives Hin und Her erlebt, das mit "Warum wurde ich herabgestimmt" beginnt? Ich habe es sicher nicht getan. Aus diesem Grund rate ich (und einige andere Mitglieder hier) davon ab, überhaupt ein Gespräch zu beginnen, unabhängig davon, ob Sie es für gerechtfertigt halten oder nicht. Es ist sinnlos und führt im Allgemeinen zu längeren Diskussionen außerhalb des Themas.
Makro
3
@Michael, ich bin mit Sicherheit einverstanden, dass es allgemein höflich ist, eine Erklärung abzugeben, und ich versuche es auch, wenn jemand anderes meine Besorgnis nicht bereits in den Kommentaren geäußert hat. Wenn Sie jedoch eine stille Gegenstimme erhalten, bezweifle ich, dass das Ansprechen des Themas zu einem produktiven Gespräch führt.
Makro
10

Bei der Maximum-Likelihood-Schätzung berücksichtigen Sie den Wert der Schätzung und die Stichprobeneigenschaften des Schätzers, um die als Konfidenzintervall ausgedrückte Unsicherheit Ihrer Schätzung zu ermitteln. Ich halte dies für wichtig in Bezug auf Ihre Frage, da ein Konfidenzintervall im Allgemeinen von nicht beobachteten Stichprobenpunkten abhängt, die von manchen als im Wesentlichen unbayesianische Eigenschaft angesehen werden.

PS Dies hängt mit der allgemeineren Tatsache zusammen, dass die Maximum-Likelihood-Schätzung (Punkt + Intervall) das Likelihood-Prinzip nicht erfüllt , während dies bei einer vollständigen Bayes'schen Analyse (" Savage- Stil") der Fall ist.

Zen
quelle
+1. Interessant und überraschend ist der Gedanke, dass die verkürzte Normale zu einem anderen Seitenzahn führt! Ich habe kommentiert, dass ich skeptisch war, aber ich habe diesen Kommentar gelöscht. Ich muss noch ein bisschen darüber nachdenken. Normalerweise finde ich das Likelihood-Prinzip „offensichtlich wahr“, daher sollte ich etwas mehr darüber nachdenken.
Aaron McDaid
Guter Punkt Zen. Ich vermute, als Punktschätzung entspricht die Maximalwahrscheinlichkeitsschätzung dem Wahrscheinlichkeitsprinzip, nicht aber die häufig verwendete Vorstellung von Konfidenzintervallen.
Michael R. Chernick
@Zen, ich bin nicht davon überzeugt, dass die Nachfolger gleich sind. Haben Sie eine Referenz dafür? Ich habe ein Google Doc mit dem Argument erstellt, dass sich der Posterior ändert, wenn wir eine Normalen durch eine verkürzte Normalen ersetzen. Danke im Voraus.
Aaron McDaid
6

Die Wahrscheinlichkeitsfunktion ist eine Funktion, die die Daten und die unbekannten Parameter umfasst. Sie kann als Wahrscheinlichkeitsdichte für die beobachteten Daten bei gegebenen Werten der Parameter angesehen werden. Die Parameter sind festgelegt. Die Wahrscheinlichkeit ist also für sich genommen eine häufig vorkommende Vorstellung. Das Maximieren der Wahrscheinlichkeit besteht nur darin, die spezifischen Werte der Parameter zu finden, die bewirken, dass die Wahrscheinlichkeit ihren Maximalwert annimmt. Die Maximum-Likelihood-Schätzung ist also eine häufig verwendete Methode, die ausschließlich auf den Daten und der Form des Modells basiert, von dem angenommen wird, dass es sie generiert. Die Bayes'sche Schätzung wird nur angewendet, wenn eine vorherige Verteilung auf den / die Parameter angewendet wird und die Bayes'sche Formel verwendet wird, um eine aposteriori-Verteilung für den / die Parameter zu erhalten, indem der Prioritätswert mit der Wahrscheinlichkeit kombiniert wird.

Michael R. Chernick
quelle
Alle hier geposteten Kommentare wurden in einen speziellen Chatroom verschoben . Wenn jemand Schwierigkeiten hat, diesen Raum zu betreten, und in diesem Fall nur, melden Sie sich bitte für die Aufmerksamkeit des Moderators. Weitere Kommentare werden nicht akzeptiert.
CHL
6

Unter der Annahme, dass Sie sich mit "Bayesian" auf subjektive Bayes (auch bekannt als epistemische Bayes, De-Finetti Bayes) und nicht auf die derzeitige empirische Bayes-Bedeutung beziehen, ist dies alles andere als trivial. Zum einen schließen Sie allein aufgrund Ihrer Daten. Es gibt keine subjektiven Überzeugungen. Dies scheint häufig genug zu sein ... Aber die Kritik, die auch von Fisher selbst (einem strengen nicht (subjektiven) Bayesian) geäußert wird, ist, dass sich bei der Auswahl der Stichprobenverteilung die Datensubjektivität eingeschlichen hat Überzeugungen des Datenerzeugungsprozesses.

Fazit: Ich glaube, die MLE wird normalerweise als frequentistisches Konzept angesehen, auch wenn es nur darum geht, wie Sie "frequentistisch" und "bayesianisch" definieren.

JohnRos
quelle
+1: Das ist es, worauf ich in meinem obigen Kommentar abzielte.
Neil G
1

(Beantwortung eigener Frage)

Ein Schätzer ist eine Funktion, die Daten aufnimmt und eine Zahl (oder einen Zahlenbereich) erzeugt. Ein Schätzer an sich ist nicht wirklich „Bayesianer“ oder „Frequentist“ - Sie können sich das als eine Black Box vorstellen, in der Zahlen ein- und Zahlen ausgehen. Sie können einem Frequentisten und einem Bayesianer den gleichen Schätzer präsentieren, und sie werden verschiedene Dinge über den Schätzer zu sagen haben.

(Ich bin mit meiner simplen Unterscheidung zwischen Frequentisten und Bayesianern nicht zufrieden - es gibt noch andere Punkte, die zu berücksichtigen sind. Nehmen wir der Einfachheit halber an, es seien nur zwei genau definierte philosophische Lager.)

Sie können nicht sagen, ob ein Forscher häufig Bayesianer ist, nur nach dem Schätzer, den er wählt. Wichtig ist, dass Sie sich anhören, welche Analysen sie für den Schätzer durchführen und welche Gründe sie für die Auswahl dieses Schätzers angeben.

Stellen Sie sich vor, Sie erstellen eine Software, die den Wert von findet θ was maximiert P(x|θ). Sie präsentieren diese Software einem Frequentist und bitten ihn, eine Präsentation darüber zu halten. Sie werden wahrscheinlich fortfahren, indem sie die Stichprobenverteilung analysieren und testen, ob der Schätzer verzerrt ist . Und vielleicht prüfen sie, ob es konsistent ist . Sie werden den Schätzer auf der Grundlage solcher Eigenschaften entweder genehmigen oder ablehnen. Dies sind die Arten von Eigenschaften, an denen ein Frequentist interessiert ist.

Wenn die gleiche Software einem Bayesianer präsentiert wird, kann der Bayesianer mit einem Großteil der Analyse des Frequentisten zufrieden sein. Ja, alle anderen Dinge sind gleich, Voreingenommenheit ist nicht gut und Konsistenz ist gut. Aber der Bayesianer wird sich mehr für andere Dinge interessieren. Der Bayesianer wird sehen wollen, ob der Schätzer die Form einer Funktion der posterioren Verteilung annimmt; und wenn ja, welcher Prior wurde verwendet? Wenn der Schätzer auf einem Posterior basiert, wird sich der Bayesianer fragen, ob der Prior ein guter ist. Wenn sie mit dem Prior zufrieden sind und der Schätzer den Modus des Seitenzahns angibt (im Gegensatz zum Mittelwert des Seitenzahns), wenden sie diese Interpretation gerne auf die Schätzung an: "Diese Schätzung ist der Punkt Schätzung, die die beste Chance hat, richtig zu sein. "

Ich höre oft, dass Frequentisten und Bayesianer die Dinge unterschiedlich "interpretieren", auch wenn die Zahlen gleich sind. Dies kann ein wenig verwirrend sein, und ich denke nicht, dass es wirklich wahr ist. Ihre Interpretationen widersprechen sich nicht; Sie machen einfach Aussagen über verschiedene Aspekte des Systems. Lassen Sie uns Punktschätzungen für den Moment beiseite legen und stattdessen Intervalle berücksichtigen. Insbesondere gibt es häufig auftretende Konfidenzintervalle und Bayes'sche glaubwürdige Intervalle . Sie geben in der Regel unterschiedliche Antworten. Bei bestimmten Modellen mit bestimmten Prioritäten geben die beiden Intervalltypen dieselbe numerische Antwort.

Wie können wir dieselben Intervalle unterschiedlich interpretieren? Ein Frequentist wird von einem Intervallschätzer sagen:

Bevor ich die Daten oder das entsprechende Intervall sehe, kann ich sagen, dass die Wahrscheinlichkeit, dass der wahre Parameter im Intervall enthalten ist, mindestens 95% beträgt.

während ein Bayesianer von einem Intervallschätzer sagt:

Nachdem ich die Daten oder das entsprechende Intervall gesehen habe, kann ich mit einer Wahrscheinlichkeit von mindestens 95% sagen, dass der wahre Parameter im Intervall enthalten ist.

Diese beiden Aussagen sind abgesehen von den Worten "Vorher" und "Nachher" identisch. Der Bayesianer wird die frühere Aussage verstehen und ihr zustimmen und auch anerkennen, dass seine Wahrheit unabhängig von irgendwelchen Prioritäten ist, wodurch er "stärker" wird. Aber wenn ich als Bayesianer spreche, würde ich mir Sorgen machen, dass die vorherige Aussage nicht sehr nützlich sein könnte . Letzteres wird dem Frequentisten nicht gefallen, aber ich verstehe es nicht gut genug, um die Einwände des Frequentisten angemessen zu beschreiben.

Ist der Frequentist nach der Anzeige der Daten weiterhin optimistisch, dass der wahre Wert im Intervall enthalten ist? Vielleicht nicht. Dies ist ein wenig eingängig, aber wichtig, um Konfidenzintervalle und andere Konzepte, die auf der Stichprobenverteilung basieren, wirklich zu verstehen. Sie könnten annehmen, dass der Frequentist immer noch sagt: "Angesichts der Daten glaube ich immer noch, dass die Wahrscheinlichkeit, dass der wahre Wert in diesem Intervall liegt, bei 95% liegt." Ein Frequentist würde nicht nur fragen, ob diese Aussage wahr ist, sondern auch, ob es sinnvoll ist , Wahrscheinlichkeiten auf diese Weise zuzuweisen. Wenn Sie weitere Fragen dazu haben, fragen Sie mich nicht, diese Ausgabe ist zu viel für mich!

Der Bayesianer freut sich, diese Aussage zu machen: "Unter Berücksichtigung der Daten, die ich gerade gesehen habe, liegt die Wahrscheinlichkeit bei 95%, dass der wahre Wert in diesem Bereich liegt."

Ich muss zugeben, dass ich in einem letzten Punkt etwas verwirrt bin. Ich verstehe und stimme der Aussage des Frequentisten zu, bevor die Daten eingesehen werden. Ich verstehe die Aussage des Bayesianers, nachdem die Daten eingesehen wurden , und stimme ihr zu . Ich bin mir jedoch nicht sicher, was der Frequentist sagen wird, nachdem die Daten gesehen wurden. Wird sich ihre Weltanschauung geändert haben? Ich bin nicht in der Lage, die frequentistische Philosophie hier zu verstehen.

Aaron McDaid
quelle
1
Obwohl ich vieles davon klar und nachdenklich finde, scheint es völlig zu ignorieren, was grundlegend ist, was unterschiedliche Interpretationen der Wahrscheinlichkeit insgesamt sind. Die letzten beiden Absätze gelten auch nicht für Analysen oder Interpretationen, die ich gesehen habe. In der Tat erkenne ich keinen praktizierenden Statistiker in Ihrem "Frequentist" (der eher wie ein alter Philosoph klingt). Wer hat - zumindest nach Aristoteles - jemals gesagt, dass die Datenanalyse abgeschlossen ist, bevor die Daten vorliegen? Ist dies ein Strohmann für den Versuch, einen bayesianischen Ansatz voranzutreiben?
Whuber
1
@whuber, wenn es ein Strohmann ist, ist es nicht gewollt. Es ist immer schwierig zu versuchen, über die Meinungen anderer zu berichten , ohne versehentlich ein Urteil darüber abzugeben. Und ich behaupte nicht, ein breites Verständnis für die vielen nuancierten Positionen zu haben. Ich werde versuchen, meinen letzten Absatz zu überdenken. Sie sagen auch, ich habe "unterschiedliche Interpretationen der Wahrscheinlichkeit insgesamt" ausgelassen. Ich würde lieber nichts sagen, als etwas Falsches zu sagen. Man kann nicht alles sagen. Ich kann versuchen, dir die Wahrheit und nichts als die Wahrheit zu sagen, aber ich kann dir nicht die ganze Wahrheit sagen :-)
Aaron McDaid
(+1) Du hast Recht, hier gibt es eine lange Debatte und man kann nicht jeden Punkt in einem Beitrag behandeln. Ich stimme dieser Antwort für ihre sorgfältige und nachdenkliche Darstellung zu (aber nicht, weil ich damit einverstanden bin!).
Whuber
Ich habe die letzten Absätze bearbeitet, um zu versuchen, fairer zu sein. ab "Nach dem Anzeigen der Daten ...". Ich bin kein Experte, also versuche ich ehrlich vage zu sein, wo ich aus meiner Tiefe herauskomme. Danke für die Rückmeldung.
Aaron McDaid
1

Der Punktschätzer, der maximiert P(x|θ)ist die MLE. Dies ist ein häufig verwendeter Punktschätzer in der Frequenzstatistik, wird jedoch in der Bayes'schen Statistik weniger häufig verwendet. In der Bayes'schen Statistik ist es üblich, einen Punktschätzer zu verwenden, der entweder der hintere erwartete Wert oder der Wert ist, der den erwarteten Verlust (Risiko) in einem Entscheidungsproblem minimiert. Es gibt sicherlich einige Fälle, in denen der Bayes'sche Schätzer mit dem MLE korrespondiert (z. B. wenn wir eine einheitliche Priorität haben oder in einigen speziellen Fällen, um den Verlust zu minimieren), aber dies ist kein gewöhnliches Ereignis. Daher ist der MLE in der Regel ein häufiger Schätzer.

Setzen Sie Monica wieder ein
quelle