Ist die Invarianzeigenschaft des ML-Schätzers aus Bayes'scher Sicht unsinnig?

9

Casella und Berger geben die Invarianzeigenschaft des ML-Schätzers wie folgt an:

Geben Sie hier die Bildbeschreibung ein

Es scheint mir jedoch, dass sie die "Wahrscheinlichkeit" von η völlig ad hoc und unsinnig definieren:

Geben Sie hier die Bildbeschreibung ein

Wenn ich Grundregeln der Wahrscheinlichkeitstheorie auf den einfachen Fall anwende, in dem , erhalte ich stattdessen Folgendes: L ( η | x ) = p ( x | θ 2 = η ) = p ( x | θ = - η=τ(θ)=θ2 Wenden wir nun den Bayes-Satz an und dann die Tatsache, dassAundBsich gegenseitig ausschließen, so dass wir die Summenregel anwenden können: p(x|AB)=p(x) p ( A B | x )

L(η|x)=p(x|θ2=η)=p(x|θ=ηθ=η)=:p(x|AB)
AB
p(x|AB)=p(x)p(AB|x)p(AB)=p(x|AB)=p(x)p(A|x)+p(B|x)p(A)+p(B)

Wenden Sie nun den Bayes-Satz erneut auf die Terme im Zähler an:

p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)

Wenn wir dieses wrt auf maximieren wollen, um die maximale Wahrscheinlichkeitsschätzung von η zu erhalten , müssen wir maximieren: p θ ( - ηη

pθ(η)p(x|θ=η)+pθ(η)p(x|θ=η)

Schlägt Bayes wieder zu? Ist Casella & Berger falsch? Oder liege ich falsch?

user56834
quelle
2
Mögliches Duplikat der Invarianzeigenschaft des Maximum-Likelihood-Schätzers?
Sextus Empiricus
1
η=τ(θ)=θ2
4
Ich verstehe Ihre Frustration, Programmer2134 (& @MartijnWeterings). Bitte achten Sie jedoch auf Ihren Ton in Ihren Kommentaren. Produktive Gespräche sind nur dann möglich , wenn unsere wäre schön Politik folgt. Wenn Sie nicht an produktiven Gesprächen interessiert sind, müssen Sie diese Fragen an anderer Stelle veröffentlichen.
Gung - Reinstate Monica
3
@gung, du hast vollkommen recht. Und ich bedauere, mit diesem Ton reagiert zu haben. Ich werde von jetzt an damit aufhören. Das tut mir leid. In Bezug auf das Gespräch bin ich daran interessiert, produktive zu verfolgen, aber ich war der Meinung, dass die Reaktionen der Leute auf einige Fragen, die ich gestellt habe, größtenteils kontraproduktiv waren. Trotzdem werde ich das nächste Mal anders reagieren.
user56834
3
Vielen Dank. Es ist am besten anzunehmen, dass die Menschen in gutem Glauben reagieren. Es gibt (relativ wenige, IMHO) Gelegenheiten, in denen die Leute hier nicht sind, aber selbst dann können sie manchmal dazu gebracht werden, herumzukommen.
Gung - Reinstate Monica

Antworten:

15

Wie Xi'an sagt, ist die Frage umstritten, aber ich denke, dass viele Menschen dennoch dazu gebracht werden, die Maximum-Likelihood-Schätzung aus einer Bayes'schen Perspektive zu betrachten, weil in einigen Literaturstellen und im Internet eine Aussage erscheint: " Die Maximum-Likelihood Schätzung ist ein besonderer Fall der Bayes'schen Maximum-a-posteriori-Schätzung, wenn die vorherige Verteilung gleichmäßig ist ".

Ich würde sagen , dass aus einer Bayes - Perspektive des Maximum-Likelihood - Schätzer und seine Invarianz Eigenschaft können Sinn machen, aber die Rolle und Bedeutung von Schätzern in Bayes - Theorie ist sehr verschieden von frequentistischen Theorie. Und dieser spezielle Schätzer ist aus Bayes'scher Sicht normalerweise nicht sehr sinnvoll. Hier ist der Grund. Lassen Sie mich der Einfachheit halber einen eindimensionalen Parameter und Eins-Eins-Transformationen betrachten.

Zunächst zwei Bemerkungen:

  1. T=273.16t=0.01θ=32.01η=5.61

  2. p(x)dx
    x

    Δxp(x)Δxx
    dx

    p(x1)>p(x2)x1x2xx1x2


xx~D

(*)x~:=argmaxxp(Dx).

Dieser Schätzer wählt einen Punkt auf dem Parameterverteiler aus und hängt daher nicht von einem Koordinatensystem ab. Anders ausgedrückt: Jeder Punkt auf dem Parameterverteiler ist einer Zahl zugeordnet: der Wahrscheinlichkeit für die Daten ; Wir wählen den Punkt mit der höchsten zugeordneten Nummer. Diese Auswahl erfordert kein Koordinatensystem oder Basismaß. Aus diesem Grund ist dieser Schätzer parametrisierungsinvariant, und diese Eigenschaft sagt uns, dass es sich nicht um eine Wahrscheinlichkeit handelt - wie gewünscht. Diese Invarianz bleibt bestehen, wenn wir komplexere Parametertransformationen betrachten, und die von Xi'an erwähnte Profilwahrscheinlichkeit ist aus dieser Perspektive völlig sinnvoll.D

Lassen Sie uns die Bayes - Sicht sehen
Aus dieser Sicht ist es immer sinnvoll , zu sprechen von der Wahrscheinlichkeit für einen kontinuierlichen Parameter macht, wenn wir darüber, bedingt auf Daten und andere Beweise unsicher sind . Wir schreiben dies als Wie eingangs erwähnt, bezieht sich diese Wahrscheinlichkeit auf Intervalle auf dem Parameterverteiler, nicht auf einzelne Punkte.D

(**)p(xD)dxp(Dx)p(x)dx.

Idealerweise sollten wir unsere Unsicherheit melden, indem wir die vollständige Wahrscheinlichkeitsverteilung für den Parameter angeben. Daher ist der Begriff des Schätzers aus Bayes'scher Sicht zweitrangig.p(xD)dx

Dieser Begriff erscheint, wenn wir einen Punkt auf dem Parameterverteiler für einen bestimmten Zweck oder Grund auswählen müssen , obwohl der wahre Punkt unbekannt ist. Diese Wahl ist der Bereich der Entscheidungstheorie [1], und der gewählte Wert ist die richtige Definition von "Schätzer" in der Bayes'schen Theorie. Die Entscheidungstheorie besagt, dass wir zuerst eine Nutzenfunktion einführen müssen die uns sagt, wie viel wir gewinnen , wenn wir den Punkt auf dem Parameterverteiler wählen , wenn der wahre Punkt (alternativ, wir können pessimistisch von einer Verlustfunktion sprechen). Diese Funktion hat in jedem Koordinatensystem einen anderen Ausdruck, z. B. und(P0,P)G(P0;P)P0P(x0,x)Gx(x0;x)(y0,y)Gy(y0;y);; Wenn die Koordinatentransformation , werden die beiden Ausdrücke durch [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]

Lassen Sie mich gleich betonen, dass wir, wenn wir beispielsweise von einer quadratischen Nutzfunktion sprechen, implizit ein bestimmtes Koordinatensystem gewählt haben, normalerweise ein natürliches für den Parameter. In einem anderen Koordinatensystem ist der Ausdruck für die Utility-Funktion im Allgemeinen nicht quadratisch, aber es ist immer noch dieselbe Utility-Funktion auf dem Parameterverteiler.

Der einer Dienstprogrammfunktion Schätzer ist der Punkt, der den erwarteten Nutzen angesichts unserer Daten maximiert . In einem Koordinatensystem ist seine Koordinate Diese Definition ist unabhängig von Koordinatenänderungen: In neuen Koordinaten die Koordinate des Schätzers . Dies folgt aus der Koordinatenunabhängigkeit von und des Integrals.P^GDx

(***)x^:=argmaxx0Gx(x0;x)p(xD)dx.
y=f(x)y^=f(x^)G

Sie sehen, dass diese Art der Invarianz eine eingebaute Eigenschaft der Bayes'schen Schätzer ist.

Jetzt können wir fragen: Gibt es eine Nutzenfunktion, die zu einem Schätzer führt, der der Maximum-Likelihood entspricht? Da der Maximum-Likelihood-Schätzer unveränderlich ist, kann eine solche Funktion existieren. Unter diesem Gesichtspunkt wäre die maximale Wahrscheinlichkeit aus Bayes-Sicht unsinnig, wenn sie nicht unveränderlich wäre!

Eine Utility-Funktion, die in einem bestimmten Koordinatensystem gleich einem Dirac-Delta ist, , scheint die Aufgabe zu erfüllen [3]. Gleichung ergibt , und wenn der Prior in in der Koordinate einheitlich ist , sind wir die Maximum-Likelihood-Schätzung . Alternativ können wir eine Folge von Dienstprogrammfunktionen mit zunehmend kleinerer Unterstützung betrachten, z. B. wenn und anderer Stelle für [4].xGx(x0;x)=δ(x0x)(***)x^=argmaxxp(xD)(**)x(*)Gx(x0;x)=1|x0x|<ϵGx(x0;x)=0ϵ0

Ja, der Maximum-Likelihood-Schätzer und seine Invarianz können aus Bayes'scher Sicht sinnvoll sein, wenn wir mathematisch großzügig sind und verallgemeinerte Funktionen akzeptieren. Aber die Bedeutung, Rolle und Verwendung eines Schätzers in einer Bayes'schen Perspektive unterscheidet sich völlig von denen in einer frequentistischen Perspektive.

Lassen Sie mich auch hinzufügen, dass es in der Literatur Vorbehalte zu geben scheint, ob die oben definierte Nutzenfunktion mathematisch sinnvoll ist [5]. In jedem Fall ist der Nutzen einer solchen Nutzenfunktion eher begrenzt: Wie Jaynes [3] betont, bedeutet dies: "Wir kümmern uns nur um die Chance, genau richtig zu sein, und wenn wir falsch liegen, ist uns das egal." wie falsch wir sind ".

Betrachten Sie nun die Aussage "Maximum-Likelihood ist ein Sonderfall von Maximum-a-posteriori mit einem einheitlichen Prior". Es ist wichtig zu beachten, was bei einer allgemeinen Änderung der Koordinaten passiert. : 1. Die obige Dienstprogrammfunktion nimmt einen anderen Ausdruck an: ; 2. die vorherige Dichte in der Koordinate ist aufgrund der Jacobi-Determinante nicht einheitlich ; 3. Der Schätzer ist nicht das Maximum der posterioren Dichte in der Koordinate, da das Dirac-Delta einen zusätzlichen multiplikativen Faktor erhalten hat.y=f(x)
Gy(y0;y)=δ[f1(y0)f1(y)]δ(y0y)|f[f1(y0)]|
y
y
4. Der Schätzer ist immer noch durch das Maximum der Wahrscheinlichkeit in den neuen Koordinaten gegeben. Diese Änderungen werden kombiniert, sodass der Schätzpunkt auf dem Parameterverteiler immer noch der gleiche ist.y

Somit geht die obige Aussage implizit von einem speziellen Koordinatensystem aus. Eine vorläufige, explizitere Aussage könnte folgende sein: "Der Maximum-Likelihood-Schätzer ist numerisch gleich dem Bayes'schen Schätzer, der in einem Koordinatensystem eine Delta-Utility-Funktion und einen einheitlichen Prior hat."

Schlussbemerkungen
Die obige Diskussion ist informell, kann jedoch mithilfe der Maßtheorie und der Stieltjes-Integration präzisiert werden.

In der Bayes'schen Literatur finden wir auch einen informelleren Begriff des Schätzers: Es ist eine Zahl, die eine Wahrscheinlichkeitsverteilung irgendwie "zusammenfasst", insbesondere wenn es unpraktisch oder unmöglich ist, ihre volle Dichte anzugeben ; siehe zB Murphy [6] oder MacKay [7]. Dieser Begriff ist normalerweise von der Entscheidungstheorie losgelöst und kann daher koordinatenabhängig sein oder stillschweigend ein bestimmtes Koordinatensystem annehmen. In der entscheidungstheoretischen Definition des Schätzers kann jedoch etwas, das nicht invariant ist, kein Schätzer sein.p(xD)dx

[1] Zum Beispiel H. Raiffa, R. Schlaifer: Angewandte statistische Entscheidungstheorie (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analyse, Mannigfaltigkeiten und Physik. Teil I: Grundlagen (Elsevier 1996) oder ein anderes gutes Buch über Differentialgeometrie.
[3] ET Jaynes: Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesianische Theorie (Wiley 2000), §5.1.5.
[5] IH Jermyn: Invariante Bayes'sche Schätzung auf Mannigfaltigkeiten https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Maximum a posteriori Schätzer als Grenze der Bayes-Schätzer https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Maschinelles Lernen: Eine probabilistische Perspektive (MIT Press 2012), insbesondere Kap. 5.
[7] DJC MacKay: Algorithmen für Informationstheorie, Inferenz und Lernen (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

pglpm
quelle
1
Es gibt Möglichkeiten, invariante Bayes-Schätzer im obigen Sinne zu definieren, indem eine funktionale Verlustfunktion erzeugt wird, wie z. B. die Kullback-Leibler-Divergenz zwischen zwei Dichten. Ich habe diese Verluste in einem Papier von 1996 als intrinsische Verluste bezeichnet .
Xi'an
8

Aus nicht-bayesianischer Sicht gibt es keine Definition von Größen wie da dann ein fester Parameter ist und die Konditionierungsnotation dies tut macht keinen Sinn. Die Alternative, die Sie vorschlagen, basiert auf einer vorherigen Verteilung. Genau das möchte ein Ansatz wie der von Casella und Berger vorgeschlagene vermeiden. Sie können die Wahrscheinlichkeit des Keyword- Profils auf weitere Einträge überprüfen . (Und es gibt keine Bedeutung von oder dort.)θ

p(x|θ=ηθ=η)
θrightwrong
Xi'an
quelle
Wie widerspricht das, was ich sage? Mein Punkt war, dass es aus bayesianischer Sicht unsinnig ist . Das Problem, das ich mit der Lösung von Casella und Berger habe, ist, dass sie im Grunde genommen eine völlig neue Ad-hoc-Definition der Wahrscheinlichkeit entwickeln, so dass ihre gewünschte Schlussfolgerung gezogen wird. Wenn man die Wahrscheinlichkeit einheitlich definieren würde, nämlich die, die ich oben angegeben habe, wäre die Schlussfolgerung anders. Natürlich möchten Casella und Berger vielleicht vermeiden, Priors hinzuzuziehen, aber der einzige Weg, dies zu tun, besteht darin, eine Ad-hoc-Änderung der Definition der Wahrscheinlichkeit vorzunehmen.
user56834
3
Wenn Sie eine Bayes'sche Perspektive beibehalten möchten, ist die Frage umstritten, da die meisten nicht-Bayes'schen Ergebnisse keinen Sinn ergeben oder mit den Bayes'schen Prinzipien "übereinstimmen".
Xi'an