Ist die Invarianzeigenschaft des ML-Schätzers aus Bayes'scher Sicht unsinnig?

Casella und Berger geben die Invarianzeigenschaft des ML-Schätzers wie folgt an:

Es scheint mir jedoch, dass sie die "Wahrscheinlichkeit" von $\eta$ völlig ad hoc und unsinnig definieren:

Wenn ich Grundregeln der Wahrscheinlichkeitstheorie auf den einfachen Fall anwende, in dem , erhalte ich stattdessen Folgendes: $\eta=\tau(\theta)=\theta^2$ Wenden wir nun den Bayes-Satz an und dann die Tatsache, dassundsich gegenseitig ausschließen, so dass wir die Summenregel anwenden können:

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Wenden Sie nun den Bayes-Satz erneut auf die Terme im Zähler an:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Wenn wir dieses wrt auf maximieren wollen, um die maximale Wahrscheinlichkeitsschätzung von , müssen wir maximieren: $\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Schlägt Bayes wieder zu? Ist Casella & Berger falsch? Oder liege ich falsch?

self-study bayesian maximum-likelihood frequentist invariance user56834
quelle

Mögliches Duplikat der Invarianzeigenschaft des Maximum-Likelihood-Schätzers?

Sextus Empiricus

$\eta=\tau(\theta)=\theta^2$

Ich verstehe Ihre Frustration, Programmer2134 (& @MartijnWeterings). Bitte achten Sie jedoch auf Ihren Ton in Ihren Kommentaren. Produktive Gespräche sind nur dann möglich , wenn unsere wäre schön Politik folgt. Wenn Sie nicht an produktiven Gesprächen interessiert sind, müssen Sie diese Fragen an anderer Stelle veröffentlichen.

Gung - Reinstate Monica

@gung, du hast vollkommen recht. Und ich bedauere, mit diesem Ton reagiert zu haben. Ich werde von jetzt an damit aufhören. Das tut mir leid. In Bezug auf das Gespräch bin ich daran interessiert, produktive zu verfolgen, aber ich war der Meinung, dass die Reaktionen der Leute auf einige Fragen, die ich gestellt habe, größtenteils kontraproduktiv waren. Trotzdem werde ich das nächste Mal anders reagieren.

user56834

Vielen Dank. Es ist am besten anzunehmen, dass die Menschen in gutem Glauben reagieren. Es gibt (relativ wenige, IMHO) Gelegenheiten, in denen die Leute hier nicht sind, aber selbst dann können sie manchmal dazu gebracht werden, herumzukommen.

Gung - Reinstate Monica

Wie Xi'an sagt, ist die Frage umstritten, aber ich denke, dass viele Menschen dennoch dazu gebracht werden, die Maximum-Likelihood-Schätzung aus einer Bayes'schen Perspektive zu betrachten, weil in einigen Literaturstellen und im Internet eine Aussage erscheint: " Die Maximum-Likelihood Schätzung ist ein besonderer Fall der Bayes'schen Maximum-a-posteriori-Schätzung, wenn die vorherige Verteilung gleichmäßig ist ".

Ich würde sagen , dass aus einer Bayes - Perspektive des Maximum-Likelihood - Schätzer und seine Invarianz Eigenschaft können Sinn machen, aber die Rolle und Bedeutung von Schätzern in Bayes - Theorie ist sehr verschieden von frequentistischen Theorie. Und dieser spezielle Schätzer ist aus Bayes'scher Sicht normalerweise nicht sehr sinnvoll. Hier ist der Grund. Lassen Sie mich der Einfachheit halber einen eindimensionalen Parameter und Eins-Eins-Transformationen betrachten.

Zunächst zwei Bemerkungen:

$T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
$\mathrm{p}(x)\,\mathrm{d}x$
$x$

$\Delta x$ $\mathrm{p}(x)\,\Delta x$ $x$
$\mathrm{d}x$

$\mathrm{p}(x_1) > \mathrm{p}(x_2)$ $x_1$ $x_2$ $x$ $x_1$ $x_2$

$x$ $\tilde{x}$ $D$

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$

Dieser Schätzer wählt einen Punkt auf dem Parameterverteiler aus und hängt daher nicht von einem Koordinatensystem ab. Anders ausgedrückt: Jeder Punkt auf dem Parameterverteiler ist einer Zahl zugeordnet: der Wahrscheinlichkeit für die Daten ; Wir wählen den Punkt mit der höchsten zugeordneten Nummer. Diese Auswahl erfordert kein Koordinatensystem oder Basismaß. Aus diesem Grund ist dieser Schätzer parametrisierungsinvariant, und diese Eigenschaft sagt uns, dass es sich nicht um eine Wahrscheinlichkeit handelt - wie gewünscht. Diese Invarianz bleibt bestehen, wenn wir komplexere Parametertransformationen betrachten, und die von Xi'an erwähnte Profilwahrscheinlichkeit ist aus dieser Perspektive völlig sinnvoll. $D$

Lassen Sie uns die Bayes - Sicht sehen
Aus dieser Sicht ist es immer sinnvoll , zu sprechen von der Wahrscheinlichkeit für einen kontinuierlichen Parameter macht, wenn wir darüber, bedingt auf Daten und andere Beweise unsicher sind . Wir schreiben dies als Wie eingangs erwähnt, bezieht sich diese Wahrscheinlichkeit auf Intervalle auf dem Parameterverteiler, nicht auf einzelne Punkte. $D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

Idealerweise sollten wir unsere Unsicherheit melden, indem wir die vollständige Wahrscheinlichkeitsverteilung für den Parameter angeben. Daher ist der Begriff des Schätzers aus Bayes'scher Sicht zweitrangig. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

Dieser Begriff erscheint, wenn wir einen Punkt auf dem Parameterverteiler für einen bestimmten Zweck oder Grund auswählen müssen , obwohl der wahre Punkt unbekannt ist. Diese Wahl ist der Bereich der Entscheidungstheorie [1], und der gewählte Wert ist die richtige Definition von "Schätzer" in der Bayes'schen Theorie. Die Entscheidungstheorie besagt, dass wir zuerst eine Nutzenfunktion einführen müssen die uns sagt, wie viel wir gewinnen , wenn wir den Punkt auf dem Parameterverteiler wählen , wenn der wahre Punkt (alternativ, wir können pessimistisch von einer Verlustfunktion sprechen). Diese Funktion hat in jedem Koordinatensystem einen anderen Ausdruck, z. B. und $(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ ;; Wenn die Koordinatentransformation , werden die beiden Ausdrücke durch [2]. $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

Lassen Sie mich gleich betonen, dass wir, wenn wir beispielsweise von einer quadratischen Nutzfunktion sprechen, implizit ein bestimmtes Koordinatensystem gewählt haben, normalerweise ein natürliches für den Parameter. In einem anderen Koordinatensystem ist der Ausdruck für die Utility-Funktion im Allgemeinen nicht quadratisch, aber es ist immer noch dieselbe Utility-Funktion auf dem Parameterverteiler.

Der einer Dienstprogrammfunktion Schätzer ist der Punkt, der den erwarteten Nutzen angesichts unserer Daten maximiert . In einem Koordinatensystem ist seine Koordinate Diese Definition ist unabhängig von Koordinatenänderungen: In neuen Koordinaten die Koordinate des Schätzers . Dies folgt aus der Koordinatenunabhängigkeit von und des Integrals. $\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

Sie sehen, dass diese Art der Invarianz eine eingebaute Eigenschaft der Bayes'schen Schätzer ist.

Jetzt können wir fragen: Gibt es eine Nutzenfunktion, die zu einem Schätzer führt, der der Maximum-Likelihood entspricht? Da der Maximum-Likelihood-Schätzer unveränderlich ist, kann eine solche Funktion existieren. Unter diesem Gesichtspunkt wäre die maximale Wahrscheinlichkeit aus Bayes-Sicht unsinnig, wenn sie nicht unveränderlich wäre!

Eine Utility-Funktion, die in einem bestimmten Koordinatensystem gleich einem Dirac-Delta ist, , scheint die Aufgabe zu erfüllen [3]. Gleichung ergibt , und wenn der Prior in in der Koordinate einheitlich ist , sind wir die Maximum-Likelihood-Schätzung . Alternativ können wir eine Folge von Dienstprogrammfunktionen mit zunehmend kleinerer Unterstützung betrachten, z. B. wenn und anderer Stelle für [4]. $x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

Ja, der Maximum-Likelihood-Schätzer und seine Invarianz können aus Bayes'scher Sicht sinnvoll sein, wenn wir mathematisch großzügig sind und verallgemeinerte Funktionen akzeptieren. Aber die Bedeutung, Rolle und Verwendung eines Schätzers in einer Bayes'schen Perspektive unterscheidet sich völlig von denen in einer frequentistischen Perspektive.

Lassen Sie mich auch hinzufügen, dass es in der Literatur Vorbehalte zu geben scheint, ob die oben definierte Nutzenfunktion mathematisch sinnvoll ist [5]. In jedem Fall ist der Nutzen einer solchen Nutzenfunktion eher begrenzt: Wie Jaynes [3] betont, bedeutet dies: "Wir kümmern uns nur um die Chance, genau richtig zu sein, und wenn wir falsch liegen, ist uns das egal." wie falsch wir sind ".

Betrachten Sie nun die Aussage "Maximum-Likelihood ist ein Sonderfall von Maximum-a-posteriori mit einem einheitlichen Prior". Es ist wichtig zu beachten, was bei einer allgemeinen Änderung der Koordinaten passiert. : 1. Die obige Dienstprogrammfunktion nimmt einen anderen Ausdruck an: ; 2. die vorherige Dichte in der Koordinate ist aufgrund der Jacobi-Determinante nicht einheitlich ; 3. Der Schätzer ist nicht das Maximum der posterioren Dichte in der Koordinate, da das Dirac-Delta einen zusätzlichen multiplikativen Faktor erhalten hat. $y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
4. Der Schätzer ist immer noch durch das Maximum der Wahrscheinlichkeit in den neuen Koordinaten gegeben. Diese Änderungen werden kombiniert, sodass der Schätzpunkt auf dem Parameterverteiler immer noch der gleiche ist. $y$

Somit geht die obige Aussage implizit von einem speziellen Koordinatensystem aus. Eine vorläufige, explizitere Aussage könnte folgende sein: "Der Maximum-Likelihood-Schätzer ist numerisch gleich dem Bayes'schen Schätzer, der in einem Koordinatensystem eine Delta-Utility-Funktion und einen einheitlichen Prior hat."

Schlussbemerkungen
Die obige Diskussion ist informell, kann jedoch mithilfe der Maßtheorie und der Stieltjes-Integration präzisiert werden.

In der Bayes'schen Literatur finden wir auch einen informelleren Begriff des Schätzers: Es ist eine Zahl, die eine Wahrscheinlichkeitsverteilung irgendwie "zusammenfasst", insbesondere wenn es unpraktisch oder unmöglich ist, ihre volle Dichte anzugeben ; siehe zB Murphy [6] oder MacKay [7]. Dieser Begriff ist normalerweise von der Entscheidungstheorie losgelöst und kann daher koordinatenabhängig sein oder stillschweigend ein bestimmtes Koordinatensystem annehmen. In der entscheidungstheoretischen Definition des Schätzers kann jedoch etwas, das nicht invariant ist, kein Schätzer sein. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1] Zum Beispiel H. Raiffa, R. Schlaifer: Angewandte statistische Entscheidungstheorie (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analyse, Mannigfaltigkeiten und Physik. Teil I: Grundlagen (Elsevier 1996) oder ein anderes gutes Buch über Differentialgeometrie.
[3] ET Jaynes: Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesianische Theorie (Wiley 2000), §5.1.5.
[5] IH Jermyn: Invariante Bayes'sche Schätzung auf Mannigfaltigkeiten https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Maximum a posteriori Schätzer als Grenze der Bayes-Schätzer https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Maschinelles Lernen: Eine probabilistische Perspektive (MIT Press 2012), insbesondere Kap. 5.
[7] DJC MacKay: Algorithmen für Informationstheorie, Inferenz und Lernen (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

pglpm
quelle

Es gibt Möglichkeiten, invariante Bayes-Schätzer im obigen Sinne zu definieren, indem eine funktionale Verlustfunktion erzeugt wird, wie z. B. die Kullback-Leibler-Divergenz zwischen zwei Dichten. Ich habe diese Verluste in einem Papier von 1996 als intrinsische Verluste bezeichnet .

Xi'an

Ist die Invarianzeigenschaft des ML-Schätzers aus Bayes'scher Sicht unsinnig?

Antworten: