Wie passt ein Schätzer, der eine gewichtete Summe aus quadratischer Verzerrung und Varianz minimiert, in die Entscheidungstheorie?

10

Okay - meine ursprüngliche Nachricht konnte keine Antwort auslösen. Lassen Sie mich die Frage anders stellen. Ich werde zunächst mein Verständnis der Schätzung aus einer entscheidungstheoretischen Perspektive erläutern. Ich habe keine formelle Ausbildung und es würde mich nicht überraschen, wenn mein Denken in irgendeiner Weise fehlerhaft ist.

Angenommen, wir haben eine Verlustfunktion . Der erwartete Verlust ist das (häufig auftretende) Risiko:L(θ,θ^(x))

R(θ,θ^(x))=L(θ,θ^(x))L(θ,θ^(x))dx,

wobei die Wahrscheinlichkeit ist; und das Bayes-Risiko ist das erwartete frequentistische Risiko:L(θ,θ^(x))

r(θ,θ^(x))=R(θ,θ^(x))π(θ)dxdθ,

wobei unser Prior ist.π(θ)

Im Allgemeinen finden wir das , das minimiert, und all dies funktioniert gut; Außerdem gilt der Satz von Fubini, und wir können die Reihenfolge der Integration umkehren, so dass jedes gegebene , das minimiert, unabhängig von allen anderen ist. Auf diese Weise wird das Wahrscheinlichkeitsprinzip nicht verletzt und wir können uns gut fühlen, wenn wir Bayesianer sind und so weiter.θ^(x)rθ^(x)r

Zum Beispiel ist unser häufiges Risiko angesichts des bekannten quadratischen Fehlerverlusts der mittlere quadratische Fehler oder die Summe der quadratischen Verzerrung und Varianz und des Bayes-Risikos ist die erwartete Summe der quadratischen Verzerrung und Varianz unter Berücksichtigung unseres vorherigen - dh des a posteriori erwarteten Verlusts.L(θ,θ^(x))=(θθ^(x))2,

Dies erscheint mir bisher sinnvoll (obwohl ich mich völlig irren könnte); Aber für einige andere Ziele sind die Dinge für mich auf jeden Fall weit weniger sinnvoll. Angenommen, anstatt die Summe aus gleichgewichteter quadratischer Verzerrung und Varianz zu minimieren, möchte ich eine ungleich gewichtete Summe minimieren - das heißt, ich möchte das , das minimiert:θ^(x)

(E[θ^(x)]θ)2+kE[(θ^(x)E[θ^(x)])2],

wobei eine positive reelle Konstante ist (außer 1).k

Ich bezeichne eine solche Summe normalerweise als "Zielfunktion", obwohl es sein kann, dass ich diesen Begriff falsch verwende. Bei meiner Frage geht es nicht darum, wie man eine Lösung findet - das Finden des , das diese Zielfunktion minimiert, ist numerisch machbar -, sondern meine Frage ist zweifach:θ^(x)

  1. Kann eine solche objektive Funktion in das Paradigma der Entscheidungstheorie passen? Wenn nicht, gibt es einen anderen Rahmen, in den es passt? Wenn ja, wie? Es scheint, als wäre die zugehörige Verlustfunktion eine Funktion von , und , die - aufgrund der Erwartung - ( Ich denke) nicht richtig.θθ^(x)E[θ^(x)]

  2. Eine solche objektive Funktion verstößt gegen das Wahrscheinlichkeitsprinzip, da jede gegebene Schätzung von allen anderen Schätzungen von abhängt (auch von hypothetischen). Es gibt jedoch Fälle, in denen der Handel mit einer Erhöhung der Fehlervarianz gegen eine Verringerung der Verzerrung wünschenswert ist. Gibt es angesichts eines solchen Ziels eine Möglichkeit, das Problem so zu konzipieren, dass es dem Wahrscheinlichkeitsprinzip entspricht?θ^(xj)θ^(xij)

Ich gehe davon aus, dass ich einige grundlegende Konzepte zur Entscheidungstheorie / Schätzung / Optimierung nicht verstanden habe. Vielen Dank im Voraus für alle Antworten und bitte nehmen Sie an, dass ich nichts weiß, da ich keine Ausbildung in diesem Bereich oder in der Mathematik im Allgemeinen habe. Darüber hinaus werden alle vorgeschlagenen Referenzen (für den naiven Leser) geschätzt.

user153935
quelle

Antworten:

2

Dies ist eine ziemlich interessante und neuartige Frage! Auf formaler Ebene unter Verwendung der frequentistischen Risikofunktion bedeutet die Verwendung (zum Beispiel) der Verlustfunktion, die als seit Es gibt keinen Grund, Erwartungen wie zu verbieten , in einer Verlustfunktion zu erscheinen. Dass sie von der gesamten Verteilung von abhängen , mag merkwürdig erscheinen, aber die gesamte Verteilung wird als Funktion von und der resultierende Verlust ist somit eine Funktion von

(Eθ[θ^(X)]θ)2+kEθ[(θ^(X)E[θ^(X)])2],
L(θ,θ^)=(Eθ[θ^(X)]θ)2+k(θ^Eθ[θ^(X)])2
Eθ[θ^(X)]θ^(X)θθ , und die Verteilung von .θ^θ^(X)

Ich kann einen Einwand perfekt vorhersagen, dass eine Verlustfunktion im Prinzip eine Funktion eines Naturzustands und einer Aktion , die beispielsweise im Parameterraum , daher ohne jegliche Verteilungsannahme. Was aus spieltheoretischer Sicht richtig ist. Da es sich jedoch um eine statistische Entscheidungstheorie handelt, bei der eine Entscheidung von der Beobachtung einer Zufallsvariablen abhängt , sehe ich keinen Grund, warum die Verallgemeinerung, bei der die Verlustfunktion von der Verteilung von abhängt , indiziert durchL(θ,δ)θδΘδxXXθkonnte nicht berücksichtigt werden. Dass es gegen das Wahrscheinlichkeitsprinzip verstoßen kann, ist für die Entscheidungstheorie nicht von direkter Bedeutung und verhindert nicht die formale Ableitung eines Bayes-Schätzers.

Xi'an
quelle