Das Bayes-Risiko verstehen

9

Bei der Bewertung eines Schätzers sind die beiden wahrscheinlich am häufigsten verwendeten Kriterien das maximale Risiko und das Bayes-Risiko. Meine Frage bezieht sich auf die letztere:

Das Bayes-Risiko unter dem vorherigen ist wie folgt definiert:π

Bπ(θ^)=R(θ,θ^)π(θ)dθ

Ich verstehe nicht ganz, was der vorherige π tut und wie ich ihn interpretieren soll. Wenn ich eine Risikofunktion R(θ,θ^) und sie zeichne, würde ich intuitiv ihre Fläche als Kriterium nehmen, um zu beurteilen, wie "stark" das Risiko über alle möglichen Werte von θ . Aber die Einbeziehung des Prior zerstört diese Intuition irgendwie wieder, obwohl sie nahe ist. Kann mir jemand helfen, wie man den Prior interpretiert?

Peter-Serie
quelle
1
Ich kann nicht erkennen, wie intuitiv das Zeichnen der Risikofunktion sein kann, wenn mehrere Parameter berücksichtigt werden: In dieser Einstellung überschneiden sich die Funktionen und identifizieren keinen "besten" Schätzer. Das Bayes-Risiko gibt für jeden Schätzer eine einzige Zahl zurück und ermöglicht daher eine Rangfolge aller Schätzer.
Xi'an

Antworten:

11

[Hier ist ein Auszug aus meinem eigenen Lehrbuch The Bayesian Choice (2007) , der für einen entscheidungstheoretischen Ansatz zur Bayes'schen Analyse und damit für die Verwendung des Bayes-Risikos spricht.]

Mit Ausnahme der trivialsten Einstellungen ist es im Allgemeinen unmöglich, die Verlustfunktion einheitlich zu minimieren (in ) wenn unbekannt ist. Um ein effektives Vergleichskriterium aus der Verlustfunktion abzuleiten, schlägt der frequentistische Ansatz vor, stattdessen den durchschnittlichen Verlust (oder das häufig auftretende Risiko ) zu berücksichtigen. wobei die Entscheidungsregel ist, dh die Zuordnung einer Entscheidung zu jedem ErgebnisdL(θ,d)θ

R(θ,δ)=Eθ[L(θ,δ(x))]=XL(θ,δ(x))f(x|θ)dx,
δ(x)xf(x|θ) aus dem zufälligen Experiment.

Die Funktion aus in wird normalerweise als Schätzer bezeichnet (während der Wert als Schätzung von ). Wenn keine Verwechslungsgefahr besteht, bezeichnen wir die Menge der Schätzer auch mit .δXDδ(x)θD

Das frequentistische Paradigma stützt sich auf dieses Kriterium, um Schätzer zu vergleichen und, wenn möglich, den besten Schätzer auszuwählen. Der Grund dafür ist, dass Schätzer hinsichtlich ihrer langfristigen Leistung für alle möglichen Werte des Parameters bewertet werden . Beachten Sie jedoch, dass mit diesem Ansatz mehrere Schwierigkeiten verbunden sind.θ

  1. Der Fehler (Verlust) wird über die verschiedenen Werte von proportional zur Dichte gemittelt . Daher scheint die Beobachtung nicht weiter berücksichtigt zu werden. Das Risikokriterium bewertet Verfahren hinsichtlich ihrer langfristigen Leistung und nicht direkt für die gegebene Beobachtung, . Eine solche Bewertung mag für die Statistikerin zufriedenstellend sein, ist aber für eine Klientin nicht so ansprechend, die optimale Ergebnisse für ihre Daten und nicht für die einer anderen wünscht !xf(x|θ)xxx
  2. Die frequentistische Analyse des Entscheidungsproblems geht implizit davon aus, dass dieses Problem immer wieder gelöst wird, damit die Frequenzbewertung sinnvoll ist. In der Tat ist ungefähr der durchschnittliche Verlust über iid-Wiederholungen desselben Experiments gemäß dem Gesetz der großen Zahlen. Sowohl aus philosophischen als auch aus praktischen Gründen gibt es jedoch viele Kontroversen über den Begriff der Wiederholbarkeit von Experimenten (siehe Jeffreys (1961)). Zum einen sollte die Statistikerin, wenn neue Beobachtungen eingehen, diese nutzen, und dies könnte die Art und Weise ändern, wie das Experiment durchgeführt wird, wie zum Beispiel in medizinischen Studien.R(θ,δ)
  3. Für eine Prozedur ist das Risiko eine Funktion des Parameters . Daher führt der frequentistische Ansatz nicht zu einer vollständigen Reihenfolge der Prozeduren. Es ist im Allgemeinen unmöglich, Entscheidungsverfahren mit diesem Kriterium zu vergleichen, da zwei Kreuzungsrisikofunktionen einen Vergleich zwischen den entsprechenden Schätzern verhindern. Bestenfalls kann man auf eine Prozedur , die einheitlich minimiert , aber solche Fälle treten selten auf, es sei denn, der Raum der Entscheidungsprozeduren ist eingeschränkt. Die besten Verfahren können nur erzielt werden, indem der Satz autorisierter Verfahren eher künstlich eingeschränkt wird.δR(θ,δ)θδ0R(θ,δ)

Beispiel 2.4 - Betrachten Sie und , zwei Beobachtungen aus Der interessierende Parameter ist (dh ) und wird von Schätzern unter dem Verlust geschätzt oft als Verlust bezeichnet , der Schätzfehler unabhängig von ihrer Größe um bestraft . In Anbetracht des bestimmten \ est seine Risikofunktion x1x2

Pθ(x=θ1)=Pθ(x=θ+1)=0.5,θR.
θD=Θδ
L(θ,δ)=1Iθ(δ),
01 1
δ0(x1,x2)=x1+x22,
R(θ,δ0)=1Pθ(δ0(x1,x2)=θ)=1Pθ(x1x2)=0.5.
Diese Berechnung zeigt, dass der Schätzer Hälfte der Zeit korrekt ist. Tatsächlich ist dieser Schätzer immer korrekt, wenn , und ansonsten immer falsch. Nun hat das \ est \ auch eine Risikofunktion von , ebenso wie . Daher können , und nicht unter den Verlust eingestuft werden. δ0x1x2δ1(x1,x2)=x1+10.5δ2(x1,x2)=x21δ0δ1δ201

Im Gegenteil, der Bayes'sche Ansatz zur Entscheidungstheorie integriert sich in den Raum da unbekannt ist, anstatt in den Raum wie bekannt ist. Es beruht auf dem posterioren erwarteten Verlust der den Fehler (dh den Verlust) gemäß dem mittelt posteriore Verteilung des Parameters , abhängig vom beobachteten Wert} . Bei ist der durchschnittliche Fehler, der sich aus der Entscheidung ergibt, tatsächlichΘθXx

ρ(π,d|x)=Eπ[L(θ,d)|x]=ΘL(θ,d)π(θ|x)dθ,
θxxdρ(π,d|x) . Der hintere erwartete Verlust ist somit eine Funktion von aber diese Abhängigkeit ist nicht störend, im Gegensatz zu der häufigen Abhängigkeit des Risikos vom Parameter, da im Gegensatz zu bekannt ist.xxθ
Xi'an
quelle
2
Sie sind also Christian Robert. Ich habe George Casella getroffen. Ich denke, Sie haben Bücher mit ihm veröffentlicht, die mir bekannt sind.
Michael R. Chernick
1
+1 Antworten werden nicht viel besser als das - tolles Buch übrigens
Xavier Bourret Sicotte
3

Zitat der klassischen statistischen Entscheidungstheorie von James O. Berger:

[...] Wir haben bereits angegeben, dass Entscheidungsregeln hinsichtlich ihrer Risikofunktionen bewertet werden . [...] Das Problem ist, wie bereits erwähnt, dass unterschiedliche zulässige Entscheidungsregeln Risiken bergen, die für unterschiedliche besser sind . Zur Rettung kommt das vorherige , das angeblich widerspiegelt, welche 's "wahrscheinlich" auftreten. Es erscheint sehr vernünftig, mit und dem Durchschnitt zu "gewichten" .R(θ,δ)θπ(θ)θR(θ,δ)π(θ)

Ja, Sie können für jedes auswerten , aber dann würden Sie implizit annehmen, dass jeder mögliche Wert von gleich wahrscheinlich ist. Im Bayes'schen Szenario wählen Sie das vorherige , das die Wahrscheinlichkeiten der Beobachtung verschiedener widerspiegelt , und enthalten solche Informationen.R(θ,δ)θθπ(θ)θ

Tim
quelle