(Um zu sehen, warum ich das geschrieben habe, lesen Sie die Kommentare unter meiner Antwort auf diese Frage .)
Typ-III-Fehler und statistische Entscheidungstheorie
Die richtige Antwort auf die falsche Frage zu geben, wird manchmal als Typ-III-Fehler bezeichnet. Die statistische Entscheidungstheorie ist eine Formalisierung der Entscheidungsfindung unter Unsicherheit. Es bietet einen konzeptionellen Rahmen, mit dem Fehler vom Typ III vermieden werden können. Das Schlüsselelement des Frameworks heißt Verlustfunktion . Es werden zwei Argumente benötigt: Das erste ist (die relevante Teilmenge von) der wahre Zustand der Welt (z. B. bei Parameterschätzungsproblemen der wahre Parameterwert ); Die zweite ist ein Element in der Menge der möglichen Aktionen (z. B. bei Parameterschätzungsproblemen die Schätzung. Die Ausgabe modelliert den Verlust, der mit jeder möglichen Aktion in Bezug auf jeden möglichen wahren Zustand der Welt verbunden ist. Bei Parameterschätzungsproblemen sind zum Beispiel einige bekannte Verlustfunktionen:
- der absolute Fehlerverlust
- der quadratische Fehlerverlust
- Hal Varians LINEX-Verlust
Untersuchen Sie die Antwort, um die Frage zu finden
Es gibt einen Fall, bei dem man versuchen könnte, Fehler vom Typ III zu vermeiden, indem man sich auf die Formulierung einer korrekten Verlustfunktion konzentriert und den Rest des entscheidungs-theoretischen Ansatzes durchläuft (hier nicht näher erläutert). Das ist nicht meine Aufgabe - schließlich sind Statistiker mit vielen Techniken und Methoden gut ausgestattet, die gut funktionieren, auch wenn sie nicht von einem solchen Ansatz abgeleitet sind. Aber das Endergebnis scheint mir zu sein, dass die überwiegende Mehrheit der Statistiker die statistische Entscheidungstheorie nicht kennt und sich nicht darum kümmert, und ich denke, sie verpassen sie. Für diese Statistiker würde ich argumentieren, dass sie die statistische Entscheidungstheorie zur Vermeidung von Fehlern des Typs III als wertvoll erachten, weil sie einen Rahmen bietet, in dem sie nach einem vorgeschlagenen Datenanalyseverfahren fragen können:Mit welcher Verlustfunktion (falls vorhanden) wird das Verfahren optimal bewältigt? Das heißt, in welcher Entscheidungssituation liefert es genau die beste Antwort?
Hinterer erwarteter Verlust
Aus Bayes-Sicht ist die Verlustfunktion alles, was wir brauchen. Wir können so ziemlich den Rest der Entscheidungstheorie überspringen - fast per definitionem das Beste , was zu tun ist , Verlust zu minimieren posterior erwartet, das heißt, findet die Aktion , dass mindernd .~ L ( a ) = ∫ & THgr; L ( θ , a ) P ( θ | D ) d θ
(Und was nicht-Bayesianische Perspektiven betrifft? Nun, es ist ein Theorem der frequentistischen Entscheidungstheorie - insbesondere Walds vollständiges Klassensatz -, dass die optimale Maßnahme immer darin besteht, den Bayesianischen posterioren erwarteten Verlust in Bezug auf einige (möglicherweise unangemessene) zu minimieren. ) Die Schwierigkeit bei diesem Ergebnis besteht darin, dass es sich um einen Existenzsatz handelt, der keine Hinweise darauf gibt, welche vor der Verwendung verwendet werden sollen, aber er schränkt die Klasse von Prozeduren, die wir "umkehren" können, fruchtbar ein, um genau herauszufinden, welche Frage es ist, dass wir sind Insbesondere besteht der erste Schritt beim Invertieren eines nicht-Bayesianischen Verfahrens darin, herauszufinden, welches Bayesianische Verfahren (falls vorhanden) repliziert oder approximiert wird.)
Hey Cyan, du weißt, dass dies eine Q & A-Seite ist, oder?
Was mich schließlich zu einer statistischen Frage bringt. In der Bayes'schen Statistik sind bei der Bereitstellung von Intervallschätzungen für univariate Parameter zwei gängige glaubwürdige Intervallverfahren das quantilbasierte glaubwürdige Intervall und das glaubwürdige Intervall mit der höchsten hinteren Dichte. Welche Verlustfunktionen stecken hinter diesen Verfahren?
Antworten:
Bei der univariaten Intervallschätzung ist die Menge der möglichen Aktionen die Menge der geordneten Paare, die die Endpunkte des Intervalls angeben. Ein Element dieser Menge sei dargestellt durch .( a , b ) , a ≤ b
Höchste hintere Dichteintervalle
Die hintere Dichte sei . Die höchsten posterioren Dichteintervalle entsprechen der Verlustfunktion, die ein Intervall benachteiligt, das den wahren Wert nicht enthält, und auch Intervalle proportional zu ihrer Länge benachteiligt:f( θ )
,LHPD( θ , ( a , b ) ; k ) = I( θ ∉ [ a , b ] ) + k ( b - a ) , 0 < k ≤ m a xθf( θ )
wo ist die Indikatorfunktion . Dies ergibt den erwarteten posterioren Verlustich( ⋅ )
Das Setzen von ergibt die notwendige Bedingung für a lokales Optimum im Inneren des Parameterraums: - erwartungsgemäß genau die Regel für HPD-Intervalle.∂∂aL~HPD=∂∂bL~HPD=0 f(a)=f(b)=k
Die Form von gibt einen Einblick, warum HPD-Intervalle für eine monoton ansteigende Transformation des Parameters nicht invariant sind . Die -Raum HPD Intervall umgewandelt in Raum unterscheidet sich von der -Raum HPD Intervall , da die beiden Intervalle an verschiedenen Verlustfunktionen entsprechen: die -Raum HPD Intervall entspricht eine transformierte Längenstrafe .L~HPD((a,b);k) g(θ) θ g(θ) g(θ) g(θ) k(g(b)–g(a))
Quantilbasierte glaubwürdige Intervalle
Betrachten Sie die Punktschätzung mit der Verlustfunktion
Der hintere erwartete Verlust beträgt
Um also quantilbasierte Intervallschätzungen zu erhalten, ist die Verlustfunktion
quelle
Intervalle von minimaler Größe
Eine naheliegende Wahl einer Verlustfunktion für die Intervallauswahl (sowohl Bayesian als auch Frequentist) besteht darin, die Größe der Intervalle zu verwenden, die in Bezug auf die Randverteilungen gemessen wird. Beginnen Sie also mit der gewünschten Eigenschaft oder der Verlustfunktion und leiten Sie die optimalen Intervalle ab. Dies wird in der Regel nicht getan, wie dies anhand der vorliegenden Frage veranschaulicht wird, obwohl dies möglich ist. Für glaubwürdige Bayes'sche Mengen entspricht dies der Minimierung der vorherigen Wahrscheinlichkeit des Intervalls oder der Maximierung der relativen Annahme, wie z. B. in Evans (2016) dargelegt. Die Größe kann auch zur Auswahl von Frequentist Confidence Sets verwendet werden (Schafer 2009). Die beiden Ansätze hängen zusammen und lassen sich relativ einfach über Entscheidungsregeln umsetzen, die vorzugsweise Entscheidungen mit großer punktueller gegenseitiger Information beinhalten (Bartels 2017).
Bartels, C., 2017. Nutzung von Vorkenntnissen in frequentistischen Tests. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3
Evans, M., 2016. Messung statistischer Beweise unter Verwendung relativer Überzeugung. Computational and Structural Biotechnology Journal, 14, S. 91-96.
Schafer, CM und Stark, PB, 2009. Konstruieren von Vertrauensbereichen mit optimaler erwarteter Größe. Journal of the American Statistical Association, 104 (487), S. 1080-1089.
quelle