Was ist der Zusammenhang zwischen glaubwürdigen Regionen und Bayes'schen Hypothesentests?

38

In der Frequenzstatistik besteht ein enger Zusammenhang zwischen Konfidenzintervallen und Tests. Am Beispiel der Inferenz über in der N ( μ , σ 2 ) -Verteilung ist das 1 - α- Konfidenzintervall ˉ x ± t α / 2 ( n - 1 ) s / μN(μ,σ2)1α enthält alle Werte vonμ, die vomt-Test auf dem Signifikanzniveauαnicht verworfen werden.

x¯±tα/2(n1)s/n
μtα

Frequentistische Konfidenzintervalle sind in diesem Sinne invertierte Tests. (Dies bedeutet übrigens, dass wir den Wert als den kleinsten Wert von α interpretieren können, für den der Nullwert des Parameters in das 1 - α- Konfidenzintervall einbezogen werden würde . Ich finde, dass dies eine nützliche Möglichkeit ist, um zu erklären, was passiert p- Werte sind wirklich für Leute, die ein bisschen Statistik kennen.)pα1αp

Als ich über die entscheidungstheoretische Grundlage der Bayes'schen glaubwürdigen Regionen las , begann ich mich zu fragen, ob es einen ähnlichen Zusammenhang bzw. eine ähnliche Entsprechung zwischen glaubwürdigen Regionen und Bayes'schen Tests gibt.

  • Gibt es einen allgemeinen Zusammenhang?
  • Wenn es keine allgemeine Verbindung gibt, gibt es Beispiele, bei denen eine Verbindung besteht?
  • Wie können wir das sehen, wenn es keinen allgemeinen Zusammenhang gibt?
MånsT
quelle
Eine verwandte Frage, über die ich mich schon gewundert habe - könnte mich jemand auf ein Papier verweisen, das er als "Goldstandard" oder "kanonisches Beispiel" für Bayes'sche Hypothesentests ansieht, die an einem echten Problem und nicht an einem Spielzeugbeispiel angewendet werden? Ich habe das Testen von Bayes'schen Hypothesen nie wirklich verstanden und ich denke, ich würde ein gutes Beispiel für die Verwendung finden, das lehrreich ist.
Patrick Caldon
2
@PatrickCaldon Ich bezweifle, dass es ein "goldenes Papier" dafür gibt, da die Bayes'schen Hypothesentests in einem entscheidungstheoretischen Rahmen formuliert sind (daher ist es zu umfangreich, um in einem einzigen Papier festgehalten zu werden). Das in der Antwort von MånsT erwähnte Buch ist ein gutes Material. Auch die Bücher und Vorträge von Berger könnten von Interesse sein.
Ich glaube, das Papier ba.stat.cmu.edu/vol03is01.php kann den größten Teil unserer Diskussion hier verdeutlichen.
Carlos AB Pereira
Vielen Dank, @Carlos! Der Link scheint momentan nicht zu funktionieren, aber ich vermute, dass er zu Ihrer Arbeit von 2008 in Bayesian Analysis mit Stern und Wechsler führt. Ich fand das eine sehr interessante Lektüre!
MånsT
Lieber MånsT: Bayesian Analysis ist zu Project Euclid gewechselt. Der Artikel von Prof. Carlos ist hier: projecteuclid.org/…
Zen

Antworten:

19

Ich habe ein Beispiel gefunden, bei dem eine Verbindung besteht. Es scheint jedoch stark von meiner Wahl der Verlustfunktion und der Verwendung von zusammengesetzten Hypothesen abzuhängen.

Ich beginne mit einem allgemeinen Beispiel, dem dann ein einfacher Sonderfall mit der Normalverteilung folgt.

Allgemeines Beispiel

Für einen unbekannten Parameter sei Θ der Parameterraum und betrachte die Hypothese θ Θ 0 gegen die Alternative θ Θ 1 = Θ Θ 0 .θΘθΘ0θΘ1=ΘΘ0

Lassen eine Testfunktion sein, mit der Notation in Xi'an ‚s Die Bayes Wahl (die Art von rückwärts ist , was ich zumindest bin es gewohnt), so dass wir ablehnen Θ 0 , wenn φ = 0 und akzeptieren Θ 0 , wenn φ = 1 . Betrachten Sie die Verlustfunktion L ( θ , φ ) = { 0 , wenn  φ = I Θ 0 ( θ ) a 0 , wenn  θ ΘφΘ0φ=0Θ0φ=1 Der Bayes-Test ist dannφπ(x)=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

Nehmen Sie und eine 1 = 1 - α . Die Nullhypothese Θ 0 wird akzeptiert, wenn P ( θ Θ 0 | x ) 1 - α ist .a0=α0.5a1=1αΘ0P(θΘ0|x)1α

ΘcP(Θc|x)1αΘ0P(θΘ0|x)1αΘcP(Θ0Θc|x)>0

1αΘ0

Ein einfacher Sonderfall

Um besser zu veranschaulichen, welche Art von Test wir im obigen Beispiel haben, betrachten Sie den folgenden Sonderfall.

xN(θ,1)θN(0,1)Θ=RΘ0=(,0]Θ1=(0,)θ0

P(θ0|x)=Φ(x/2),
Φ()

z1αΦ(z1α)=1αΘ0x/2>z1α

x2zα.α=0.05Θ0x>2.33

θN(ν,1)Θ0x>2.33ν

Bemerkungen

Die obige Verlustfunktion, bei der wir denken, dass es schlimmer ist, die Nullhypothese falsch zu akzeptieren, als sie falsch abzulehnen, mag auf den ersten Blick wie eine leicht künstliche aussehen. Es kann jedoch in Situationen von erheblichem Nutzen sein, in denen "falsche Negative" kostspielig sein können, beispielsweise beim Screening auf gefährliche ansteckende Krankheiten oder Terroristen.

Θ01α1α

MånsT
quelle
2
+1 Ich würde den Glaubwürdigkeitsbereich anstelle des Glaubwürdigkeitsintervalls verwenden .
1
Vielen Dank @Procrastinator! Ich habe die Antwort bearbeitet und in der Zwischenzeit in "Region" geändert. Ich arbeite hauptsächlich mit HPD-Regionen von unimodalen Seitenzähnen, daher neige ich dazu, Konfidenzregionen als Intervalle zu betrachten. :)
MånsT
12

Michael und Fraijo schlugen vor, dass die einfache Überprüfung, ob der Parameterwert von interest in einer glaubwürdigen Region enthalten ist, das bayesianische Äquivalent der Umkehrung von Konfidenzintervallen ist. Ich war diesbezüglich zunächst etwas skeptisch, da mir nicht klar war, dass dieses Verfahren tatsächlich zu einem Bayes-Test (im üblichen Sinne) führte.

Wie sich herausstellt, ist dies zumindest dann der Fall, wenn Sie bereit sind, bestimmte Verlustfunktionen zu akzeptieren. Vielen Dank an Zen , der sich auf zwei Artikel bezog, die eine Verbindung zwischen HPD-Regionen und Hypothesentests herstellen:

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Θ0Θ1

π()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

T(x)P(θT(x)|x)

Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

φ1Θ00Θ0

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

Θ0P(θT(x)|x)<(b+c)/(a+c).

θ0

x

Weitere Informationen zu diesem Thema finden Sie in einer Liste von Veröffentlichungen, in denen Madruga et al. Artikel .


Update Oktober 2012:

x

qα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x))Θ0x

Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

φ=iΘi01

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

Dies scheint mir eine ziemlich vernünftige Verlustfunktion zu sein. Ich diskutiere diesen Verlust, den Madruga-Esteves-Wechsler-Verlust und das Testen mit glaubwürdigen Sätzen weiter unten im Manuskript zu arXiv.

U / min MånsT
quelle
2
(Ich markiere dies als Community-Wiki)
MånsT
L:{ParameterSpace}×{Actions}R
@Zen: Ja, natürlich habe ich das falsch formuliert. Vielen Dank für den Hinweis. :)
MånsT
3
@ MånsT: (+1) Dies ist eine interessante Antwort. Ich respektiere sehr die Tatsache, dass Sie dies in diesem Fall als CW markiert haben, aber ich wünschte, Sie hätten es nicht. :-)
Kardinal
8

Ich habe zufällig Ihr arXiv-Papier gelesen , bevor ich auf diese Frage gekommen bin , und habe bereits einen Blogeintrag darüber geschrieben ( voraussichtlich am 08. Oktober ). Zusammenfassend finde ich Ihre Konstruktion von theoretischem Interesse, denke aber auch, dass sie zu erfunden ist, um empfohlen zu werden. da es die Punkt-Null-Hypothese nicht zu lösen scheint Bayes'sches Testproblem, das traditionell erfordert, eine vorherige Masse auf den Punkt-Null-Parameterwert zu setzen.

φH0:θθ0H0:θ=θ0

H0Θ0={θ0}

Xi'an
quelle
1
1α/2α/2φ=0α/2<min(P(Θ1),P(Θ1))θ0liegt im glaubwürdigen Intervall. Ich werde dies so schnell wie möglich im arXiv-Manuskript ändern!
MånsT
Du hast recht (+1!), Ich habe die Ungleichung anders gedacht! Im arXiv-Dokument ist die zentrale Ungleichung falsch geschrieben. dh man sollte akzeptierenH0
Θ0
1
H0P(θΘi|x)>α/2
3

Sie können ein glaubwürdiges Intervall (oder einen HPD-Bereich) für das Testen der Bayes'schen Hypothese verwenden. Ich denke nicht, dass es üblich ist; Um fair zu sein, sehe ich weder viel, noch verwende ich formale Bayesianische Hypothesentests in der Praxis. Bayes-Faktoren werden gelegentlich verwendet (und in Roberts "Bayesian Core" etwas gelobt), um Hypothesentests aufzustellen.

Fraijo
quelle
1
Prost @Fraijo! Könnten Sie vielleicht etwas näher darauf eingehen, wie sich Ihre Antwort von der von Michael Chernick unterscheidet?
MånsT
2
Ich denke nicht, dass die Verwendung von Bayes-Faktoren zum Testen der Hypothese "gelegentlich" ist, siehe zum Beispiel diese Referenz .
@ MånsT In seinem Follow-up scheint der Prozess, den Michael beschreibt, ein Bayes-Faktor-Test zu sein. Im Wesentlichen erstellen Sie zwei Modelle mit unterschiedlichen Prioritäten basierend auf Ihrer Hypothese und vergleichen dann die Wahrscheinlichkeit des Datensatzes basierend auf diesen Prioritäten. Die Referenz Procrasinator geschrieben gibt einen schnellen Überblick darüber.
Fraijo
1
@Procrastinator Ich sagte gelegentlich nur, weil ich in meiner Branche nur wenige Leute sehe, die Bayes'sche Methoden anwenden, geschweige denn Bayes'sche Methoden zum Testen der Hypothese. Persönlich benutze ich Bayes-Faktoren, um meine Modelle auf ihre Sensitivität gegenüber dem Vorgänger zu überprüfen, was vermutlich eine Form des Hypothesentests ist.
Fraijo
1
@ MånsT kurze Antwort: nein. Ein glaubwürdiges Intervall einzurichten und herauszufinden, ob es die Nullhypothese enthält, ist der einzige direkte Test, der mit dem Testen von Frequentist-Hypothesen vergleichbar ist. Bei dieser Methode gibt es zwei Probleme: 1) Die offensichtliche Tatsache, dass Sie in einigen Fällen mehrere Regionen finden können (z. B. eine HPD gegenüber einer symmetrischen Region) und 2) das Testen einer Punkthypothese (Theta = a) widerspricht dem Bayes'schen Parameterideal Verteilungen nehmen (Theta ~ P (Theta)).
Fraijo
1

Eine glaubwürdige Region ist nur eine Region, in der das Integral der hinteren Dichte über der Region eine festgelegte Wahrscheinlichkeit ist, z. B. 0,95. Eine Möglichkeit, einen Bayes'schen Hypothesentest zu bilden, besteht darin, zu ermitteln, ob die hypothetischen Nullwerte der Parameter in den glaubwürdigen Bereich fallen. Auf diese Weise können wir eine ähnliche 1: 1-Entsprechung zwischen Hypothesentests und glaubwürdigen Regionen erhalten, wie es die Frequentisten mit Konfidenzintervallen und Hypothesentests tun. Dies ist jedoch nicht die einzige Möglichkeit, Hypothesentests durchzuführen.

Michael Chernick
quelle
Werden solche Ad-hoc-Bayes-Tests in der Praxis häufig angewendet?
MånsT
1
@MansT Das glaube ich nicht. Ich denke, dass die Bayesianer normalerweise die Nullhypothese als wahr voraussetzen und dann auf der Datenkonstruktion der hinteren Quoten basieren. Wenn die hinteren Chancen gegen die Nullhypothese hartnäckig sind, wird sie abgelehnt. Ich bin jedoch nicht der beste Fragesteller, da ich nicht sehr oft bayesianische Schlussfolgerungen mache.
Michael Chernick
2
Der von Michael beschriebene Test wird Lindley von Zellner in seinem Buch über Bayesianische Ökonometrie gutgeschrieben.
Zen
1
Ja, diese Art von Tests entspringen sicherlich bayesianischen Ideen , aber ich bin mir nicht sicher, ob sie eine solide Grundlage in der Bayesianischen Entscheidungstheorie haben . In der letzteren Einstellung würde ich erwarten, dass Tests von einer Verlustfunktion abgeleitet werden, die typischerweise eine Testfunktion beinhaltet.
MånsT
2
Sehr geehrte Damen und Herren, werfen Sie einen Blick auf diese Papiere: mdpi.org/entropy/papers/e1040099.pdf w.ime.usp.br/~jstern/miscellanea/citacoes/swtest1.pdf
Zen
-1

Lassen Sie mich sagen, wie ich Tims Antwort gelesen habe .

Es basiert auf den Tabellenansichten mit Hypothese (geschätzter Parameter) in Spalten und Beobachtungen in den Zeilen.

Bildbeschreibung hier eingeben

In der ersten Tabelle haben Sie die Spaltenwahrscheinlichkeiten summiert mit 1, dh es handelt sich um bedingte Wahrscheinlichkeiten, deren Bedingung, die in das Spaltenereignis einfließt, in der unteren Zeile mit dem Namen 'prior' angegeben wird. In der letzten Tabelle summieren sich die Zeilen ähnlich zu 1, und in der Mitte haben Sie gemeinsame Wahrscheinlichkeiten, dh bedingte Wahrscheinlichkeiten, die Sie in der ersten und letzten Tabelle finden, multiplizieren die Wahrscheinlichkeit der Bedingung mit den Prioritäten.

Die Tabellen führen im Grunde genommen die Bayes'sche Transformation durch: In der ersten Tabelle geben Sie die Beobachtungen (Zeilen) in jeder Spalte als PDF an, setzen den Prioritätswert für diese Hypothese (ja, die Hypothesenspalte ist ein PDF mit Beobachtungen unter dieser Hypothese), und Sie tun dies Für jede Spalte und Tabelle wird sie zuerst in die Tabelle der gemeinsamen Wahrscheinlichkeiten und dann in die Wahrscheinlichkeiten Ihrer Hypothese aufgenommen, die durch Beobachtungen bedingt sind.

Wie aus Tims Antwort hervorgeht (korrigieren Sie mich, wenn ich mich irre), betrachtet der Ansatz "Kritisches Intervall" die erste Tabelle. Das heißt, sobald das Experiment abgeschlossen ist, kennen wir die Tabellenzeile (in meinem Beispiel entweder Kopf oder Zahl, aber Sie können komplexere Experimente durchführen, z. B. 100 Münzwürfe, und eine Tabelle mit 2 ^ 100 Zeilen erstellen). Der Frequentialist durchsucht seine Spalten, die, wie gesagt, eine Verteilung möglicher Ergebnisse unter der Bedingung darstellen, dass die Hypothese wahr ist (z. B. ist die Münze in meinem Beispiel fair), und lehnt die Hypothese (Spalten) ab, die einen sehr niedrigen Wahrscheinlichkeitswert von hat die beobachtete Reihe.

Der Bayesianer stellt zuerst die Wahrscheinlichkeiten ein, wandelt Spalten in Zeilen um und sucht in Tabelle 3 die Zeile des beobachteten Ergebnisses. Da es sich auch um ein PDF handelt, geht er die Zeile mit den Testergebnissen durch und wählt die Hypethese mit den höchsten Wahrscheinlichkeiten aus, bis seine 95% ige Glaubwürdigkeitstasche voll ist. Der Rest der Hypothese wird abgelehnt.

Wie gefällt es Ihnen? Ich bin noch dabei zu lernen und Grafik scheint mir hilfreich zu sein. Ich glaube, dass ich auf dem richtigen Weg bin, da ein seriöser Benutzer das gleiche Bild liefert, wenn er den Unterschied zwischen zwei Ansätzen analysiert . Ich habe eine grafische Darstellung der Auswahlmechanismen für Hypothesen vorgeschlagen.

Ich ermutige jeden, die letzte Antwort von Keith zu lesen, aber mein Bild der Hypothesentestmechanik kann sofort sagen, dass der Frequentist die andere Hypothese nicht betrachtet, wenn er die aktuelle überprüft, während die Berücksichtigung einer Hypothese mit hoher Glaubwürdigkeit die Rezeption / Ablehnung anderer Hypothesen in Bayes stark beeinflusst Analyse, da Sie, wenn Sie eine einzelne Hypothese haben, die 95% der Fälle unter beobachteten Daten auftritt, alle anderen Hypothesen sofort auslösen, unabhängig davon, wie gut die Daten in sie passen. Lassen Sie uns die statistische Potenzanalyse beiseite legen, bei der sich zwei Hypothesen aufgrund ihrer Konfidenzintervalle überlappen.

Aber ich scheine die Ähnlichkeit zwischen zwei Ansätzen entdeckt zu haben: Sie scheinen durch P(A | B) > P(A) <=> P(B|A) > P(B)Eigentum verbunden zu sein . Wenn es eine Abhängigkeit zwischen A und B gibt, wird sie im Grunde genommen als Korrelation sowohl in der Freq- als auch in der Bayes'schen Tabelle angezeigt. Wenn also ein Hypothesentest mit dem anderen korreliert, müssen sie sorta die gleichen Ergebnisse liefern. Wenn Sie die Wurzeln der Korrelation studieren, erhalten Sie wahrscheinlich die Verbindung zwischen den beiden. In meiner Frage dort frage ich eigentlich, warum der Unterschied statt der absoluten Korrelation ist?

Kleiner Alien
quelle