Sind Konfidenzintervalle nützlich?

11

In der Frequentist-Statistik ist ein 95% -Konfidenzintervall ein Intervall erzeugendes Verfahren, das, wenn es unendlich oft wiederholt wird, in 95% der Fälle den wahren Parameter enthält. Warum ist das nützlich?

Konfidenzintervalle werden oft missverstanden. Sie sind kein Intervall, in dem wir zu 95% sicher sein können, dass sich der Parameter befindet (es sei denn, Sie verwenden das ähnliche Bayes'sche Glaubwürdigkeitsintervall). Konfidenzintervalle fühlen sich für mich wie ein Köder an.

Der einzige Anwendungsfall, den ich mir vorstellen kann, besteht darin, den Wertebereich anzugeben, für den wir die Nullhypothese, dass der Parameter dieser Wert ist, nicht ablehnen konnten. Würden p-Werte diese Informationen nicht liefern, aber besser? Ohne so irreführend zu sein?

Kurzum: Warum brauchen wir Konfidenzintervalle? Wie sind sie bei richtiger Interpretation nützlich?

lilaostrich
quelle
Das Bayes'sche Glaubwürdigkeitsintervall ist weder ein Intervall, in dem wir zu 95% sicher sein können, dass sich der Parameter befindet.
Sextus Empiricus
@MartijnWeterings: es sei denn, Sie sind sich zu 100% Ihrer vorherigen sicher.
Xi'an
@ Xi'an, das funktioniert, wenn ein Parameter 100% als Zufallsvariable angesehen wird und ein Experiment einer Stichprobe aus einer gemeinsamen Häufigkeitsverteilung P ( θ , x ) gleicht , dh Sie verwenden die Bayes-Regel als: P ( θ | x ) = P ( θ , x ) / P ( x ) ohne expliziten "Prior". Dies gilt nicht für einen Parameter, der als fest angesehen wird. Dann würden die posterioren Überzeugungen erfordern, dass Sie auch die alte gemeinsame Häufigkeitsverteilung von X und θ 'aktualisieren'θP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ. Es ist ein bisschen absurd zu behaupten, "frühere Überzeugungen" zu aktualisieren, die zu 100% sicher waren.
Sextus Empiricus

Antworten:

10

Solange das Konfidenzintervall als zufällig behandelt wird (dh aus der Perspektive betrachtet wird, die Daten als eine Menge von Zufallsvariablen zu behandeln, die wir noch nicht gesehen haben), können wir tatsächlich nützliche Wahrscheinlichkeitsaussagen darüber machen. Angenommen, Sie haben ein Konfidenzintervall auf Ebene 1- -α für den Parameter θ und das Intervall hat Grenzen L.(x)U.(x) . Dann können wir das sagen:

P.(L.(X.)θU.(X.)|θ)=1- -αfür alle θΘ.

Wenn Sie sich außerhalb des frequentistischen Paradigmas bewegen und für eine vorherige Verteilung über θ marginalisieren, erhalten Sie das entsprechende (schwächere) marginale Wahrscheinlichkeitsergebnis:

P(L(X.)θU.(X.))=1- -α.

Sobald wir die Grenzen des Konfidenzintervalls festgelegt haben, indem wir die Daten auf X.=x , appellieren wir nicht mehr an diese Wahrscheinlichkeitsangabe, da wir die Daten jetzt festgelegt haben. Doch wenn das Konfidenzintervall als Zufallsintervall behandelt wird , dann können wir in der Tat diese Wahrscheinlichkeitsaussage machen --- dh mit Wahrscheinlichkeit 1- -α der Parameter θ innerhalb des (random) Intervall fallen.

In der frequentistischen Statistik sind Wahrscheinlichkeitsaussagen Aussagen über relative Häufigkeiten in unendlich wiederholten Versuchen. Dies gilt jedoch für jede Wahrscheinlichkeitsaussage im frequentistischen Paradigma. Wenn Sie also Einwände gegen relative Häufigkeitsaussagen erheben, handelt es sich nicht um einen Einwand, der für Konfidenzintervalle spezifisch ist. Wenn wir uns außerhalb des frequentistischen Paradigmas bewegen, können wir zu Recht sagen, dass ein Konfidenzintervall seinen Zielparameter mit der gewünschten Wahrscheinlichkeit enthält, solange wir diese Wahrscheinlichkeitsangabe nur geringfügig (dh nicht von den Daten abhängig) treffen und somit das Konfidenzintervall behandeln in seinem zufälligen Sinne.

Ich weiß nichts über andere, aber das scheint mir ein ziemlich starkes Wahrscheinlichkeitsergebnis und eine vernünftige Rechtfertigung für diese Form des Intervalls zu sein. Ich bin selbst eher an Bayes'schen Methoden interessiert, aber die Wahrscheinlichkeitsergebnisse, die Konfidenzintervalle (in ihrem zufälligen Sinne) unterstützen, sind starke Ergebnisse, an denen man nicht riechen darf.

Stellen Sie Monica wieder her
quelle
1
"Sich außerhalb des frequentistischen Paradigmas bewegen" ist das nicht genau das Problem? Im Allgemeinen möchten wir ein Intervall, das mit einiger Wahrscheinlichkeit den wahren Wert eines interessierenden Parameters enthält. Keine frequentistische Analyse kann uns das geben, und eine implizite Neuinterpretation als Bayes'sche Analyse führt zu Missverständnissen. Beantworten Sie die Frage besser direkt über ein Bayes'sches glaubwürdiges Intervall. Es gibt Verwendungszwecke für Konfidenzintervalle, in denen Sie wiederholt "Experimente" durchführen, z. B. Qualitätskontrolle.
Dikran Beuteltier
Es geht nicht darum, implizit als Bayesianisch neu zu interpretieren (letzteres würde von den Daten abhängig machen, um einen Posterior zu erhalten). Die Antwort zeigt lediglich dem OP, dass wir nützliche Wahrscheinlichkeitsaussagen über das Konfidenzintervall machen können. Was allgemeinere Einwände gegen das frequentistische Paradigma betrifft, so sind diese gut und gut, aber sie sind keine Einwände, die für Konfidenzintervalle spezifisch sind.
Stellen Sie Monica am
1
Wie Sie aus den oben genannten Wahrscheinlichkeitsaussagen sehen können, wir können garantieren , dass die CI die Parameter mit einiger Wahrscheinlichkeit enthält, so lange , wie wir in dieser aussehen a priori .
Stellen Sie Monica am
1
Wenn Sie sich aus dem frequentistischen Paradigma herausbewegt haben, aber nicht zu einem Bayes'schen Rahmen übergehen, welcher Rahmen ist das? Ich habe keinen Einwand gegen Frequentismus geäußert. Ich glaube, Sie sollten den Rahmen verwenden, der die Frage, die Sie tatsächlich stellen möchten, am direktesten beantwortet. Vertrauen und glaubwürdige Intervalle beantworten unterschiedliche Fragen.
Dikran Marsupial
1
@ Dikran: Die Wahrscheinlichkeitsaussage steht wie geschrieben und ist eine rein mathematische Aussage. Ich sehe wirklich nicht ein, wie Sie dem vernünftigerweise widersprechen können.
Stellen Sie Monica
5

Ich stimme @Ben oben zu und dachte, ich würde ein einfaches Beispiel dafür liefern, wo ein Bayes'sches gegenüber einem Frequentist-Intervall unter den gleichen Umständen von Wert wäre.

Stellen Sie sich eine Fabrik mit parallelen Montagelinien vor. Es ist teuer, eine Linie anzuhalten, und gleichzeitig wollen sie Qualitätsprodukte produzieren. Sie sind besorgt über sowohl falsch positive als auch falsch negative Ergebnisse im Laufe der Zeit. Für die Fabrik ist es ein Mittelungsprozess: Sowohl die Leistung als auch der garantierte Schutz vor falsch positiven Ergebnissen sind wichtig. Konfidenzintervalle sowie Toleranzintervalle sind für das Werk von Bedeutung. Dennoch werden Maschinen der Ausrichtung gehen, das heißt θΘ und Detektionszahnrad unechte Ereignisse beobachten wird. Das durchschnittliche Ergebnis ist wichtig, während das spezifische Ergebnis ein operatives Detail ist.

Auf der anderen Seite steht ein einzelner Kunde, der ein einzelnes Produkt oder eine einzelne Menge von Produkten kauft. Sie kümmern sich nicht um die Wiederholungseigenschaften der Montagelinie. Sie kümmern sich um das eine Produkt, das sie gekauft haben. Stellen wir uns vor, der Kunde ist die NASA und benötigt das Produkt, um eine Spezifikation zu erfüllen, z. B. γΓ. Sie kümmern sich nicht um die Qualität der Teile, die sie nicht gekauft haben. Sie brauchen ein Bayes'sches Intervall in irgendeiner Form. Darüber hinaus könnte ein einziger Fehler viele Astronauten töten und Milliarden von Dollar kosten. Sie müssen wissen, dass jedes gekaufte Teil den Spezifikationen entspricht. Mittelwertbildung wäre tödlich. Für eine Saturn V-Rakete hätte eine Fehlerrate von einem Prozent 10.000 fehlerhafte Teile während der Apollo-Flüge impliziert. Sie erforderten 0% Fehler bei allen Missionen.

Sie sorgen sich um ein Konfidenzintervall, wenn Sie wie in einer Fabrik im Probenraum arbeiten. Es wird der Probenraum erstellt. Sie sorgen sich um glaubwürdige Intervalle, wenn Sie im Parameterraum arbeiten, wie es ein Kunde tun würde. Wenn Sie sich nicht für die Beobachtungen außerhalb Ihrer interessieren, dann sind Sie Bayesianer. Wenn Sie sich für die Proben interessieren, die nicht gesehen wurden, aber gesehen werden könnten, dann sind Sie ein Frequentist.

Sind Sie mit der langfristigen Mittelwertbildung oder dem spezifischen Ereignis befasst?

Dave Harris
quelle
Kauft die NASA tatsächlich Teile basierend auf Bayes'schen Intervallen? Ich verstehe Ihren Standpunkt, aber tun sie es tatsächlich ?
Aksakal
@ Aksakal weiß ich nicht. Juran hat natürlich eine wunderbare Arbeit zur Qualitätssicherung bei der NASA geschrieben, aber ich kann mich überhaupt nicht erinnern, ob der Testprozess diskutiert wurde, da es mehr als ein Jahrzehnt her ist, seit ich ihn gelesen habe. Ich weiß, dass W Edwards Deming Konfidenzintervalle zugunsten glaubwürdiger Intervalle ablehnte, aber auch das betrifft nicht direkt. Ich vermute, und ich kenne Leute, die es wissen würden, aber es ist im Moment unpraktisch zu fragen, dass sie häufig Methoden anwenden, weil die meisten Leute darin geschult sind. Sie benutzen den Hammer, den Sie haben.
Dave Harris
Ist es der Fall von "einem Hammer"? Vielleicht hat es etwas damit zu tun, wie die Dinge in der Technik sind?
Aksakal
@Aksakal Ich bin nicht qualifiziert, dies zu sagen.
Dave Harris
nαH.0::γ>ΓxynαxγΓ
4

Es ist zu beachten, dass durch die strikte Definition des Konfidenzintervalls es möglich ist , dass sie völlig bedeutungslos sind, dh nicht über den interessierenden Parameter informativ sind. In der Praxis sind sie jedoch im Allgemeinen sehr aussagekräftig.

[0,1]]U.michnU.meinxU.michn,U.meinxU.michn<U.meinx Wahrscheinlichkeit mindestens 95% der Zeit beträgt, also technisch ein gültiges Konfidenzintervall für jede Wahrscheinlichkeit ist. Wenn ich jedoch sagte, dass das durch dieses Verfahren erzeugte Intervall betrug[0,01,0,011]]pp

Andererseits sind die meisten Konfidenzintervalle nützlicher aufgebaut. Wenn ich Ihnen zum Beispiel sagte, dass es mit einem Wald-Intervall-Verfahren erstellt wurde, wissen wir das

p^ ˙ N.(p,se)

sep^p

Cliff AB
quelle
2

Konfidenzintervalle sind nicht nur nützlich, sondern in einigen Bereichen wie der Physik von wesentlicher Bedeutung. Leider kommt der größte Lärm in Bezug auf CIs von Bayesianern, die in falsche Debatten mit Frequentisten verwickelt sind, normalerweise im Kontext sozialer "Wissenschaften" und anderer wissenschaftsähnlicher Disziplinen.

Angenommen, ich messe eine Größe in der Physik, z. B. die Stromladung. Ich würde es immer mit dem Maß für die Unsicherheit des Wertes liefern, was normalerweise eine Standardabweichung ist. Da in der Physik Fehler häufig Gauß'sch sind, wird dies direkt in CI übersetzt. Wenn die Fehler jedoch nicht Gaußsch sind, wird es etwas kompliziert, einige Integrale müssen ausgewertet werden usw. Normalerweise ist es jedoch nicht zu esoterisch.

Hier ist eine kurze Präsentation über das CI in der Teilchenphysik und die Definition:

quantitative Aussage über den Bruchteil der Zeiten, in denen ein solches Intervall in einer großen Anzahl wiederholter Experimente den wahren Wert des Parameters enthalten würde

Beachten Sie, dass in der Physik "wiederholte Experimente" oft eine wörtliche Bedeutung haben: Es wird angenommen, dass Sie Experimente in der Arbeit tatsächlich wiederholen können und tatsächlich beobachten würden diesen Bruch . Das CI hat für Sie also fast eine wörtliche Bedeutung und ist nur eine Möglichkeit, die Informationen über die Unsicherheit der Messung auszudrücken. Es ist kein Gedankenexperiment, keine subjektive Meinung, nicht Ihre oder meine Gefühle zu Wahrscheinlichkeiten usw. Es ist das, was Sie aus Experimenten entwickeln konnten und was ich bei der Reproduktion Ihres Experiments beobachten sollte.

Aksakal
quelle
1

Dieser Thread hat sich schnell in die Debatte zwischen Frequentist und Bayes entwickelt, und das ist nicht leicht zu lösen. Die Mathematik in beiden Ansätzen ist solide, daher kommt es immer auf philosophische Vorlieben an. Die häufigere Interpretation der Wahrscheinlichkeit als Grenze der relativen Häufigkeit eines Ereignisses wird durch das starke Gesetz der großen Zahlen gerechtfertigt. Unabhängig von Ihrer bevorzugten Interpretation der Wahrscheinlichkeit konvergiert die relative Häufigkeit eines Ereignisses mit Wahrscheinlichkeit 1 gegen seine Wahrscheinlichkeit.

Frequentistische Konfidenzintervalle sind in der Tat schwieriger zu interpretieren als Bayes'sche glaubwürdige Intervalle. Indem Bayesianer eine unbekannte Größe als Zufallsvariable behandeln, können sie behaupten, dass ein Intervall diese Größe mit einiger Wahrscheinlichkeit enthält. Frequentisten lehnen es ab, einige Größen als Zufallsvariablen zu behandeln, und Gleichungen, die nur Konstanten enthalten, können nur wahr oder falsch sein. Wenn also eine unbekannte Konstante geschätzt wird, müssen Frequentisten sie an ein RANDOM-Intervall binden, um überhaupt eine Wahrscheinlichkeit zu berücksichtigen. Anstelle eines Intervalls, das mit einiger Wahrscheinlichkeit eine Zufallsvariable enthält, generiert eine frequentistische Methode viele verschiedene mögliche Intervalle, von denen einige die unbekannte Konstante enthalten. Wenn die Abdeckungswahrscheinlichkeit angemessen hoch ist, ist es ein vernünftiger Vertrauenssprung, zu behaupten, dass ein bestimmtes Intervall die unbekannte Konstante enthält (Anmerkung, nicht "

Ein Bayesianer würde sich einem solchen Glaubenssprung ebenso widersetzen wie ein Frequentist, wenn er eine unbekannte Größe als Zufallsvariable behandelt. Die häufig vorkommende Neyman-Bauweise enthüllte tatsächlich ein peinliches Problem mit solchen Glaubenssprüngen. Ohne dies aktiv zu verhindern (siehe Feldman und Cousins, 1997 für einen Ansatz), können seltene Ergebnisse leere Konfidenzintervalle für einen Verteilungsparameter erzeugen. Ein solcher Glaubenssprung wäre sehr unvernünftig! Ich habe einige Bayesianer gesehen, die dieses Beispiel verwendeten, um sich über häufig auftretende Methoden lustig zu machen, während Frequentisten normalerweise mit "Nun, ich bekomme die meiste Zeit immer noch ein korrektes Intervall und ohne falsche Annahmen" antworten. Ich werde darauf hinweisen, dass die Bayes'sche / frequentistische Sackgasse für die meisten, die ihre Methoden anwenden, nicht wichtig ist.

BatWannaBe
quelle