Warum folgen diese Aussagen nicht logisch aus einem 95% CI für den Mittelwert?

26

Ich habe die 2014 erschienene Veröffentlichung von Hoekstra et al. Zum Thema "Robuste Fehlinterpretation von Vertrauensintervallen" gelesen, die ich von der Wagenmakers-Website heruntergeladen habe .

Auf der vorletzten Seite wird das folgende Bild angezeigt.

Quiz

Laut den Autoren ist Falsch die richtige Antwort auf all diese Aussagen. Ich bin mir nicht sicher, warum die Aussagen falsch sind, und soweit ich den Rest des Papiers beurteilen kann, wird nicht versucht, dies zu erklären.

Ich glaube, dass 1-2 und 4 nicht korrekt sind, weil sie etwas über den wahrscheinlichen Wert des wahren Mittels aussagen, wenn das wahre Mittel einen bestimmten Wert hat, der unbekannt ist. Ist das eine überzeugende Unterscheidung?

Bezüglich 3 verstehe ich, dass man keine Aussagen über die Wahrscheinlichkeit treffen soll, dass die Nullhypothese falsch ist, obwohl ich nicht so sicher bin, warum.

Ebenso kann 6 nicht wahr sein, da dies impliziert, dass sich der wahre Mittelwert von Experiment zu Experiment ändert.

Die, die ich überhaupt nicht verstehe, ist 5. Warum ist die falsch? Wenn ich einen Prozess habe, bei dem 95% der Zeit CIs produzieren, die den wahren Mittelwert enthalten, warum sollte ich dann nicht sagen, dass ich ein 95% iges Vertrauen habe, dass der Bevölkerungswert zwischen 0,1 und 0,4 liegt? Liegt es daran, dass wir möglicherweise einige spezielle Informationen zu der Stichprobe haben, die wir gerade entnommen haben, die uns glauben machen, dass es wahrscheinlich eine der 5% ist, die nicht den wahren Mittelwert enthält? Zum Beispiel ist 0,13 im Konfidenzintervall enthalten und aus irgendeinem Grund wird 0,13 in einem bestimmten Forschungskontext nicht als plausibler Wert angesehen, z. B. weil dieser Wert mit der vorherigen Theorie in Konflikt stehen würde.

Was bedeutet in diesem Zusammenhang überhaupt Vertrauen?

user1205901 - Setzen Sie Monica wieder ein
quelle

Antworten:

11

Die eigentliche Bedeutung von Frage (5) hängt von einer unbekannten Interpretation von "Vertrauen" ab. Ich habe das Papier sorgfältig durchsucht und keinen Versuch gefunden, "Vertrauen" zu definieren oder was es in diesem Zusammenhang bedeuten könnte. Die Erklärung des Papiers zu seiner Antwort auf Frage (5) lautet

"... [es] erwähnt die Grenzen des CI, während ... ein CI verwendet werden kann, um nur das Verfahren und kein bestimmtes Intervall zu bewerten."

Dies ist sowohl fälschlich als auch irreführend. Erstens, wenn Sie das Ergebnis des Verfahrens nicht beurteilen können, was nützt das Verfahren dann überhaupt? Zweitens geht es bei der Aussage in der Frage nicht um das Verfahren, sondern um das "Vertrauen" des Lesers in seine Ergebnisse.

Die Autoren verteidigen sich:

Bevor Sie fortfahren, müssen Sie sich an die korrekte Definition eines CI erinnern. Ein CI ist ein numerisches Intervall, das um die Schätzung eines Parameters erstellt wird. Ein solches Intervall zeigt jedoch nicht direkt eine Eigenschaft des Parameters an, sondern es zeigt an eine Eigenschaft des Verfahrens, wie sie für eine frequentistische Technik typisch ist. "

Ihre Voreingenommenheit zeigt sich in der letzten Phrase: "frequentistische Technik" (vielleicht mit einem impliziten Spott geschrieben). Obwohl diese Charakterisierung korrekt ist, ist sie kritisch unvollständig. Es fällt nicht auf, dass ein Konfidenzintervall auch eine Eigenschaft der experimentellen Methoden (wie Proben entnommen und gemessen wurden) und, was noch wichtiger ist, der Natur selbst ist. Das ist der einzige Grund, warum sich irgendjemand für seinen Wert interessieren würde.

Ich hatte kürzlich das Vergnügen, Edward Batschelets Circular Statistics in Biology (Academic Press, 1981) zu lesen . Batschelet schreibt klar und auf den Punkt, in einem Stil, der sich an den arbeitenden Wissenschaftler richtet. Folgendes sagt er über Konfidenzintervalle:

" Eine Schätzung eines Parameters ohne Hinweise auf Abweichungen aufgrund von Zufallsschwankungen hat wenig wissenschaftlichen Wert. ...

"Während der zu schätzende Parameter eine feste Zahl ist, werden die Konfidenzgrenzen von der Stichprobe bestimmt. Sie sind statistisch und daher von zufälligen Schwankungen abhängig. Unterschiedliche Stichproben aus derselben Grundgesamtheit führen zu unterschiedlichen Konfidenzintervallen."

[Der Schwerpunkt liegt im Original auf den Seiten 84-85.]

Beachten Sie den Unterschied in der Betonung: Während sich das fragliche Papier auf das Verfahren konzentriert , konzentriert sich Batschelet auf die Stichprobe und insbesondere darauf, was sie über den Parameter aussagen kann und inwieweit diese Informationen durch "zufällige Schwankungen" beeinflusst werden können. Ich finde diesen unbefangen praktischen, wissenschaftlichen Ansatz weitaus konstruktiver, aufschlussreicher und letztendlich auch nützlicher.

Eine umfassendere Charakterisierung von Konfidenzintervallen als in der Veröffentlichung angegeben, müsste daher in etwa so erfolgen:

Ein CI ist ein numerisches Intervall, das um die Schätzung eines Parameters erstellt wird. Jeder, der mit den der CI-Konstruktion zugrunde liegenden Annahmen einverstanden ist, kann mit Recht sagen, dass er zuversichtlich ist, dass der Parameter innerhalb des Intervalls liegt: Dies ist die Bedeutung von "zuversichtlich". Diese Bedeutung entspricht im Großen und Ganzen den herkömmlichen nichttechnischen Konfidenzbedeutungen, da bei vielen Wiederholungen des Experiments (unabhängig davon, ob sie tatsächlich stattfinden oder nicht) erwartet wird, dass das CI, obwohl es variiert, die meiste Zeit den Parameter enthält.

In diesem umfassenderen, konventionelleren und konstruktiveren Gefühl von "Vertrauen" ist die Antwort auf Frage (5) wahr.

whuber
quelle
2
Es ist bemerkenswert, dass Batschelets Ansatz bestimmte Arten von Konfidenzintervallen auszuschließen scheint, die den nachdenklichen Lesern eine Pause geben, wie z. B. CIs, die leer sein können. Ein solches CI würde die Vorstellung von "Anzeichen von Abweichungen, die durch zufällige Schwankungen verursacht werden", kaum erfassen. Dies deutet darauf hin, dass die Standarddefinition des Konfidenzintervalls möglicherweise nicht ganz das erreicht, was beabsichtigt ist. Unabhängig davon, ob ein klarer Hinweis darauf vorliegt, was "Vertrauen" in Frage (5) bedeutet, müssen wir die Schlussfolgerungen der Autoren aufgrund der Antworten, die sie auf diese Frage erhalten haben, unberücksichtigt lassen.
Whuber
yichceinuchy(μ,1)μ
... Fortsetzung ... obwohl die langfristige durchschnittliche Abdeckung erreicht wird, wird die Abdeckung in einer bestimmten Klasse von Proben nicht erreicht.
Wahrscheinlichkeitsrechnung
10

Fragen 1-2, 4: In der frequentistischen Analyse ist der wahre Mittelwert keine Zufallsvariable, daher sind diese Wahrscheinlichkeiten nicht definiert, wohingegen in der Bayes'schen Analyse die Wahrscheinlichkeiten vom Prior abhängen würden.

Frage 3: Stellen Sie sich zum Beispiel einen Fall vor, bei dem wir sicher wissen, dass es immer noch möglich ist, diese Ergebnisse zu erhalten, aber es ist nicht zumutbar, zu sagen, dass die Nullhypothese „unwahrscheinlich“ ist. Wir haben Daten erhalten, die unwahrscheinlich sind, wenn die Nullhypothese wahr ist. Dies bedeutet jedoch nicht, dass die Nullhypothese unwahrscheinlich ist.

Frage 5: Dies ist etwas fragwürdig, da dies von der Definition von "Wir können zu 100% sicher sein" abhängt. Wenn wir die Aussage so definieren, dass sie das bedeutet, was aus p% -Konfidenzintervallen abgeleitet wird, ist die Aussage per Definition korrekt. Das typische Pro-Bayes'sche Argument besagt, dass die Leute diese Aussagen intuitiv so interpretieren, dass sie "die Wahrscheinlichkeit ist p%" bedeuten, was falsch wäre (vgl. Antworten zu 1-2,4).

Frage 6: Ihre Erklärung "es impliziert, dass sich der wahre Mittelwert von Experiment zu Experiment ändert" ist genau richtig.

Der Artikel wurde kürzlich in Andrew Gelmans Blog ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ) diskutiert . In den Kommentaren wird beispielsweise das Problem der Auslegung der Aussage in Frage 5 erörtert.

Juho Kokkala
quelle
1
Wenn man also zurückgeht und jedes Vorkommen von "wahrer Mittelwert" durch "beste Schätzung für den wahren Mittelwert" ersetzt, werden die Aussagen dann korrekt?
Superbest
@Superbest Nein. Wenn wir von "bester Schätzung unter Berücksichtigung dieser Daten" ausgehen, handelt es sich um eine bekannte Konstante (vorausgesetzt, das Beste ist genau definiert). Wenn wir die "beste Schätzung einer zukünftigen Stichprobe" berücksichtigen, wissen wir nicht, wie sie sich ändert, da wir den wahren Mittelwert nicht kennen.
Juho Kokkala
Dies ist nicht gerade eine Widerlegung des obigen Kommentars, aber ich sollte darauf hinweisen, dass die "beste Schätzung" in der Tat eine tatsächliche Zahl und keine Verteilung impliziert. Mit einem CI könnte man vielleicht über "die Verteilung, wo der wahre Mittelwert bei diesen Daten liegen könnte" sprechen.
Superbest
1
@ Super Das ist genau das Missverständnis von CI, das in der Zeitung angesprochen wird. Insbesondere ist der wahre Mittelwert eine Zahl ; es hat keine Verteilung. Weitere Informationen finden Sie in den ersten beiden Treffern einer Website-Suche nach Konfidenzintervallen .
Whuber
1
@super, "glaubwürdiges Intervall" würde sich nähern.
Whuber
8

Welche Rechtfertigung für die Kennzeichnung von # 5 als wahr oder falsch gibt es, ohne eine formale Definition dessen, was es bedeutet, "95% zuversichtlich" zu sein? Ein Laie würde es zweifellos als Synonym für eine Wahrscheinlichkeit von 95% falsch interpretieren, dass der Mittelwert in diesem Intervall liegt. Einige Leute verwenden es jedoch in dem Sinne, dass sie eine Intervall-Erzeugungsmethode verwendet haben, deren Intervalle den wahren Mittelwert von 95% der Zeit enthalten. gerade um zu vermeiden, über die Wahrscheinlichkeitsverteilung eines unbekannten Parameters zu sprechen; Das scheint eine logische Erweiterung der Terminologie zu sein.

Die ähnliche Struktur der vorangegangenen Aussage (Nr. 4) könnte die Befragten ermutigt haben, zu versuchen, eine Unterscheidung zwischen "Wir können zu 95% zuversichtlich sein" und "Es besteht eine Wahrscheinlichkeit von 95%" zu treffen, selbst wenn sie die Idee vorher nicht verstanden haben. Ich hatte erwartet, dass diese List dazu führen würde, dass # 5 den höchsten Übereinstimmungsgrad aufweist - als ich mir die Zeitung ansah, stellte ich fest, dass ich falsch lag, bemerkte jedoch, dass mindestens 80% den Fragebogen in einer niederländischen Version lasen, über die möglicherweise Fragen aufgeworfen werden sollten die Relevanz der englischen Übersetzung.

Scortchi - Wiedereinsetzung von Monica
quelle
4

Hier ist die Definition eines Konfidenzintervalls aus dem BS Everitt- Statistikwörterbuch :

Ein Wertebereich, der aus den Probenbeobachtungen berechnet wurde und von dem mit einer gewissen Wahrscheinlichkeit angenommen wird, dass er den wahren Parameterwert enthält. Ein 95% -KI bedeutet zum Beispiel, dass der Schätzprozess immer wieder wiederholt wurde, dann 95%. von den berechneten Intervallen wird erwartet, dass sie den wahren Parameterwert enthalten. Beachten Sie, dass sich die angegebene Wahrscheinlichkeitsstufe auf die Eigenschaften des Intervalls bezieht und nicht auf den Parameter selbst, der nicht als Zufallsvariable betrachtet wird.

Ein weit verbreitetes Missverständnis besteht darin, die Bedeutung eines Konfidenzintervalls mit der eines glaubwürdigen Intervalls , dem "Bayesian Confidence Intervall" der AKA, zu verwechseln , das Aussagen enthält, die denen in den Fragen ähneln.

Ich habe gehört, dass Konfidenzintervalle oft glaubwürdigen Intervallen ähneln, die von einem nicht informativen Vorgänger abgeleitet wurden, aber das wurde mir anekdotisch gesagt (wenn auch von einem Typ, den ich sehr respektiere), und ich habe keine Details oder ein Zitat.

Peter Flom - Wiedereinsetzung von Monica
quelle
Jaynes 1976 Papier-Konfidenzintervalle gegen Bayes'sche Intervalle. Das ist mindestens eine glaubwürdige Quelle. Es gibt auch Berger und Bernardo Referenzprioren. Im Ernst, haben Sie noch nie davon gehört?
Wahrscheinlichkeitsrechnung
2

In Bezug auf die Intuition für die Falschheit von Frage 5 erhalte ich von hier aus die folgende Diskussion zu diesem Thema

Es ist richtig zu sagen, dass die Wahrscheinlichkeit, dass das von Ihnen berechnete Konfidenzintervall den wahren Populationsmittelwert enthält, bei 95% liegt. Es ist nicht ganz richtig zu sagen, dass die Wahrscheinlichkeit, dass der Bevölkerungsmittelwert innerhalb des Intervalls liegt, bei 95% liegt.

Was ist der Unterschied? Das Bevölkerungsmittel hat einen Wert. Sie wissen nicht, was es ist (außer Sie machen Simulationen), aber es hat einen Wert. Wenn Sie das Experiment wiederholen, ändert sich dieser Wert nicht (und Sie wissen immer noch nicht, was es ist). Daher ist es nicht unbedingt richtig, nach der Wahrscheinlichkeit zu fragen, dass der Mittelwert der Grundgesamtheit in einem bestimmten Bereich liegt. Im Gegensatz dazu hängt das berechnete Konfidenzintervall von den erfassten Daten ab. Wenn Sie das Experiment wiederholen, ist Ihr Konfidenzintervall mit ziemlicher Sicherheit anders. Es ist also in Ordnung, nach der Wahrscheinlichkeit zu fragen, dass das Intervall den Populationsmittelwert enthält.

Nun zu Ihren spezifischen Fragen zu 5. Warum ist es falsch ...

  1. Liegt es daran, dass wir möglicherweise einige spezielle Informationen zu der Stichprobe haben, die wir gerade entnommen haben, die uns glauben machen, dass es wahrscheinlich eine der 5% ist, die nicht den wahren Mittelwert enthält? Nein, ich denke eher, weil der wahre Mittelwert keine Zufallsvariable ist, sondern das Konfidenzintervall eine Funktion der Daten ist.
  2. 100(1-α)100(1-α)

Als Randnotiz (in anderen Antworten auf diese Frage erwähnt) sagt ein glaubwürdiges Intervall , ein Konzept aus der Bayes'schen Statistik, voraus, dass der wahre Wert des Parameters angesichts der tatsächlich erhaltenen Daten mit einer bestimmten Wahrscheinlichkeit im Konfidenzintervall liegt. Vielleicht können Sie mehr Hintergrundinformationen in Gelmans Blog erhalten.

Deathkill14
quelle
5
"Das Intervall enthält den wahren Wert" und "der wahre Wert liegt innerhalb des Intervalls" bedeuten genau dasselbe. Es ist hilfreicher, in ersterem zu denken, aber es macht keinen Sinn zu sagen, dass der eine richtig und der andere falsch ist.
David Richerby