Ich habe die 2014 erschienene Veröffentlichung von Hoekstra et al. Zum Thema "Robuste Fehlinterpretation von Vertrauensintervallen" gelesen, die ich von der Wagenmakers-Website heruntergeladen habe .
Auf der vorletzten Seite wird das folgende Bild angezeigt.
Laut den Autoren ist Falsch die richtige Antwort auf all diese Aussagen. Ich bin mir nicht sicher, warum die Aussagen falsch sind, und soweit ich den Rest des Papiers beurteilen kann, wird nicht versucht, dies zu erklären.
Ich glaube, dass 1-2 und 4 nicht korrekt sind, weil sie etwas über den wahrscheinlichen Wert des wahren Mittels aussagen, wenn das wahre Mittel einen bestimmten Wert hat, der unbekannt ist. Ist das eine überzeugende Unterscheidung?
Bezüglich 3 verstehe ich, dass man keine Aussagen über die Wahrscheinlichkeit treffen soll, dass die Nullhypothese falsch ist, obwohl ich nicht so sicher bin, warum.
Ebenso kann 6 nicht wahr sein, da dies impliziert, dass sich der wahre Mittelwert von Experiment zu Experiment ändert.
Die, die ich überhaupt nicht verstehe, ist 5. Warum ist die falsch? Wenn ich einen Prozess habe, bei dem 95% der Zeit CIs produzieren, die den wahren Mittelwert enthalten, warum sollte ich dann nicht sagen, dass ich ein 95% iges Vertrauen habe, dass der Bevölkerungswert zwischen 0,1 und 0,4 liegt? Liegt es daran, dass wir möglicherweise einige spezielle Informationen zu der Stichprobe haben, die wir gerade entnommen haben, die uns glauben machen, dass es wahrscheinlich eine der 5% ist, die nicht den wahren Mittelwert enthält? Zum Beispiel ist 0,13 im Konfidenzintervall enthalten und aus irgendeinem Grund wird 0,13 in einem bestimmten Forschungskontext nicht als plausibler Wert angesehen, z. B. weil dieser Wert mit der vorherigen Theorie in Konflikt stehen würde.
Was bedeutet in diesem Zusammenhang überhaupt Vertrauen?
quelle
Antworten:
Die eigentliche Bedeutung von Frage (5) hängt von einer unbekannten Interpretation von "Vertrauen" ab. Ich habe das Papier sorgfältig durchsucht und keinen Versuch gefunden, "Vertrauen" zu definieren oder was es in diesem Zusammenhang bedeuten könnte. Die Erklärung des Papiers zu seiner Antwort auf Frage (5) lautet
Dies ist sowohl fälschlich als auch irreführend. Erstens, wenn Sie das Ergebnis des Verfahrens nicht beurteilen können, was nützt das Verfahren dann überhaupt? Zweitens geht es bei der Aussage in der Frage nicht um das Verfahren, sondern um das "Vertrauen" des Lesers in seine Ergebnisse.
Die Autoren verteidigen sich:
Ihre Voreingenommenheit zeigt sich in der letzten Phrase: "frequentistische Technik" (vielleicht mit einem impliziten Spott geschrieben). Obwohl diese Charakterisierung korrekt ist, ist sie kritisch unvollständig. Es fällt nicht auf, dass ein Konfidenzintervall auch eine Eigenschaft der experimentellen Methoden (wie Proben entnommen und gemessen wurden) und, was noch wichtiger ist, der Natur selbst ist. Das ist der einzige Grund, warum sich irgendjemand für seinen Wert interessieren würde.
Ich hatte kürzlich das Vergnügen, Edward Batschelets Circular Statistics in Biology (Academic Press, 1981) zu lesen . Batschelet schreibt klar und auf den Punkt, in einem Stil, der sich an den arbeitenden Wissenschaftler richtet. Folgendes sagt er über Konfidenzintervalle:
[Der Schwerpunkt liegt im Original auf den Seiten 84-85.]
Beachten Sie den Unterschied in der Betonung: Während sich das fragliche Papier auf das Verfahren konzentriert , konzentriert sich Batschelet auf die Stichprobe und insbesondere darauf, was sie über den Parameter aussagen kann und inwieweit diese Informationen durch "zufällige Schwankungen" beeinflusst werden können. Ich finde diesen unbefangen praktischen, wissenschaftlichen Ansatz weitaus konstruktiver, aufschlussreicher und letztendlich auch nützlicher.
Eine umfassendere Charakterisierung von Konfidenzintervallen als in der Veröffentlichung angegeben, müsste daher in etwa so erfolgen:
In diesem umfassenderen, konventionelleren und konstruktiveren Gefühl von "Vertrauen" ist die Antwort auf Frage (5) wahr.
quelle
Fragen 1-2, 4: In der frequentistischen Analyse ist der wahre Mittelwert keine Zufallsvariable, daher sind diese Wahrscheinlichkeiten nicht definiert, wohingegen in der Bayes'schen Analyse die Wahrscheinlichkeiten vom Prior abhängen würden.
Frage 3: Stellen Sie sich zum Beispiel einen Fall vor, bei dem wir sicher wissen, dass es immer noch möglich ist, diese Ergebnisse zu erhalten, aber es ist nicht zumutbar, zu sagen, dass die Nullhypothese „unwahrscheinlich“ ist. Wir haben Daten erhalten, die unwahrscheinlich sind, wenn die Nullhypothese wahr ist. Dies bedeutet jedoch nicht, dass die Nullhypothese unwahrscheinlich ist.
Frage 5: Dies ist etwas fragwürdig, da dies von der Definition von "Wir können zu 100% sicher sein" abhängt. Wenn wir die Aussage so definieren, dass sie das bedeutet, was aus p% -Konfidenzintervallen abgeleitet wird, ist die Aussage per Definition korrekt. Das typische Pro-Bayes'sche Argument besagt, dass die Leute diese Aussagen intuitiv so interpretieren, dass sie "die Wahrscheinlichkeit ist p%" bedeuten, was falsch wäre (vgl. Antworten zu 1-2,4).
Frage 6: Ihre Erklärung "es impliziert, dass sich der wahre Mittelwert von Experiment zu Experiment ändert" ist genau richtig.
Der Artikel wurde kürzlich in Andrew Gelmans Blog ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ) diskutiert . In den Kommentaren wird beispielsweise das Problem der Auslegung der Aussage in Frage 5 erörtert.
quelle
Welche Rechtfertigung für die Kennzeichnung von # 5 als wahr oder falsch gibt es, ohne eine formale Definition dessen, was es bedeutet, "95% zuversichtlich" zu sein? Ein Laie würde es zweifellos als Synonym für eine Wahrscheinlichkeit von 95% falsch interpretieren, dass der Mittelwert in diesem Intervall liegt. Einige Leute verwenden es jedoch in dem Sinne, dass sie eine Intervall-Erzeugungsmethode verwendet haben, deren Intervalle den wahren Mittelwert von 95% der Zeit enthalten. gerade um zu vermeiden, über die Wahrscheinlichkeitsverteilung eines unbekannten Parameters zu sprechen; Das scheint eine logische Erweiterung der Terminologie zu sein.
Die ähnliche Struktur der vorangegangenen Aussage (Nr. 4) könnte die Befragten ermutigt haben, zu versuchen, eine Unterscheidung zwischen "Wir können zu 95% zuversichtlich sein" und "Es besteht eine Wahrscheinlichkeit von 95%" zu treffen, selbst wenn sie die Idee vorher nicht verstanden haben. Ich hatte erwartet, dass diese List dazu führen würde, dass # 5 den höchsten Übereinstimmungsgrad aufweist - als ich mir die Zeitung ansah, stellte ich fest, dass ich falsch lag, bemerkte jedoch, dass mindestens 80% den Fragebogen in einer niederländischen Version lasen, über die möglicherweise Fragen aufgeworfen werden sollten die Relevanz der englischen Übersetzung.
quelle
Hier ist die Definition eines Konfidenzintervalls aus dem BS Everitt- Statistikwörterbuch :
Ein weit verbreitetes Missverständnis besteht darin, die Bedeutung eines Konfidenzintervalls mit der eines glaubwürdigen Intervalls , dem "Bayesian Confidence Intervall" der AKA, zu verwechseln , das Aussagen enthält, die denen in den Fragen ähneln.
Ich habe gehört, dass Konfidenzintervalle oft glaubwürdigen Intervallen ähneln, die von einem nicht informativen Vorgänger abgeleitet wurden, aber das wurde mir anekdotisch gesagt (wenn auch von einem Typ, den ich sehr respektiere), und ich habe keine Details oder ein Zitat.
quelle
In Bezug auf die Intuition für die Falschheit von Frage 5 erhalte ich von hier aus die folgende Diskussion zu diesem Thema
Nun zu Ihren spezifischen Fragen zu 5. Warum ist es falsch ...
Als Randnotiz (in anderen Antworten auf diese Frage erwähnt) sagt ein glaubwürdiges Intervall , ein Konzept aus der Bayes'schen Statistik, voraus, dass der wahre Wert des Parameters angesichts der tatsächlich erhaltenen Daten mit einer bestimmten Wahrscheinlichkeit im Konfidenzintervall liegt. Vielleicht können Sie mehr Hintergrundinformationen in Gelmans Blog erhalten.
quelle