Morey et al. (2015) argumentieren, dass Konfidenzintervalle irreführend sind und es mehrere Vorurteile gibt, die mit ihrem Verständnis zusammenhängen. Unter anderem beschreiben sie den Präzisionsfehler wie folgt:
Der Genauigkeitsfehler
Die Breite eines Konfidenzintervalls zeigt die Genauigkeit unseres Wissens über den Parameter an. Enge Konfidenzintervalle zeigen genaues Wissen, während breite Konfidenzfehler ungenaues Wissen anzeigen.Es besteht kein notwendiger Zusammenhang zwischen der Genauigkeit einer Schätzung und der Größe eines Konfidenzintervalls. Eine Möglichkeit, dies zu sehen, besteht darin, sich vorzustellen, dass zwei Forscher - ein leitender Forscher und ein Doktorand - Daten von Teilnehmern eines Experiments analysieren . Als Übung zum Wohle des Doktoranden beschließt der Senior Researcher, die Teilnehmer nach dem Zufallsprinzip in zwei Sätze zu je damit sie jeweils die Hälfte des Datensatzes separat analysieren können. In einer anschließenden Besprechung teilen die beiden untereinander die Vertrauensintervalle ihrer Schüler für den Mittelwert. Der CI des Doktoranden beträgt CI und der CI des Senior-Forschers beträgt CI .25 t 95 % 52 ± 2 95 % 53 ± 4
Der leitende Forscher stellt fest, dass ihre Ergebnisse weitgehend konsistent sind und dass sie den gleichgewichteten Mittelwert ihrer beiden jeweiligen Punktschätzungen ( ) als Gesamtschätzung des wahren Mittelwerts verwenden könnten .
Die Doktorandin argumentiert jedoch, dass ihre beiden Mittel nicht gleichmäßig gewichtet werden sollten: Sie stellt fest, dass ihr CI halb so breit ist und argumentiert, dass ihre Schätzung genauer ist und daher stärker gewichtet werden sollte. Ihr Berater stellt fest, dass dies nicht korrekt sein kann, da die Schätzung der ungleichmäßigen Gewichtung der beiden Mittelwerte von der Schätzung der Analyse des gesamten Datensatzes abweicht, der muss . Der Fehler des Doktoranden besteht darin, dass CIs direkt die Genauigkeit nach der Datenerfassung anzeigen.
Das obige Beispiel scheint irreführend zu sein. Wenn wir eine Stichprobe zufällig in zwei Stichproben aufteilen, erwarten wir, dass sowohl die Stichprobenmittelwerte als auch die Standardfehler nahe beieinander liegen. In diesem Fall sollte es keinen Unterschied zwischen der Verwendung eines gewichteten Mittels (z. B. gewichtet durch inverse Fehler) und der Verwendung eines einfachen arithmetischen Mittels geben. Wenn sich die Schätzungen jedoch unterscheiden und die Fehler in einer der Stichproben merklich größer sind, könnte dies auf "Probleme" mit einer solchen Stichprobe hindeuten.
Offensichtlich sind im obigen Beispiel die Stichprobengrößen gleich, so dass das "Zusammenführen" der Daten durch Mittelwertbildung mit dem Mittelwertbildung für die gesamte Stichprobe identisch ist. Das Problem ist, dass das gesamte Beispiel der unklaren Logik folgt, dass die Stichprobe zunächst in Teile geteilt und dann für die endgültige Schätzung wieder zusammengefügt wird.
Das Beispiel kann umformuliert werden, um genau die gegenteilige Schlussfolgerung zu ziehen:
Der Forscher und der Student beschlossen, ihren Datensatz in zwei Hälften aufzuteilen und sie unabhängig voneinander zu analysieren. Danach verglichen sie ihre Schätzungen und es stellte sich heraus, dass die Stichprobe bedeutete, dass sie sehr unterschiedlich berechnet wurden, außerdem war der Standardfehler der Schätzung des Schülers viel größer. Der Student befürchtete, dass dies auf Probleme mit der Genauigkeit seiner Schätzung hindeuten könnte, aber der Forscher implizierte, dass es keinen Zusammenhang zwischen Konfidenzintervallen und Genauigkeit gibt, sodass beide Schätzungen gleichermaßen vertrauenswürdig sind und sie jede zufällig ausgewählte von ihnen veröffentlichen können. als ihre endgültige Schätzung.
Formal ausgedrückt basieren "Standard" -Konfidenzintervalle wie das des Schülers auf Fehlern
Wobei eine Konstante ist. In einem solchen Fall stehen sie in direktem Zusammenhang mit der Präzision, nicht wahr?
Meine Frage lautet also:
Ist der Präzisions-Irrtum wirklich ein Irrtum? Was sagen Konfidenzintervalle über Präzision aus?
Morey, R., Hoekstra, R., Rouder, J., Lee, M. & Wagenmakers, E.-J. (2015). Der Trugschluss, Vertrauen in Vertrauensintervalle zu setzen. Psychonomic Bulletin & Review, 1-21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Antworten:
In diesem Artikel zeigen wir den Präzisionsfehler auf verschiedene Arten. Die, nach der Sie fragen - die erste in der Zeitung - Das Beispiel soll zeigen, dass eine vereinfachte "CI = Präzision" falsch ist. Das soll nicht heißen, dass ein kompetenter Frequentist, Bayesianer oder Likelihoodist dadurch verwirrt wäre.
Hier ist eine andere Möglichkeit, um zu sehen, was los ist: Wenn uns nur die CIs mitgeteilt würden, wären wir immer noch nicht in der Lage, die Informationen in den Beispielen miteinander zu kombinieren. wir müssten wissen , und dass wir konnten die CIs in das zersetzen ˉ x und s 2 und damit verbinden die beiden Proben richtig. Der Grund, warum wir dies tun müssen, ist, dass die Informationen im CI über dem Störungsparameter marginal sind. Wir müssen berücksichtigen, dass beide Stichproben Informationen über denselben Störparameter enthalten. Dies beinhaltet das Berechnen der beiden s 2 -Werte, das Kombinieren dieser Werte, um eine Gesamtschätzung von σ 2 zu erhalten , und das Berechnen eines neuen CI.N x¯ s2 s2 σ2
Was andere Demonstrationen des Präzisionsirrtums betrifft, siehe
Die Antwort auf das Rätsel lautet, dass "Präzision", zumindest in der Art und Weise, wie CI-Befürworter dies vertreten (eine nachexperimentelle Einschätzung, wie nahe eine Schätzung an einem Parameter liegt), einfach kein Merkmal ist, das Konfidenzintervalle im Allgemeinen haben und sie waren nicht dazu bestimmt. Bestimmte Vertrauensverfahren könnten ... oder auch nicht.
Siehe auch die Diskussion hier: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
quelle
Beschränken wir uns zunächst auf CI-Verfahren, die nur Intervalle mit streng positiven, endlichen Breiten erzeugen (um pathologische Fälle zu vermeiden).
In diesem Fall kann der Zusammenhang zwischen Präzision und CI-Breite theoretisch demonstriert werden. Schätzen Sie den Mittelwert (falls vorhanden). Wenn Ihr CI für den Mittelwert sehr eng ist, haben Sie zwei Interpretationen: Entweder hatten Sie Pech, und Ihre Stichprobe war zu eng zusammengewürfelt (mit einer Wahrscheinlichkeit von a priori von 5%), oder Ihr Intervall deckt den wahren Mittelwert ab (95%). a priori chance). Natürlich kann es sich bei dem beobachteten CI um eines von beiden handeln, aber wir haben unsere Berechnung so eingerichtet, dass letzteres sehr viel wahrscheinlicher aufgetreten ist (dh mit einer Wahrscheinlichkeit von 95% von vornherein) ... daher haben wir einen hohen Grad des Vertrauensdass unser Intervall den Mittelwert abdeckt, weil wir die Dinge probabilistisch einstellen, so ist dies so. Ein 95% CI ist also kein Wahrscheinlichkeitsintervall (wie ein Bayesianisches Glaubwürdigkeitsintervall), sondern eher ein "vertrauenswürdiger Berater" ... jemand, der statistisch zu 95% Recht hat, also vertrauen wir auch auf seine Antworten Jede bestimmte Antwort könnte sehr wohl falsch sein.
In den 95% der Fälle, in denen der tatsächliche Parameter abgedeckt ist, gibt die Breite einen Hinweis auf den Bereich plausibler Werte, die den Daten entsprechen (dh wie gut Sie den wahren Wert einschränken können), und ist daher ein Maß für die Genauigkeit . In den 5% der Fälle, in denen dies nicht der Fall ist, ist der CI irreführend (da die Stichprobe irreführend ist).
Gibt 95% CI-Breite also Präzision an ... Ich würde sagen, dass es eine 95% ige Chance gibt (vorausgesetzt, Ihre CI-Breite ist positiv-endlich) ;-)
Was ist ein vernünftiges CI?
Als Antwort auf den ursprünglichen Beitrag des Autors habe ich meine Antwort überarbeitet, um (a) zu berücksichtigen, dass das Beispiel "Split Sample" einen ganz bestimmten Zweck hatte, und (b) um etwas mehr Hintergrundinformationen bereitzustellen, wie vom Kommentator gewünscht:
In einer idealen (frequentistischen) Welt würden alle Stichprobenverteilungen eine zentrale Statistik zulassen, mit der wir genaue Konfidenzintervalle erhalten könnten. Was ist an einer zentralen Statistik so großartig? Ihre Verteilung kann abgeleitet werden, ohne den tatsächlichen Wert des zu schätzenden Parameters zu kennen! In diesen netten Fällen haben wir eine genaue Verteilung unserer Beispielstatistik in Bezug auf den wahren Parameter (obwohl er möglicherweise nicht gaußsch ist) über diesen Parameter.
Um es kurz zu machen: Wir kennen die Fehlerverteilung (oder eine Transformation davon).
Es ist diese Qualität einiger Schätzer, die es uns ermöglicht, vernünftige Konfidenzintervalle zu bilden. Diese Intervalle erfüllen nicht nur ihre Definitionen, sondern werden aus der tatsächlichen Verteilung des Schätzfehlers abgeleitet.
Die Gaußsche Verteilung und die zugehörige Z-Statistik sind das kanonische Beispiel für die Verwendung einer Schlüsselgröße zur Entwicklung eines exakten CI für den Mittelwert. Es gibt mehr esoterische Beispiele, aber dies ist im Allgemeinen dasjenige, das die "Theorie großer Stichproben" motiviert. Dies ist im Grunde ein Versuch, die Theorie hinter Gaußschen CIs auf Verteilungen anzuwenden, die keine wahre Schlüsselgröße zulassen. In diesen Fällen lesen Sie ungefähr entscheidende oder asymptotisch entscheidende (in der Stichprobengröße) Größen oder "ungefähre" Konfidenzintervalle ... Diese basieren auf der Wahrscheinlichkeitstheorie - insbesondere auf der Tatsache, dass die Fehlerverteilung für viele MLEs nähert sich einer Normalverteilung.
Ein weiterer Ansatz zur Erzeugung sinnvoller CIs besteht darin, einen Hypothesentest "umzukehren". Die Idee ist, dass ein "guter" Test (z. B. UMP) für eine gegebene Typ-I-Fehlerrate zu einem guten (read: narrow) CI führt. Diese liefern in der Regel keine exakte Abdeckung, bieten jedoch eine untere Abdeckung (Hinweis: Die tatsächliche Definition eines X% -CI besagt nur, dass der wahre Parameter mindestens X% der Zeit abgedeckt sein muss ).
Die Verwendung von Hypothesentests erfordert nicht direkt eine zentrale Größe oder Fehlerverteilung - ihre Sensibilität leitet sich aus der Sensibilität des zugrunde liegenden Tests ab. Wenn wir beispielsweise einen Test hätten, dessen Zurückweisungsbereich zu 0,5% der Zeit und zu 95% der Zeit unendlich lang war, wären wir wieder bei den CIs - aber es ist offensichtlich, dass dies kein Test ist Dies hängt von den Daten ab und gibt daher keine Auskunft über den zu testenden zugrunde liegenden Parameter.
Diese weiter gefasste Vorstellung, dass eine Schätzung der Genauigkeit von den Daten abhängig sein sollte, geht auf Fischer und die Idee der Zusatzstatistik zurück. Sie können sicher sein, dass Sie eine fragwürdige Methode zur Hand haben, wenn das Ergebnis Ihres Tests oder Ihrer CI-Prozedur NICHT von den Daten abhängig ist (dh das bedingte Verhalten ist dasselbe wie das bedingungslose Verhalten).
quelle
Der Grund, warum ich nicht denke, dass wir uns um diesen offensichtlichen Irrtum kümmern sollten, ist, dass es zwar keinen notwendigen Zusammenhang zwischen der Breite eines Konfidenzintervalls und der Genauigkeit gibt, aber einen nahezu universellen Zusammenhang zwischen Standardfehlern und der Genauigkeit und in In den meisten Fällen ist die Breite eines Konfidenzintervalls proportional zu einem Standardfehler.
quelle
Ich halte die nachweisbare Unterscheidung zwischen "Konfidenzintervallen" und "Genauigkeit" (siehe Antwort von @dsaxton) für wichtig, da diese Unterscheidung Probleme bei der gemeinsamen Verwendung beider Begriffe aufzeigt.
Zitat aus Wikipedia :
Man könnte daher argumentieren, dass häufig auftretende Konfidenzintervalle eine Art Genauigkeit eines Messschemas darstellen . Wenn man dasselbe Schema wiederholt, enthält der für jede Wiederholung berechnete 95% CI den einen wahren Wert des Parameters in 95% der Wiederholungen.
Dies ist jedoch nicht das, was viele Menschen von einem praktischen Maß an Präzision erwarten. Sie wollen wissen, wie nahe der gemessene Wert am wahren Wert liegt . Frequentistische Konfidenzintervalle liefern dieses Maß an Präzision nicht unbedingt. Bayesian glaubwürdige Regionen tun.
Ein Teil der Verwirrung ist, dass sich in praktischen Beispielen häufig auftretende Konfidenzintervalle und glaubwürdige Bayes-Regionen "mehr oder weniger überlappen" werden . Ein solches Beispiel ist die Stichprobe aus einer Normalverteilung, wie in einigen Kommentaren zum OP. Dies kann in der Praxis auch für einige der allgemeineren Analysetypen der Fall sein, die @Bey in Betracht gezogen hat, basierend auf Annäherungen an Standardfehler in Prozessen mit Normalverteilungen im Grenzbereich.
Wenn Sie wissen, dass Sie sich in einer solchen Situation befinden, besteht möglicherweise keine praktische Gefahr darin, einen bestimmten 95% -KI aus einer einzelnen Implementierung eines Messschemas so zu interpretieren, dass er mit einer Wahrscheinlichkeit von 95% den wahren Wert enthält. Diese Interpretation der Konfidenzintervalle stammt jedoch nicht aus der Frequenzstatistik, für die der wahre Wert entweder innerhalb dieses bestimmten Intervalls liegt oder nicht.
Wenn sich Konfidenzintervalle und glaubwürdige Regionen deutlich unterscheiden, kann diese Bayes'sche Interpretation von Konfidenzintervallen für Frequentisten irreführend oder falsch sein, wie die oben verlinkte Arbeit und die darin zitierte frühere Literatur belegen. Ja, "gesunder Menschenverstand" könnte helfen, solche Fehlinterpretationen zu vermeiden, aber meiner Erfahrung nach ist "gesunder Menschenverstand" nicht so verbreitet.
Andere CrossValidated-Seiten enthalten viel mehr Informationen zu Konfidenzintervallen und den Unterschieden zwischen Konfidenzintervallen und glaubwürdigen Regionen . Links von diesen speziellen Seiten sind ebenfalls sehr informativ.
quelle
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Bey hat es. Es besteht kein notwendiger Zusammenhang zwischen Punktzahl und Leistung, Preis und Qualität, Geruch und Geschmack. Doch der eine informiert meist über den anderen.
Man kann durch Induktion beweisen, dass man kein Pop-Quiz geben kann. Bei näherer Betrachtung bedeutet dies, dass man nicht garantieren kann , dass das Quiz eine Überraschung ist. Aber die meiste Zeit wird es sein.
Es hört sich so an, als ob Morey et al zeigen, dass es Fälle gibt, in denen die Breite nicht aussagekräftig ist. Obwohl dies ausreicht, um zu behaupten, dass kein notwendiger Zusammenhang zwischen der Genauigkeit einer Schätzung und der Größe eines Konfidenzintervalls besteht, reicht es nicht aus, zu folgern, dass CIs im Allgemeinen keine Informationen zur Genauigkeit enthalten. Nur, dass dies nicht garantiert wird.
(Unzureichende Punkte für die Antwort von + @ Bey.)
quelle