Was sagen Konfidenzintervalle über Präzision aus?

31

Morey et al. (2015) argumentieren, dass Konfidenzintervalle irreführend sind und es mehrere Vorurteile gibt, die mit ihrem Verständnis zusammenhängen. Unter anderem beschreiben sie den Präzisionsfehler wie folgt:

Der Genauigkeitsfehler
Die Breite eines Konfidenzintervalls zeigt die Genauigkeit unseres Wissens über den Parameter an. Enge Konfidenzintervalle zeigen genaues Wissen, während breite Konfidenzfehler ungenaues Wissen anzeigen.

Es besteht kein notwendiger Zusammenhang zwischen der Genauigkeit einer Schätzung und der Größe eines Konfidenzintervalls. Eine Möglichkeit, dies zu sehen, besteht darin, sich vorzustellen, dass zwei Forscher - ein leitender Forscher und ein Doktorand - Daten von Teilnehmern eines Experiments analysieren . Als Übung zum Wohle des Doktoranden beschließt der Senior Researcher, die Teilnehmer nach dem Zufallsprinzip in zwei Sätze zu je damit sie jeweils die Hälfte des Datensatzes separat analysieren können. In einer anschließenden Besprechung teilen die beiden untereinander die Vertrauensintervalle ihrer Schüler für den Mittelwert. Der CI des Doktoranden beträgt CI und der CI des Senior-Forschers beträgt CI .25 t 95 % 52 ± 2 95 % 53 ± 45025t95%52±295%53±4

Der leitende Forscher stellt fest, dass ihre Ergebnisse weitgehend konsistent sind und dass sie den gleichgewichteten Mittelwert ihrer beiden jeweiligen Punktschätzungen ( ) als Gesamtschätzung des wahren Mittelwerts verwenden könnten .52,5

Die Doktorandin argumentiert jedoch, dass ihre beiden Mittel nicht gleichmäßig gewichtet werden sollten: Sie stellt fest, dass ihr CI halb so breit ist und argumentiert, dass ihre Schätzung genauer ist und daher stärker gewichtet werden sollte. Ihr Berater stellt fest, dass dies nicht korrekt sein kann, da die Schätzung der ungleichmäßigen Gewichtung der beiden Mittelwerte von der Schätzung der Analyse des gesamten Datensatzes abweicht, der muss . Der Fehler des Doktoranden besteht darin, dass CIs direkt die Genauigkeit nach der Datenerfassung anzeigen.52,5

Das obige Beispiel scheint irreführend zu sein. Wenn wir eine Stichprobe zufällig in zwei Stichproben aufteilen, erwarten wir, dass sowohl die Stichprobenmittelwerte als auch die Standardfehler nahe beieinander liegen. In diesem Fall sollte es keinen Unterschied zwischen der Verwendung eines gewichteten Mittels (z. B. gewichtet durch inverse Fehler) und der Verwendung eines einfachen arithmetischen Mittels geben. Wenn sich die Schätzungen jedoch unterscheiden und die Fehler in einer der Stichproben merklich größer sind, könnte dies auf "Probleme" mit einer solchen Stichprobe hindeuten.

Offensichtlich sind im obigen Beispiel die Stichprobengrößen gleich, so dass das "Zusammenführen" der Daten durch Mittelwertbildung mit dem Mittelwertbildung für die gesamte Stichprobe identisch ist. Das Problem ist, dass das gesamte Beispiel der unklaren Logik folgt, dass die Stichprobe zunächst in Teile geteilt und dann für die endgültige Schätzung wieder zusammengefügt wird.

Das Beispiel kann umformuliert werden, um genau die gegenteilige Schlussfolgerung zu ziehen:

Der Forscher und der Student beschlossen, ihren Datensatz in zwei Hälften aufzuteilen und sie unabhängig voneinander zu analysieren. Danach verglichen sie ihre Schätzungen und es stellte sich heraus, dass die Stichprobe bedeutete, dass sie sehr unterschiedlich berechnet wurden, außerdem war der Standardfehler der Schätzung des Schülers viel größer. Der Student befürchtete, dass dies auf Probleme mit der Genauigkeit seiner Schätzung hindeuten könnte, aber der Forscher implizierte, dass es keinen Zusammenhang zwischen Konfidenzintervallen und Genauigkeit gibt, sodass beide Schätzungen gleichermaßen vertrauenswürdig sind und sie jede zufällig ausgewählte von ihnen veröffentlichen können. als ihre endgültige Schätzung.

Formal ausgedrückt basieren "Standard" -Konfidenzintervalle wie das des Schülers auf Fehlernt

x¯±c×SE(x)

Wobei eine Konstante ist. In einem solchen Fall stehen sie in direktem Zusammenhang mit der Präzision, nicht wahr?c

Meine Frage lautet also:
Ist der Präzisions-Irrtum wirklich ein Irrtum? Was sagen Konfidenzintervalle über Präzision aus?


Morey, R., Hoekstra, R., Rouder, J., Lee, M. & Wagenmakers, E.-J. (2015). Der Trugschluss, Vertrauen in Vertrauensintervalle zu setzen. Psychonomic Bulletin & Review, 1-21. https://learnbayes.org/papers/confidenceIntervalsFallacy/

Tim
quelle
2
Ich nehme an, wenn die Präzision als Kehrwert der Varianz definiert ist, dann gibt die Breite dieser CIs nur eine Schätzung der Präzision wieder. So sehr die Breite eines Bayes'schen glaubwürdigen Intervalls für den Mittelwert die Unsicherheit über die Genauigkeit widerspiegeln würde.
Scortchi - Wiedereinsetzung von Monica
@ Scortchi dann ist dies eine andere Art zu sagen, dass die frequentistischen Methoden im Allgemeinen unzuverlässig sind ..?
Tim
7
Ich würde sagen, das ist ein roter Hering. Ich habe gerade 10.000 Experimente simuliert, wobei jeweils 50 Proben aus einer Normalverteilung mit einem Mittelwert von 52,5 und einer SD von 7,5 gezogen wurden (so dass die SE von Unterproben der Größe 25 ungefähr , was CIs von±3ergibt). Ich habe diese Stichproben dann in zwei geteilt und überprüft, wie oft sich die CIs um 2 oder mehr unterschieden. Dies geschah nur in 6 von 10.000 Fällen. Wer CIs dieser Art beobachtet, würde eher vermuten, dass die Auswahl der Teilproben unterbrochen wurde. 7.5/25=5±3
S. Kolassa - Wiedereinsetzung von Monica am
@StephanKolassa Ich habe genau die gleiche Simulation durchgeführt, die zu genau den gleichen Schlussfolgerungen führte - so entstand die Frage :)
Tim
2
@Tim: Ich weiß nicht genau, worauf sie abzielen: Wenn die wahre Genauigkeit der Schätzung des Mittelwerts als Funktion eines unbekannten Parameterwerts gedacht wird, der den beiden Teilstichproben gemeinsam ist, dann ich Ich glaube nicht, dass es irgendjemandem etwas ausmacht, zuzugeben, dass der Unterschied in der Breite dieser beiden CIs keinen Unterschied in der Genauigkeit der Schätzungen widerspiegelt (es sei denn, sie bezweifeln das Unterabtastungsverfahren). Die Bedeckungseigenschaften der CIs zu berücksichtigen, die vom beobachteten Variationskoeffizienten abhängen, könnte eine bessere Taktik gewesen sein.
Scortchi

Antworten:

16

In diesem Artikel zeigen wir den Präzisionsfehler auf verschiedene Arten. Die, nach der Sie fragen - die erste in der Zeitung - Das Beispiel soll zeigen, dass eine vereinfachte "CI = Präzision" falsch ist. Das soll nicht heißen, dass ein kompetenter Frequentist, Bayesianer oder Likelihoodist dadurch verwirrt wäre.

Hier ist eine andere Möglichkeit, um zu sehen, was los ist: Wenn uns nur die CIs mitgeteilt würden, wären wir immer noch nicht in der Lage, die Informationen in den Beispielen miteinander zu kombinieren. wir müssten wissen , und dass wir konnten die CIs in das zersetzen ˉ x und s 2 und damit verbinden die beiden Proben richtig. Der Grund, warum wir dies tun müssen, ist, dass die Informationen im CI über dem Störungsparameter marginal sind. Wir müssen berücksichtigen, dass beide Stichproben Informationen über denselben Störparameter enthalten. Dies beinhaltet das Berechnen der beiden s 2 -Werte, das Kombinieren dieser Werte, um eine Gesamtschätzung von σ 2 zu erhalten , und das Berechnen eines neuen CI.Nx¯s2s2σ2

Was andere Demonstrationen des Präzisionsirrtums betrifft, siehe

  • die mehrfachen CIs in der Sektion Welch (1939) (das U-Boot), von denen eines das von @dsaxton oben erwähnte "triviale" CI enthält. In diesem Beispiel verfolgt das optimale CI nicht die Breite der Wahrscheinlichkeit, und es gibt mehrere andere Beispiele für CIs, die dies ebenfalls nicht tun.
  • Die Tatsache, dass CIs - auch "gute" CIs - leer sein können, zeigt "fälschlicherweise" eine unendliche Präzision an

Die Antwort auf das Rätsel lautet, dass "Präzision", zumindest in der Art und Weise, wie CI-Befürworter dies vertreten (eine nachexperimentelle Einschätzung, wie nahe eine Schätzung an einem Parameter liegt), einfach kein Merkmal ist, das Konfidenzintervalle im Allgemeinen haben und sie waren nicht dazu bestimmt. Bestimmte Vertrauensverfahren könnten ... oder auch nicht.

Siehe auch die Diskussion hier: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591

richarddmorey
quelle
7
(+1) Großartig, vom tatsächlichen Autor zu hören! Ich bin damit einverstanden, dass CIs mehrere philosophische Probleme haben, ebenso wie ALLE Arten von Schlussfolgerungen (nur unterschiedliche Probleme). Ich mag es, wie Sie darauf hingewiesen haben, dass es sich um das spezifische Konfidenzverfahren handelt, das Sie in Betracht ziehen müssen, und nicht nur, dass es sich um ein CI handelt und ein solches Niveau.
4
(+1) Danke für deine Antwort! Ich stimme mit den Argumenten , dass Sie Zustand in Ihrem Papier , dass CI müssen nicht alles um Präzision zu sagen, aber dies ein Irrtum Aufruf Eindruck , dass Sie angeben , dass sie nicht sagen nichts über Präzision - und das ist nicht das gleiche ... Übrigens: Ist es Ihrer Meinung nach der "Präzisionsfehler" ein echtes Analyseproblem ..? Ich bin damit einverstanden, dass CIs falsch interpretiert werden, aber in diesem Fall bin ich mir nicht so sicher ...
Tim
2
Die Auswirkungen im "realen" Leben sind schwer zu quantifizieren, insbesondere wenn von Auswirkungen in einem bestimmten Analyseszenario oder in einem bestimmten Bereich die Rede ist. Wenn Sie nur ein CI auf einem Gaußschen Mittelwert berechnen, ist der Irrtum nicht zu gefährlich. Beachten Sie jedoch die Zitierliste auf S. 117 (Abs. Beginnt "Wie oft wird Steiger das Vertrauensverfahren durchführen ..."). Die Intervalle in diesen veröffentlichten Artikeln sind wahrscheinlich "zu" eng. Der Irrtum hat andere Auswirkungen: ein Mangel an Gründlichkeit auf den Generatoren des neuen CI Verfahrens (überprüfen Sie die gesamte Papier mit einem neuen CI), Zurückhaltung der Analysten zu bewegen , weg von Gauß - Annahmen bei Bedarf und andere.
Richarddmorey
Ich bin begeistert von diesen Klammern. Was ist das "U-Boot"?
Super am
1
θ
13

Beschränken wir uns zunächst auf CI-Verfahren, die nur Intervalle mit streng positiven, endlichen Breiten erzeugen (um pathologische Fälle zu vermeiden).

In diesem Fall kann der Zusammenhang zwischen Präzision und CI-Breite theoretisch demonstriert werden. Schätzen Sie den Mittelwert (falls vorhanden). Wenn Ihr CI für den Mittelwert sehr eng ist, haben Sie zwei Interpretationen: Entweder hatten Sie Pech, und Ihre Stichprobe war zu eng zusammengewürfelt (mit einer Wahrscheinlichkeit von a priori von 5%), oder Ihr Intervall deckt den wahren Mittelwert ab (95%). a priori chance). Natürlich kann es sich bei dem beobachteten CI um eines von beiden handeln, aber wir haben unsere Berechnung so eingerichtet, dass letzteres sehr viel wahrscheinlicher aufgetreten ist (dh mit einer Wahrscheinlichkeit von 95% von vornherein) ... daher haben wir einen hohen Grad des Vertrauensdass unser Intervall den Mittelwert abdeckt, weil wir die Dinge probabilistisch einstellen, so ist dies so. Ein 95% CI ist also kein Wahrscheinlichkeitsintervall (wie ein Bayesianisches Glaubwürdigkeitsintervall), sondern eher ein "vertrauenswürdiger Berater" ... jemand, der statistisch zu 95% Recht hat, also vertrauen wir auch auf seine Antworten Jede bestimmte Antwort könnte sehr wohl falsch sein.

In den 95% der Fälle, in denen der tatsächliche Parameter abgedeckt ist, gibt die Breite einen Hinweis auf den Bereich plausibler Werte, die den Daten entsprechen (dh wie gut Sie den wahren Wert einschränken können), und ist daher ein Maß für die Genauigkeit . In den 5% der Fälle, in denen dies nicht der Fall ist, ist der CI irreführend (da die Stichprobe irreführend ist).

Gibt 95% CI-Breite also Präzision an ... Ich würde sagen, dass es eine 95% ige Chance gibt (vorausgesetzt, Ihre CI-Breite ist positiv-endlich) ;-)

Was ist ein vernünftiges CI?

Als Antwort auf den ursprünglichen Beitrag des Autors habe ich meine Antwort überarbeitet, um (a) zu berücksichtigen, dass das Beispiel "Split Sample" einen ganz bestimmten Zweck hatte, und (b) um etwas mehr Hintergrundinformationen bereitzustellen, wie vom Kommentator gewünscht:

In einer idealen (frequentistischen) Welt würden alle Stichprobenverteilungen eine zentrale Statistik zulassen, mit der wir genaue Konfidenzintervalle erhalten könnten. Was ist an einer zentralen Statistik so großartig? Ihre Verteilung kann abgeleitet werden, ohne den tatsächlichen Wert des zu schätzenden Parameters zu kennen! In diesen netten Fällen haben wir eine genaue Verteilung unserer Beispielstatistik in Bezug auf den wahren Parameter (obwohl er möglicherweise nicht gaußsch ist) über diesen Parameter.

Um es kurz zu machen: Wir kennen die Fehlerverteilung (oder eine Transformation davon).

Es ist diese Qualität einiger Schätzer, die es uns ermöglicht, vernünftige Konfidenzintervalle zu bilden. Diese Intervalle erfüllen nicht nur ihre Definitionen, sondern werden aus der tatsächlichen Verteilung des Schätzfehlers abgeleitet.

Die Gaußsche Verteilung und die zugehörige Z-Statistik sind das kanonische Beispiel für die Verwendung einer Schlüsselgröße zur Entwicklung eines exakten CI für den Mittelwert. Es gibt mehr esoterische Beispiele, aber dies ist im Allgemeinen dasjenige, das die "Theorie großer Stichproben" motiviert. Dies ist im Grunde ein Versuch, die Theorie hinter Gaußschen CIs auf Verteilungen anzuwenden, die keine wahre Schlüsselgröße zulassen. In diesen Fällen lesen Sie ungefähr entscheidende oder asymptotisch entscheidende (in der Stichprobengröße) Größen oder "ungefähre" Konfidenzintervalle ... Diese basieren auf der Wahrscheinlichkeitstheorie - insbesondere auf der Tatsache, dass die Fehlerverteilung für viele MLEs nähert sich einer Normalverteilung.

Ein weiterer Ansatz zur Erzeugung sinnvoller CIs besteht darin, einen Hypothesentest "umzukehren". Die Idee ist, dass ein "guter" Test (z. B. UMP) für eine gegebene Typ-I-Fehlerrate zu einem guten (read: narrow) CI führt. Diese liefern in der Regel keine exakte Abdeckung, bieten jedoch eine untere Abdeckung (Hinweis: Die tatsächliche Definition eines X% -CI besagt nur, dass der wahre Parameter mindestens X% der Zeit abgedeckt sein muss ).

Die Verwendung von Hypothesentests erfordert nicht direkt eine zentrale Größe oder Fehlerverteilung - ihre Sensibilität leitet sich aus der Sensibilität des zugrunde liegenden Tests ab. Wenn wir beispielsweise einen Test hätten, dessen Zurückweisungsbereich zu 0,5% der Zeit und zu 95% der Zeit unendlich lang war, wären wir wieder bei den CIs - aber es ist offensichtlich, dass dies kein Test ist Dies hängt von den Daten ab und gibt daher keine Auskunft über den zu testenden zugrunde liegenden Parameter.

Diese weiter gefasste Vorstellung, dass eine Schätzung der Genauigkeit von den Daten abhängig sein sollte, geht auf Fischer und die Idee der Zusatzstatistik zurück. Sie können sicher sein, dass Sie eine fragwürdige Methode zur Hand haben, wenn das Ergebnis Ihres Tests oder Ihrer CI-Prozedur NICHT von den Daten abhängig ist (dh das bedingte Verhalten ist dasselbe wie das bedingungslose Verhalten).


quelle
2
Es wäre großartig, wenn Sie erläutern könnten, was Sie in einer "Notiz" hinzugefügt haben. Dies ist meiner Meinung nach der Kern der gesamten Diskussion: Man kann sich sehr seltsame, aber gültige Verfahren für die Erstellung von CIs ausdenken, bei denen die Breite von CI keinerlei Beziehung zu irgendeiner Genauigkeit hat. Daher kann man argumentieren, wie Morey et al. tun, dass CIs grundsätzlich irregeführt werden. Ich stimme Ihnen zu, dass häufig verwendete CI-Verfahren sinnvoller sind, aber man muss sich darüber im Klaren sein, was sie zu solchen macht.
Amöbe sagt Reinstate Monica
@amoeba Ich habe noch eine Erklärung hinzugefügt, warum nicht alle CIs gleich erstellt werden ... Die Hauptidee ist Ancillarity, die zweite ist die Rolle einer Fehlerverteilung (oder einer Annäherung daran)
Danke für das Update. Eine Sache, die ich in Ihrer Antwort immer noch nicht sehr klar finde, ist, dass Sie im ersten Absatz nichts über die CI-Breite sagen . Sie sprechen nur davon, dass es den wahren Populationsparameter enthält oder nicht. Alles ist dort richtig, auch in "pathologischen" Fällen. Dann sagen Sie, dass ja, die Breite die Genauigkeit angibt, aber Sie haben (zu diesem Zeitpunkt) keine Argumente dafür angegeben. In der späteren Diskussion erklären Sie es jedoch genauer.
Amöbe sagt Reinstate Monica
@amoeba Ich denke, mein Beitrag könnte etwas mehr Formatierung vertragen. Die Grundlogik ist folgende (vorausgesetzt, wir verwenden ein "vernünftiges" CI-Verfahren, wie ich skizziere): Es besteht eine Wahrscheinlichkeit von a priori 95%, dass das Intervall den wahren Parameter enthält. Nachdem wir Daten gesammelt haben, haben wir unser tatsächliches Intervall (endliche Breite ungleich Null). Wenn es den wahren Parameter enthält, drückt die Breite den Bereich plausibler Werte aus, der sein könnte, daher begrenzt die Breite den Bereich des Parameters. In 5% der Fälle, in denen das Intervall keinen Wert enthält, ist das Intervall jedoch irreführend.
@amoeba hat den Beitrag aktualisiert, um den Zusammenhang zwischen CI-Breite und Präzision besser hervorzuheben.
8

{x1,x2,,xn}(μ,σ2)μ(-,){0}basierend auf dem Wurf einer voreingenommenen Münze. Durch die Verwendung der richtigen Verzerrung können wir ein beliebiges Maß an Vertrauen erhalten, aber offensichtlich hat unsere Intervall- "Schätzung" überhaupt keine Genauigkeit, selbst wenn wir am Ende ein Intervall mit einer Breite von Null haben.

Der Grund, warum ich nicht denke, dass wir uns um diesen offensichtlichen Irrtum kümmern sollten, ist, dass es zwar keinen notwendigen Zusammenhang zwischen der Breite eines Konfidenzintervalls und der Genauigkeit gibt, aber einen nahezu universellen Zusammenhang zwischen Standardfehlern und der Genauigkeit und in In den meisten Fällen ist die Breite eines Konfidenzintervalls proportional zu einem Standardfehler.

σ

dsaxton
quelle
Ein guter Punkt zu den zufällig unendlichen CIs ... zeigt definitiv, dass Vertrauen ein anderes Konzept als Präzision ist. Wahrscheinlich hätte ich meine Antwort einschränken sollen, indem ich sagte, dass ich ein wahrscheinlichkeitsbasiertes CI annehme, bei dem die Breite mit der Krümmung der logarithmischen Wahrscheinlichkeit zusammenhängt, die eine Annäherung an den Standardfehler darstellt. In Ihrem Beitrag wird darauf hingewiesen, dass es technisch erreichbare CIs gibt Berichterstattung, aber auf eine sehr intuitive Weise.
Ein verwandtes (wenn auch sehr interessantes) Problem sind relevante Untermengen für ein CI. Wenn Sie beispielsweise Nebenstatistiken festlegen, kann sich Ihre CI-Abdeckung ändern (ein Beispiel hierfür ist die bedingte Abdeckung eines t-Intervalls) Änderungen aufgrund der Variabilität Ihrer Stichprobe). Hier ist der Link zum
@Bey Es gibt ein weiteres weniger extremes Beispiel aus diesem Artikel , das ein U-Boot betrifft : webfiles.uci.edu/mdlee/fundamentalError.pdf . Es ist interessant, aber es scheint sich auch hier um eine Interpretation zu handeln, die kein intelligenter Mensch machen würde.
DSAXTON
Einverstanden ... kann nicht den gesunden Menschenverstand mit Statistiken an der Tür lassen ... selbst beim maschinellen Lernen (etwas falsch)
1
@richarddmorey: Okay, ich verstehe. Dann war es nur eine unglückliche Formulierung! Ich habe es nicht absichtlich aus dem Kontext genommen; Ich habe diesen Satz ehrlich als Zusammenfassung und Verallgemeinerung jeder Situation gelesen (ohne zu begreifen, dass "in diesem Beispiel" in diesem Satz angenommen wurde). Überlegen Sie, ob Sie in diesem anderen Thread mit meiner Anschuldigung einen Kommentar zur Klarstellung hinterlassen möchten (der bereits einige positive Stimmen erhalten hat).
Amöbe sagt Reinstate Monica
4

Ich halte die nachweisbare Unterscheidung zwischen "Konfidenzintervallen" und "Genauigkeit" (siehe Antwort von @dsaxton) für wichtig, da diese Unterscheidung Probleme bei der gemeinsamen Verwendung beider Begriffe aufzeigt.

Zitat aus Wikipedia :

Die Genauigkeit eines Messsystems in Bezug auf Reproduzierbarkeit und Wiederholbarkeit ist der Grad, zu dem wiederholte Messungen unter unveränderten Bedingungen dieselben Ergebnisse zeigen.

Man könnte daher argumentieren, dass häufig auftretende Konfidenzintervalle eine Art Genauigkeit eines Messschemas darstellen . Wenn man dasselbe Schema wiederholt, enthält der für jede Wiederholung berechnete 95% CI den einen wahren Wert des Parameters in 95% der Wiederholungen.

Dies ist jedoch nicht das, was viele Menschen von einem praktischen Maß an Präzision erwarten. Sie wollen wissen, wie nahe der gemessene Wert am wahren Wert liegt . Frequentistische Konfidenzintervalle liefern dieses Maß an Präzision nicht unbedingt. Bayesian glaubwürdige Regionen tun.

Ein Teil der Verwirrung ist, dass sich in praktischen Beispielen häufig auftretende Konfidenzintervalle und glaubwürdige Bayes-Regionen "mehr oder weniger überlappen" werden . Ein solches Beispiel ist die Stichprobe aus einer Normalverteilung, wie in einigen Kommentaren zum OP. Dies kann in der Praxis auch für einige der allgemeineren Analysetypen der Fall sein, die @Bey in Betracht gezogen hat, basierend auf Annäherungen an Standardfehler in Prozessen mit Normalverteilungen im Grenzbereich.

Wenn Sie wissen, dass Sie sich in einer solchen Situation befinden, besteht möglicherweise keine praktische Gefahr darin, einen bestimmten 95% -KI aus einer einzelnen Implementierung eines Messschemas so zu interpretieren, dass er mit einer Wahrscheinlichkeit von 95% den wahren Wert enthält. Diese Interpretation der Konfidenzintervalle stammt jedoch nicht aus der Frequenzstatistik, für die der wahre Wert entweder innerhalb dieses bestimmten Intervalls liegt oder nicht.

Wenn sich Konfidenzintervalle und glaubwürdige Regionen deutlich unterscheiden, kann diese Bayes'sche Interpretation von Konfidenzintervallen für Frequentisten irreführend oder falsch sein, wie die oben verlinkte Arbeit und die darin zitierte frühere Literatur belegen. Ja, "gesunder Menschenverstand" könnte helfen, solche Fehlinterpretationen zu vermeiden, aber meiner Erfahrung nach ist "gesunder Menschenverstand" nicht so verbreitet.

Andere CrossValidated-Seiten enthalten viel mehr Informationen zu Konfidenzintervallen und den Unterschieden zwischen Konfidenzintervallen und glaubwürdigen Regionen . Links von diesen speziellen Seiten sind ebenfalls sehr informativ.

EdM
quelle
Dies ist ein guter Punkt. Ich denke, der Begriff, der der gängigen Interpretation von "Präzision" am nächsten kommt, ist eher ein RMS-Fehler. Eine unbefangene, aber stark variable Schätzung wird als nicht besser angesehen als ein Schätzer mit geringer Variabilität, der jedoch stark voreingenommen ist. Es kann sich nicht darauf verlassen werden, dass beide eine Schätzung ergeben, die dem wahren Wert nahekommt.
+1, aber ich bin nicht sicher, ob ich Ihre pessimistische Sicht auf "gesunden Menschenverstand" teile. Es gibt ein großes Zitat von Jeffreys über „common sense“ in frequentistischen Statistiken: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
Amöbe sagt Reinstate Monica
@amoeba betrachten Laplace Behauptung, dass "Wahrscheinlichkeitstheorie nichts anderes als gesunder Menschenverstand ist, reduziert auf Berechnung." Die Bemühungen, die sich seitdem der Wahrscheinlichkeitstheorie widmen, zeigen zumindest, dass die Auswirkungen des gesunden Menschenverstands nicht immer sofort offensichtlich sind.
EdM
@amoeba: Fisher lehnte CIs ab und identifizierte Fisher als häufig. ist irreführend. Seine Logik der Intervalle (Fiducial) war ähnlich wie obj. Bayes, und er identifiziert Wahrscheinlichkeit mit rationaler Unsicherheit. Er sagt dies: "Es wird manchmal behauptet, dass die Referenzmethode im Allgemeinen zu den gleichen Ergebnissen führt wie die Methode von [CIs]. Es ist schwer zu verstehen, wie dies so sein kann, da festgehalten wurde, dass die Methode des Vertrauens intervalle führen nicht zu wahrscheinlichkeitsangaben über die parameter der realen welt, wohingegen das fiducial argument zu diesem zweck existiert. " (Fisher, 1959)
richarddmorey
@richard, Danke für die Klarstellung. Es ist bekannt, dass Fisher während seiner langen Karriere widersprüchliche Dinge gesagt und seine Meinung ein paarmal geändert hat. Ich bin mit seiner Referenztheorie nicht wirklich vertraut, kann mich also nicht dazu äußern. Meine unbewusste Annahme war, dass sich Jeffreys in diesem Zitat auf die "frequentistische Periode" des Fischers bezog, aber ich habe keine Beweise dafür. Nach meiner (begrenzten!) Erfahrung verwendet niemand jemals eine Vergleichsinferenz. Niemand. Je. Während häufig verwendete Techniken verwendet werden und viele auf Fisher zurückgehen. Daher die Assoziation, die in meinem Kopf existiert.
Amöbe sagt Reinstate Monica
1

@Bey hat es. Es besteht kein notwendiger Zusammenhang zwischen Punktzahl und Leistung, Preis und Qualität, Geruch und Geschmack. Doch der eine informiert meist über den anderen.

Man kann durch Induktion beweisen, dass man kein Pop-Quiz geben kann. Bei näherer Betrachtung bedeutet dies, dass man nicht garantieren kann , dass das Quiz eine Überraschung ist. Aber die meiste Zeit wird es sein.

Es hört sich so an, als ob Morey et al zeigen, dass es Fälle gibt, in denen die Breite nicht aussagekräftig ist. Obwohl dies ausreicht, um zu behaupten, dass kein notwendiger Zusammenhang zwischen der Genauigkeit einer Schätzung und der Größe eines Konfidenzintervalls besteht, reicht es nicht aus, zu folgern, dass CIs im Allgemeinen keine Informationen zur Genauigkeit enthalten. Nur, dass dies nicht garantiert wird.

(Unzureichende Punkte für die Antwort von + @ Bey.)

Ctwardy
quelle