Ich habe ursprünglich Folgendes als Teilantwort auf eine Frage gepostet, warum ein 95% -Konfidenzintervall nicht bedeutet, dass eine 95% ige Wahrscheinlichkeit besteht, dass das Intervall den wahren Mittelwert enthält (siehe: Warum nicht ein 95% -Konfidenzintervall (CI)? implizieren eine 95% ige Chance, den Mittelwert zu enthalten? ). Ein Kommentator (danke an John) hat mich anschließend gebeten, den Kommentar als separate Frage zu posten.
Zunächst gehe ich davon aus, dass die Wahrscheinlichkeit, dass ich einen Verein ausgewählt habe (ohne ihn anzusehen), 13/52 = 25% beträgt, wenn ich zufällig eine Spielkarte aus einem Standarddeck auswähle.
Und zweitens wurde oft gesagt, dass ein 95% -Konfidenzintervall so interpretiert werden sollte, dass ein Experiment mehrmals wiederholt wird, und dass das berechnete Intervall in 95% der Fälle den wahren Mittelwert enthält - ich denke, dies wurde von James Waters einigermaßen überzeugend demonstriert Simulation in der oben verlinkten Frage. Die meisten Menschen scheinen diese Interpretation eines 95% -KI zu akzeptieren.
Nun zum Gedankenexperiment. Nehmen wir an, wir haben eine normalverteilte Variable in einer großen Population - vielleicht die Größe erwachsener Männer oder Frauen. Ich habe einen willigen und unermüdlichen Assistenten, der mehrere Stichprobenprozesse einer bestimmten Stichprobengröße aus der Grundgesamtheit durchführt und den Stichprobenmittelwert und das 95% -Konfidenzintervall für jede Stichprobe berechnet. Mein Assistent ist sehr interessiert und schafft es, alle möglichen Proben aus der Bevölkerung zu messen. Dann zeichnet mein Assistent für jede Stichprobe entweder das resultierende Konfidenzintervall als grün (wenn das CI den wahren Mittelwert enthält) oder rot (wenn das CI nicht den wahren Mittelwert enthält) auf. Leider zeigt mir mein Assistent die Ergebnisse seiner Experimente nicht. Ich brauche einige Informationen über die Größe der Erwachsenen in der Bevölkerung, aber ich habe nur Zeit, Ressourcen und Geduld, um das Experiment einmal durchzuführen. Ich mache eine einzelne Zufallsstichprobe (mit derselben Stichprobengröße, die von meinem Assistenten verwendet wurde) und berechne das Konfidenzintervall (mit derselben Gleichung).
Ich kann die Ergebnisse meines Assistenten nicht sehen. Wie hoch ist also die Wahrscheinlichkeit, dass die von mir ausgewählte Zufallsstichprobe einen grünen CI ergibt (dh das Intervall enthält den wahren Mittelwert)?
In meinen Augen entspricht dies der zuvor beschriebenen Situation mit dem Kartenspiel und kann so interpretiert werden, dass eine Wahrscheinlichkeit von 95% besteht, dass das anhand meiner Stichprobe berechnete Intervall grün ist (dh den wahren Mittelwert enthält). Dennoch scheint die Übereinstimmung zu sein, dass ein 95% -Konfidenzintervall NICHT so interpretiert werden kann, dass eine 95% ige Wahrscheinlichkeit besteht, dass das Intervall den wahren Mittelwert enthält. Warum (und wo) fällt meine Argumentation im obigen Gedankenexperiment auseinander?
quelle
Antworten:
Die Verwirrung ergibt sich aus diesem Satz:
Es ist ein teilweises Missverständnis des wirklichen Konsenses. Die Verwirrung entsteht dadurch, dass wir nicht genau wissen, über welche Wahrscheinlichkeit wir sprechen. Nicht als philosophische Frage, sondern als "von welcher genauen Wahrscheinlichkeit wir im Kontext sprechen". Wie @ratsalad sagt, dreht sich alles um Konditionierung.
Nenne deinen Parameter, deine Daten, ein Intervall, das eine Funktion von :θ X. ich X.
Beide sind die Wahrscheinlichkeit desselben Ereignisses, aber unterschiedlich konditioniert.
Der Grund, warum man davon abrät, "die Wahrscheinlichkeit, dass in ist, ist 0,95" für Konfidenzintervalle zu sagen, ist, dass dieser Satz implizit den zweiten Punkt bedeutet: Wenn wir "die Wahrscheinlichkeit, dass ..." sagen, ist die Konditionierung implizit auf das, was gewesen ist zuvor beobachtet : "Ich habe einige , was ist nun die Wahrscheinlichkeit, dass ist ..." ist formal "was ist ".θ I X θ P(θ...∣X)
Dieses Implizite wird durch den (wieder impliziten) Vorschlag verstärkt, den Sie beim Lesen von "Wahrscheinlichkeit, dass in " erfahren, dass die Variable und das feste Objekt ist, während es in der frequentistischen Analyse das Gegenteil ist.θ I θ I
Schließlich wird dies noch schlimmer, wenn Sie durch Ihr berechnetes Intervall ersetzen . Wenn Sie schreiben: "Die Wahrscheinlichkeit, dass in ist, beträgt 0,95", dann ist dies einfach falsch. In der frequentistischen Analyse ist " ist in " entweder wahr oder falsch, aber kein zufälliges Ereignis, daher hat es keine Wahrscheinlichkeit (außer 0 oder 1). Somit konnte der Satz nur sinnvoll als der Bayes'sche interpretiert werden.I θ [4;5] θ [4;5]
quelle
Ein Teil des Unterschieds beruht auf der Konditionierung, dem Unterschied zwischen Wahrscheinlichkeiten vor und nach Daten. Bevor Sie Ihr einzelnes Experiment durchführen (bevor Sie Ihre Probe erhalten), wissen Sie, dass eine Wahrscheinlichkeit von 95% besteht, dass der 95% -KI den wahren Mittelwert enthält (dies ist die Definition eines 95% -KI). Nachdem Sie Ihre Stichprobe erhalten haben, befinden Sie sich jedoch in einem anderen Wissensstand: Sie haben den wahren Mittelwert nicht gelernt, aber Sie haben eine bestimmte Stichprobe von Daten gesehen, die Ihnen möglicherweise neues Wissen vermitteln und Ihre Wahrscheinlichkeitsberechnungen beeinflussen können.
Analog wissen Sie vor dem Ziehen einer Karte, dass die Wahrscheinlichkeit, dass die Karte ein Verein ist, bei 25% liegt. Damit die Analogie funktioniert, können Sie beim Ziehen der Karte nicht die wahre Farbe der Karte lernen (da Ihnen auch der wahre Mittelwert immer verborgen bleibt). Aber Sie können etwas Neues lernen, indem Sie die Karte zeichnen, zum Beispiel die Farbe des Anzugs.
Nehmen wir an, Sie ziehen die Karte und lernen durch einen Mechanismus (es spielt keine Rolle), dass die Karte aus einer schwarzen Farbe stammt. Dies ändert Ihre Wahrscheinlichkeit: Aus früheren Informationen wissen Sie, dass Vereine schwarz sind und dass die Hälfte der Karten aus schwarzen Farben stammt. Jetzt wissen Sie also, dass die Karte eine 50% ige Chance hat, ein Verein zu sein. Wenn Sie andererseits eine rote Karte entdeckt haben, wissen Sie aus Ihren vorherigen Informationen, dass Vereine nicht rot sind, sodass Sie jetzt wissen, dass die Wahrscheinlichkeit, dass Ihre Karte ein Verein ist, bei 0% liegt. Beide Wahrscheinlichkeiten stimmen mit einer 25% igen Chance eines Vereins vor dem Ziehen der Karte überein.
Wenn Sie Ihre vorherigen Informationen ignorieren oder wenn Ihnen nicht mitgeteilt wird, dass die Karte schwarz ist, haben Sie immer noch eine 25% ige Chance, korrekt zu sein. Sie können es jedoch besser machen, wenn Sie Ihre vorherigen Informationen nutzen.
Es gibt viele Beispiele dafür bei realen CIs, bei denen das Anzeigen der Daten eine Abdeckungswahrscheinlichkeit ergibt, die sich vom CI% unterscheidet. Dieses klassische Beispiel (auf halber Strecke) eines "irreführenden" CI von David McKay könnte helfen. Ein ähnliches Beispiel gibt Berger .
Um mit Ihrem Beispiel für die Größe von Menschen fortzufahren: Nehmen wir an, Sie wissen, dass Ihre untersuchte Bevölkerung aus den Niederlanden stammt, die die höchste durchschnittliche Größe eines Landes der Welt haben (ca. m). Nehmen wir jedoch an, Ihre Probe hat einen 95% CI von m. Glauben Sie immer noch, dass eine Wahrscheinlichkeit von 95% besteht, dass der wahre Bevölkerungsdurchschnitt in diesem Intervall liegt? Ich würde sagen, dass Ihre spezifische Probe, basierend auf dem Vorwissen, ein stochastischer Zufall und ungewöhnlich niedrig war. Mit anderen Worten, die Wahrscheinlichkeit, dass der wahre Mittelwert in Ihrem berechneten CI liegt, liegt weit unter 95%.1.84±0.02 1.7±0.02
Bevor Sie Ihre Stichprobe erhalten und Ihren spezifischen CI berechnet haben, betrug Ihre Chance, einen CI zu erhalten, der den wahren Mittelwert umfasste, 95%. Danach , wenn Sie keine vorherige Information verwenden, und gehen davon aus, dass alle Höhen gleich wahrscheinlich sind a priori , dann Sie könnte , wenn man wollte, eine Bayes - Aussage machen , dass es 95% Wahrscheinlichkeit ist , dass Ihr Intervall das wahre Mittel enthält. Beachten Sie jedoch, dass sich eine solche Aussage nicht aus der Definition eines CI ergibt und dass sie entscheidend von einer bestimmten Annahme für den Mittelwert abhängt. Dies hängt auch von Ihrer Normalitätsannahme ab, da die meisten häufig vorkommenden CIs nicht so einfach auf Bayes'sche Weise neu interpretiert werden können.
quelle
Ihre Frage ist mehr Philosophie als Statistik. Es wurde ad nauseam in Form einer Katze in einer Kiste diskutiert.
https://en.wikipedia.org/wiki/Schr%C3%B6dinger%27s_cat
Ich werde hinzufügen, in Bezug auf
Dies ist eine Interpretation. Sie können auch sagen, dass vor dem Erstellen des Intervalls eine Wahrscheinlichkeit von 95% besteht, dass der Prozess zu einem Intervall führt, das den wahren Mittelwert erfasst.
quelle