Enges Konfidenzintervall - höhere Genauigkeit?

17

Ich habe zwei Fragen zu Konfidenzintervallen:

Anscheinend impliziert ein enges Konfidenzintervall eine geringere Wahrscheinlichkeit, eine Beobachtung innerhalb dieses Intervalls zu erhalten, weshalb unsere Genauigkeit höher ist.

Ein 95% -Konfidenzintervall ist auch enger als ein 99% -Konfidenzintervall, das breiter ist.

Das Konfidenzintervall von 99% ist genauer als das von 95%.

Kann mir jemand eine einfache Erklärung geben, die mir helfen könnte, diesen Unterschied zwischen Genauigkeit und Enge zu verstehen?

hoch oben
quelle
2
Ich denke, Sie meinen "es gibt eine geringere Chance, eine Beobachtung außerhalb dieses Intervalls zu erhalten". Leider bedeutet ein Konfidenzintervall möglicherweise nicht, was es aufgrund technischer, statistischer Probleme zu bedeuten scheint, aber im Allgemeinen ist die Unsicherheit über die Ergebnisse umso geringer, je enger das Intervall (bei einem bestimmten Konfidenzniveau) ist. Auf dieser Website gibt es viele Diskussionsfäden, in denen erläutert wird, was ein Konfidenzintervall bedeutet (im Gegensatz beispielsweise zu einem glaubwürdigen Intervall). Wir werden nicht einmal in Vorhersageintervalle geraten ...
Wayne
@ Wayne Warum lautet die Aussage nicht "es gibt eine geringere Chance, eine Beobachtung innerhalb dieses Intervalls zu erhalten"? Da ein schmales Intervall einen großen Fehler vom Typ 1 aufweist, ist es wahrscheinlicher , dass die wahre Nullhypothese verworfen wird, dh, mein wahrer Nullwert ist in diesem Intervall nicht enthalten. Also scheint es mir a narrow confidence interval implies that there is a smaller chance of obtaining an observation within that intervalrichtig zu sein. Würden Sie mir bitte erklären, wo ich den Fehler mache?
Benutzer 31466

Antworten:

18

Die 95% hängen in keiner Weise davon ab, wie sicher Sie sind, dass Sie den wahren Effekt in Ihrem Experiment abgedeckt haben. Vielleicht könnte die Erkenntnis, dass "Intervall unter Verwendung einer 95% igen Reichweitenberechnung" ein genauerer Name dafür sein könnte. Sie können entscheiden, ob das Intervall den wahren Wert enthält. und Sie werden Recht haben, wenn Sie dies in 95% der Fälle konsequent tun. Aber ohne weitere Informationen wissen Sie wirklich nicht, wie wahrscheinlich es für Ihr bestimmtes Experiment ist.

F1: Ihre erste Abfrage verknüpft zwei Dinge und missbraucht einen Begriff. Kein Wunder, dass du verwirrt bist. Ein engeres Konfidenzintervall kann präziser sein, aber bei gleicher Berechnung wie bei der 95% -Methode weisen alle dieselbe Genauigkeit auf. Sie erfassen den wahren Wert zu der gleichen Zeit.

Nur weil es eng ist, bedeutet dies nicht, dass Sie weniger wahrscheinlich auf eine Stichprobe stoßen, die in dieses enge Konfidenzintervall fällt. Ein enges Konfidenzintervall kann auf drei Arten erreicht werden. Die experimentelle Methode oder Art der Daten könnte nur eine sehr geringe Varianz haben. Das Konfidenzintervall um den Siedepunkt von Leitungswasser auf Meereshöhe ist unabhängig von der Probengröße recht klein. Das Konfidenzintervall um das Durchschnittsgewicht der Menschen ist möglicherweise ziemlich groß, da die Menschen sehr variabel sind. Sie können dieses Konfidenzintervall jedoch verkleinern, indem Sie einfach mehr Beobachtungen machen. In diesem Fall gewinnen Sie mit zunehmender Gewissheit darüber, wo der wahre Wert Ihrer Meinung nach liegt, indem Sie mehr Stichproben sammeln und ein engeres Konfidenzintervall festlegen. dann sinkt die Wahrscheinlichkeit, in diesem Konfidenzintervall einem Individuum zu begegnen. (Sie sinkt in jedem Fall, wenn Sie die Probengröße erhöhen, aber Sie müssen möglicherweise nicht die große Probe im Fall mit kochendem Wasser sammeln.) Schließlich könnte es eng sein, weil Ihre Stichprobe nicht repräsentativ ist. In diesem Fall ist es tatsächlich wahrscheinlicher, dass eines der 5% der Intervalle nicht den wahren Wert enthält. Es ist ein Paradoxon in Bezug auf die CI-Breite und etwas, das Sie überprüfen sollten, indem Sie die Literatur kennen und wissen, wie variabel diese Daten normalerweise sind. In diesem Fall ist es tatsächlich wahrscheinlicher, dass eines der 5% der Intervalle nicht den wahren Wert enthält. Es ist ein Paradoxon in Bezug auf die CI-Breite und etwas, das Sie überprüfen sollten, indem Sie die Literatur kennen und wissen, wie variabel diese Daten normalerweise sind. In diesem Fall ist es tatsächlich wahrscheinlicher, dass eines der 5% der Intervalle nicht den wahren Wert enthält. Es ist ein Paradoxon in Bezug auf die CI-Breite und etwas, das Sie überprüfen sollten, indem Sie die Literatur kennen und wissen, wie variabel diese Daten normalerweise sind.

Berücksichtigen Sie außerdem, dass es beim Konfidenzintervall darum geht, den wahren Mittelwert der Bevölkerung zu schätzen. Wenn Sie diesen Punkt genau wüssten, wären Sie noch genauer (und genauer) und hätten nicht einmal eine Reihe von Schätzungen. Ihre Wahrscheinlichkeit, auf eine Beobachtung mit genau demselben Wert zu stoßen, ist jedoch weitaus geringer, als wenn Sie eine Beobachtung in einem bestimmten Stichproben-basierten CI finden würden.

F2 : Ein Konfidenzintervall von 99% ist breiter als ein Konfidenzintervall von 95%. Daher ist es wahrscheinlicher, dass es den wahren Wert enthält. Beachten Sie den obigen Unterschied zwischen präzise und genau, Sie verschmelzen beide. Wenn ich ein Konfidenzintervall mit geringerer Variabilität und höherer Stichprobengröße enger mache, wird es präziser, und die wahrscheinlichen Werte decken einen kleineren Bereich ab. Wenn ich die Abdeckung mithilfe einer 99% -Berechnung erhöhe, wird sie genauer, und es ist wahrscheinlicher, dass der wahre Wert innerhalb des Bereichs liegt.

John
quelle
2
Die Variabilität des Mittelwerts (= was Sie zu schätzen versuchen) in der Grundgesamtheit ist Null.
Nick Sabbe
10

Bei einem bestimmten Datensatz führt das Erhöhen des Konfidenzniveaus eines Konfidenzintervalls nur zu größeren Intervallen (oder zumindest nicht zu kleineren ). Es geht nicht um Genauigkeit oder Präzision, sondern darum, wie viel Risiko Sie eingehen möchten, wenn Sie den wahren Wert verpassen.

Wenn Sie Konfidenzintervalle für dieselbe Art von Parameter aus mehreren Datensätzen vergleichen und einer kleiner als der andere ist, können Sie sagen, dass der kleinere präziser ist . In dieser Situation spreche ich lieber über Präzision als über Genauigkeit (siehe den entsprechenden Wikipedia-Artikel ).

Karl
quelle
Was ist mit "derselben Art von Parameter" und "mehreren Datensätzen" gemeint? Sagen wir, eine Erhebung über Analphabetismus und die Erhebung wird zu unterschiedlichen Zeiten durchgeführt, 1995, 1998 usw. Ist dann die "Analphabetenrate" dieselbe Art von Parameter und geben die Datensätze von 1995, 1998 usw. mehrere Datensätze an?
Benutzer 31466
Zum Beispiel eine Reihe von Konfidenzintervallen, jeweils für den Mittelwert einer bestimmten Population. Dein Beispiel passt auch, denke ich.
Karl
3

Zunächst einmal bedeutet ein CI für einen bestimmten Konfidenzprozentsatz (z. B. 95%) für alle praktischen Zwecke (obwohl dies technisch nicht korrekt ist), dass Sie sicher sind, dass der wahre Wert im Intervall liegt.

Wenn dieses Intervall "eng" ist (beachten Sie, dass dies nur relativ betrachtet werden kann, dh es ist im Vergleich zum Folgenden 1 Einheit breit), bedeutet dies, dass nicht viel Platz zum Spielen vorhanden ist: welcher Wert auch immer Wenn Sie in diesem Intervall auswählen, liegt dies in der Nähe des wahren Werts (da das Intervall eng ist), und Sie sind sich dessen ziemlich sicher (95%).

Vergleichen Sie dies mit einem relativ breiten CI von 95% (um dem Beispiel zuvor zu entsprechen, sagen wir, es ist 100 Einheiten breit): Hier sind Sie sich immer noch zu 95% sicher, dass der wahre Wert innerhalb dieses Intervalls liegt, aber das sagt Ihnen nicht viel viel, da es relativ viele Werte im Intervall gibt (etwa einen Faktor 100 im Gegensatz zu 1 - und ich bitte Puristen, die Vereinfachung zu ignorieren).

Normalerweise benötigen Sie ein größeres Intervall, wenn Sie zu 99% sicher sein möchten, dass der wahre Wert darin enthalten ist, als wenn Sie nur zu 95% sicher sein müssen (Hinweis: Dies ist möglicherweise nicht der Fall, wenn die Intervalle nicht verschachtelt sind ) Je mehr Vertrauen Sie benötigen, desto breiter ist das Intervall, das Sie auswählen müssen.

Auf der anderen Seite, Sie sind sicherer mit dem höheren Konfidenzintervall. Also, wenn ich Ihnen 2 Intervalle mit der gleichen Breite gebe und ich sage, einer ist ein 95% CI und der andere ist ein 99% CI, hoffe ich, dass Sie den 99% bevorzugen. In diesem Sinne sind 99% der CIs genauer: Sie haben weniger Zweifel daran, dass Sie die Wahrheit übersehen haben.

Nick Sabbe
quelle
Vielen Dank! Wenn sie dann sagen, dass diese neue Forschung über Neutrinos, die schneller als Licht sind, ein sehr kleines Konfidenzintervall hat (ich nehme an, dies bedeutet eng), bedeutet dies, dass sie wahrscheinlicher genau sind, als wenn es ein breites Konfidenzintervall wäre? (ohne
Berücksichtigung
10
Nick, deine erste Aussage ist falsch. Es ist kein "technisches Problem", es ist einfach nicht korrekt. Das Konfidenzintervall ist eine Aussage darüber, was in wiederholten Experimenten passieren würde, dass sie in 95% der Fälle den wahren Wert abdecken würden. Eine Aussage über das Vertrauen, dass der wahre Wert innerhalb meines vorgegebenen Bereichs liegt, der in meinem vorgegebenen Experiment gefunden wurde, ist überhaupt nicht derselbe. Wenn Sie das "Das" in "Das Selbstbewusste" und den Zahlenwert in Klammern entfernen, sind Sie der Wahrheit näher. Sie können einfach sagen, dass Sie glauben, dass der wahre Wert wahrscheinlich in das Intervall fällt.
John
Ansonsten ist die Antwort ziemlich gut ...
John
4
@John: Ich habe ausdrücklich vermieden zu sagen, dass das Intervall selbst die Zufallsvariable ist, obwohl mein Satz nicht impliziert, dass es nicht so ist (zugegeben, es schlägt so vor). Ich kenne die Probleme, fand sie aber für die Frage irrelevant. Ich habe noch nie eine praktische Situation gesehen, in der es auch auf den Unterschied ankam, daher das "für alle praktischen Zwecke".
Nick Sabbe
4
Ist das Problem nicht aufgetreten? Das ist, als würde man den p-Wert = die Wahrscheinlichkeit der Null sagen und dann sagen, dass Sie noch nie ein Problem damit hatten. Sie werden nicht, wenn Sie in den richtigen Zeitschriften bleiben. Es ist einfach falsch zu sagen, dass Sie zu 95% sicher sind, dass der wahre Wert in Ihrem aktuellen Bereich liegt. Wenn wir es als esoterische Angelegenheit behandeln, heißt das nur, dass (mindestens) noch eine Person herumläuft und sagt: "Ich bin zu 95% davon überzeugt, dass der Wert in diesem Bereich liegt." Es würde Ihre Antwort kaum ändern, um sie zu korrigieren. Die anderen Probleme, die Sie umgehen, könnten ignoriert werden, wenn Sie diese eine Anweisung ändern.
John
3

Ich füge hier einige gute Antworten hinzu, denen ich zugestimmt habe. Ich denke, es gibt ein bisschen mehr, was gesagt werden sollte, um die Schlussfolgerung vollständig zu klären. Ich mag die Begriffe genau und richtig, wie sie von Efron definiert werden. Ich habe darüber kürzlich eine lange Diskussion über eine andere Frage geführt. Moderate whuber mochte diese Antwort wirklich. Ich werde nicht in die gleiche Richtung gehen, um das hier zu wiederholen. Die Genauigkeit von Efron bezieht sich jedoch auf das Konfidenzniveau und die Richtigkeit der Breite oder Enge des Intervalls. Aber Sie können nicht über Enge sprechen, ohne zuerst die Genauigkeit zu berücksichtigen. Einige Konfidenzintervalle sind genau, da sie die tatsächliche Abdeckung haben, für die sie werben. Ein 95% -Konfidenzintervall kann auch ungefähr sein, da es eine asymptotische Verteilung verwendet. Auf Asymptotik basierende ungefähre Intervalle gelten für eine endliche Stichprobengröße, bei der die angegebene Abdeckung nicht erreicht wird. Dies ist die Abdeckung, die Sie erhalten würden, wenn die asymptotische Verteilung die genaue Verteilung wäre. So könnte ein ungefähres Intervall eine Undercover-Abdeckung (dh 95% bei einer tatsächlichen Abdeckung von nur 91%) oder eine seltene, aber weniger schwerwiegende Überdeckung (dh die beworbene Abdeckung beträgt 95%, jedoch 98%) darstellen. Im ersteren Fall machen wir uns Sorgen darüber, wie nahe die tatsächliche Abdeckung an der beworbenen Abdeckung liegt. Ein Maß für die Nähe ist die Reihenfolge der Genauigkeit, die 1 / √n oder 1 / n sein kann. Wenn das tatsächliche Konfidenzniveau nahe ist, nennen wir es genau. Genauigkeit ist wichtig bei Bootstrap-Konfidenzintervallen, die nie genau sind, bei denen einige Varianten jedoch genauer sind als andere.

Diese Definition der Genauigkeit unterscheidet sich möglicherweise von derjenigen, auf die sich das OP bezieht, es sollte jedoch klar sein, um welche Definition es sich bei Efron handelt und warum es wichtig ist, genau zu sein. Wenn Sie nun zwei exakte Methoden haben, können wir eine der anderen vorziehen, wenn für jedes Konfidenzniveau die kleinere erwartete Breite vorliegt. Ein Konfidenzintervall, das in diesem Sinne am besten ist (manchmal auch als das kürzeste bezeichnet), ist das zu wählende. Dies erforderte jedoch Genauigkeit. Wenn das Konfidenzniveau nur ungefähr ist, könnten wir Äpfel und Orangen vergleichen. Einer könnte enger als der andere sein, nur weil er ungenauer ist und daher eine geringere tatsächliche Abdeckung aufweist als die beworbene Abdeckung.

Wenn zwei Konfidenzintervalle sehr genau sind oder eines genau ist und das andere sehr genau, kann der Vergleich der erwarteten Breite in Ordnung sein, da wir zumindest jetzt nur zwei Apfelsorten betrachten.

Michael R. Chernick
quelle