Was ist der Unterschied zwischen Konfidenzintervallen und Hypothesentests?

28

Ich habe über Kontroversen in Bezug auf Hypothesentests mit einigen Kommentatoren gelesen, die vorschlagen, dass Hypothesentests nicht verwendet werden sollten. Einige Kommentatoren schlagen vor, stattdessen Konfidenzintervalle zu verwenden.

  • Was ist der Unterschied zwischen Konfidenzintervallen und Hypothesentests? Erklärung mit Verweis und Beispielen wäre wünschenswert.
Liebesstatistiken
quelle
5
Ich denke, Sie wollten fragen, warum es besser ist, die Ergebnisse der Hypothesentests anhand des Konfidenzintervalls zu melden, als nur zu sagen, dass auf einer bestimmten p-Wert-Ebene etwas bestätigt oder abgelehnt wird.
3
Sie sollten erwägen, einige Ihrer anderen Fragen als beantwortet zu prüfen.
Andy W

Antworten:

19

Sie können ein Konfidenzintervall (CI) zum Testen von Hypothesen verwenden. Im typischen Fall können Sie die Nullhypothese ablehnen, wenn das CI für einen Effekt nicht 0 umfasst. Ein CI kann jedoch für mehr Zwecke verwendet werden, während die Angabe, ob es bestanden wurde, die Grenze des Nutzens eines Tests darstellt.

Der Grund, warum Sie empfohlen werden, CI anstelle eines T-Tests zu verwenden, ist beispielsweise, dass Sie dann mehr als nur Hypothesen testen können. Sie können eine Aussage über die Bandbreite der Effekte machen, die Sie für wahrscheinlich halten (die im CI). Mit einem T-Test geht das nicht. Sie können damit auch Aussagen über die Null machen, die Sie mit einem t-Test nicht machen können. Wenn der T-Test die Null nicht ablehnt, sagen Sie einfach, dass Sie die Null nicht ablehnen können, was nicht viel aussagt. Wenn Sie jedoch ein enges Konfidenzintervall um den Nullwert haben, können Sie vorschlagen, dass der Nullwert oder ein Wert in der Nähe des Nullwerts wahrscheinlich der wahre Wert ist und dass die Wirkung der Behandlung oder der unabhängigen Variablen zu gering ist, um sinnvoll zu sein ( oder dass dein Experiment nicht funktioniert

Später hinzugefügt: Eigentlich hätte ich sagen sollen, dass ein CI wie ein Test zwar verwendet werden kann, aber keiner ist. Dies ist eine Schätzung eines Bereichs, in dem Ihrer Meinung nach die Parameterwerte liegen. Sie können Rückschlüsse wie bei einem Test ziehen, aber es ist viel besser, wenn Sie nie so darüber sprechen.

Welches ist besser?

A) Der Effekt ist 0,6, t (29) = 2,8, p <0,05. Dieser statistisch signifikante Effekt ist ... (einige Diskussion über diese statistische Signifikanz ohne Erwähnung oder sogar starke Fähigkeit, die praktische Implikation der Größe des Befundes zu diskutieren ... unter einem Neyman-Pearson-Rahmen die Größe des t und p- Werte sind so gut wie bedeutungslos und Sie können nur diskutieren, ob der Effekt vorhanden ist oder nicht. Sie können nie wirklich darüber sprechen, dass es tatsächlich keinen auf dem Test basierenden Effekt gibt.)

oder

B) Unter Verwendung eines 95% -Konfidenzintervalls schätze ich den Effekt auf zwischen 0,2 und 1,0. (Es folgt eine Diskussion über den tatsächlichen Effekt des Interesses, ob es sich bei plausiblen Werten um Werte handelt, die eine bestimmte Bedeutung haben und eine Verwendung des Wortes, das für genau das, was es bedeuten soll, von Bedeutung ist. Außerdem kann die Breite des CI direkt angegeben werden eine Diskussion darüber, ob dies ein starker Befund ist oder ob Sie nur eine vorläufige Schlussfolgerung ziehen können)

Wenn Sie eine grundlegende Statistikklasse belegt haben, tendieren Sie möglicherweise zunächst zu A. In einigen Fällen ist es möglicherweise besser, ein Ergebnis zu melden. Aber für die meisten Arbeiten ist B bei weitem überlegen. Eine Entfernungsschätzung ist kein Test.

John
quelle
Eine Ergänzung zu @johns Kommentaren: Erstens ist manchmal die Schlüsselfrage, ob das CI 1 und nicht 0 umfasst (z. B. logistische Regression).
Peter Flom - Wiedereinsetzung von Monica
Jungs, es ist 1 oder ist es 0? (Das sieht für mich sehr aufschlussreich aus, also muss ich wohl den richtigen Wert lernen, auf den ich achten muss!) @John
Adhesh Josh
Wie ist die Beziehung zwischen 95% CI und zweiseitiger Testhypothese mit alfa = 0,05? Sind sie gleich und wenn nicht, wie?
Liebesstatistiken
Liebesstatistiken, wenn sie gleich verwendet werden, sind sie gleich.
John
Adhesh Josh, die Nullhypothese kann jeder zuvor festgelegte Wert sein. Das ist ein weiteres Merkmal des CI gegenüber normalem NHST. Es ist sehr einfach zu verwenden, wenn Sie gegen einen anderen hypothetischen Wert als 0 testen möchten.
John
7

Es gibt eine Äquivalenz zwischen Hypothesentests und Konfidenzintervallen. (siehe zB http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing ) Ich gebe ein sehr konkretes Beispiel. Angenommen, wir haben die Stichproben aus einer Normalverteilung mit dem Mittelwert und der Varianz 1, die wir als schreiben . Nehmen wir an, wir denken, dass und wir wollen die Nullhypothese auf Stufe testenAlso machen wir eine Teststatistik, die wir in diesem Fall als Stichprobenmittelwert nehmen: . Nehmen wir nun an,x1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)ist der "Akzeptanzbereich" für für diesen Test. Das bedeutet, dass die Menge der möglichen Werte von für die die Nullhypothese auf Stufe 0,05 akzeptiert wird (ich verwende "akzeptiert" als Abkürzung für "nicht abgelehnt" - ich schlage nicht vor dass Sie die Nullhypothese schließen würden, ist wahr.). In diesem Beispiel können wir uns die -Normalverteilung ansehen und eine beliebige Menge mit einer Wahrscheinlichkeit von mindestens 0,95 unter dieser Verteilung auswählen. Ein 95% -Konfidenzbereich für ist die Menge aller für die in . Mit anderen Worten, es ist die Menge allervA(m)vμ=mN(m,1)μmvA(m)mwofür die Nullhypothese für das beobachtete akzeptiert würde . Deshalb sagt John: "Wenn das CI für einen Effekt nicht ist, können Sie die Nullhypothese ablehnen." (John bezieht sich auf den Fall des Testens von )v0μ=0

Ein verwandtes Thema ist der p-Wert. Der p-Wert ist der kleinste Wert für einen Test, bei dem wir die Nullhypothese ablehnen würden. Um dies mit der Diskussion der Konfidenzintervalle in Verbindung zu bringen, nehmen wir an, dass wir einen bestimmten Stichprobenmittelwert , aus dem wir Konfidenzintervalle unterschiedlicher Größe konstruieren. Angenommen, ein 95% -Konfidenzintervall für enthält . Dann können wir die Nullhypothese auf Stufe verwerfen Nehmen wir dann an, wir vergrößern das Konfidenzintervall, bis es den Wert nur berührt (aber nicht einschließt) , und nehmen an, dass dies ein Konfidenzintervall von 98% ist. Dann ist der p-Wert für die Hypothese ist (die wir erhalten ausvμmμ=m0.05.mμ=m0.0210.98 ).

DavidR
quelle
Bitte lesen Sie dies, da der p-Wert nicht als kleinste Teststufe interpretiert werden kann, um null abzulehnen. "Es wurde bereits gezeigt, dass die Interpretation von p-Werten in einzelnen (oder laufenden) Experimenten in einem Neyman-Pearson-Hypothesentest nicht zulässig ist. Die Berechnung des p-Werts hängt nur von der Wahrheit der Nullhypothese ab. Der p-Wert misst nicht die Menge an Beweisen, die HA stützen; es ist ein Maß für induktive Beweise gegen H0. " 'Quelle: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22
@ sree22 kannst du das erweitern oder eine umformulierung vorschlagen? Ich habe versucht, in diesem Zusammenhang eine Definition des p-Wertes zu geben, keine Interpretation.
DavidR
3

'Student' plädierte für Konfidenzintervalle mit der Begründung, sie könnten zeigen, welche Effekte wichtiger und welche signifikanter sind.

Wenn Sie beispielsweise zwei Effekte gefunden haben, bei denen das erste Konfidenzintervall für die finanziellen Auswirkungen zwischen 5 und 6 GBP lag, während das zweite Konfidenzintervall zwischen 200 und 2800 GBP lag. Der erste ist statistisch signifikanter, der zweite ist wahrscheinlich wichtiger.

Henry
quelle