Ich habe über Kontroversen in Bezug auf Hypothesentests mit einigen Kommentatoren gelesen, die vorschlagen, dass Hypothesentests nicht verwendet werden sollten. Einige Kommentatoren schlagen vor, stattdessen Konfidenzintervalle zu verwenden.
- Was ist der Unterschied zwischen Konfidenzintervallen und Hypothesentests? Erklärung mit Verweis und Beispielen wäre wünschenswert.
hypothesis-testing
confidence-interval
Liebesstatistiken
quelle
quelle
Antworten:
Sie können ein Konfidenzintervall (CI) zum Testen von Hypothesen verwenden. Im typischen Fall können Sie die Nullhypothese ablehnen, wenn das CI für einen Effekt nicht 0 umfasst. Ein CI kann jedoch für mehr Zwecke verwendet werden, während die Angabe, ob es bestanden wurde, die Grenze des Nutzens eines Tests darstellt.
Der Grund, warum Sie empfohlen werden, CI anstelle eines T-Tests zu verwenden, ist beispielsweise, dass Sie dann mehr als nur Hypothesen testen können. Sie können eine Aussage über die Bandbreite der Effekte machen, die Sie für wahrscheinlich halten (die im CI). Mit einem T-Test geht das nicht. Sie können damit auch Aussagen über die Null machen, die Sie mit einem t-Test nicht machen können. Wenn der T-Test die Null nicht ablehnt, sagen Sie einfach, dass Sie die Null nicht ablehnen können, was nicht viel aussagt. Wenn Sie jedoch ein enges Konfidenzintervall um den Nullwert haben, können Sie vorschlagen, dass der Nullwert oder ein Wert in der Nähe des Nullwerts wahrscheinlich der wahre Wert ist und dass die Wirkung der Behandlung oder der unabhängigen Variablen zu gering ist, um sinnvoll zu sein ( oder dass dein Experiment nicht funktioniert
Später hinzugefügt: Eigentlich hätte ich sagen sollen, dass ein CI wie ein Test zwar verwendet werden kann, aber keiner ist. Dies ist eine Schätzung eines Bereichs, in dem Ihrer Meinung nach die Parameterwerte liegen. Sie können Rückschlüsse wie bei einem Test ziehen, aber es ist viel besser, wenn Sie nie so darüber sprechen.
Welches ist besser?
A) Der Effekt ist 0,6, t (29) = 2,8, p <0,05. Dieser statistisch signifikante Effekt ist ... (einige Diskussion über diese statistische Signifikanz ohne Erwähnung oder sogar starke Fähigkeit, die praktische Implikation der Größe des Befundes zu diskutieren ... unter einem Neyman-Pearson-Rahmen die Größe des t und p- Werte sind so gut wie bedeutungslos und Sie können nur diskutieren, ob der Effekt vorhanden ist oder nicht. Sie können nie wirklich darüber sprechen, dass es tatsächlich keinen auf dem Test basierenden Effekt gibt.)
oder
B) Unter Verwendung eines 95% -Konfidenzintervalls schätze ich den Effekt auf zwischen 0,2 und 1,0. (Es folgt eine Diskussion über den tatsächlichen Effekt des Interesses, ob es sich bei plausiblen Werten um Werte handelt, die eine bestimmte Bedeutung haben und eine Verwendung des Wortes, das für genau das, was es bedeuten soll, von Bedeutung ist. Außerdem kann die Breite des CI direkt angegeben werden eine Diskussion darüber, ob dies ein starker Befund ist oder ob Sie nur eine vorläufige Schlussfolgerung ziehen können)
Wenn Sie eine grundlegende Statistikklasse belegt haben, tendieren Sie möglicherweise zunächst zu A. In einigen Fällen ist es möglicherweise besser, ein Ergebnis zu melden. Aber für die meisten Arbeiten ist B bei weitem überlegen. Eine Entfernungsschätzung ist kein Test.
quelle
Es gibt eine Äquivalenz zwischen Hypothesentests und Konfidenzintervallen. (siehe zB http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing ) Ich gebe ein sehr konkretes Beispiel. Angenommen, wir haben die Stichproben aus einer Normalverteilung mit dem Mittelwert und der Varianz 1, die wir als schreiben . Nehmen wir an, wir denken, dass und wir wollen die Nullhypothese auf Stufe testenAlso machen wir eine Teststatistik, die wir in diesem Fall als Stichprobenmittelwert nehmen: . Nehmen wir nun an,x1,x2,…,xn μ N(μ,1) μ=m H0:μ=m 0.05. v=(x1+x2+⋯+xn)/n A(m) ist der "Akzeptanzbereich" für für diesen Test. Das bedeutet, dass die Menge der möglichen Werte von für die die Nullhypothese auf Stufe 0,05 akzeptiert wird (ich verwende "akzeptiert" als Abkürzung für "nicht abgelehnt" - ich schlage nicht vor dass Sie die Nullhypothese schließen würden, ist wahr.). In diesem Beispiel können wir uns die -Normalverteilung ansehen und eine beliebige Menge mit einer Wahrscheinlichkeit von mindestens 0,95 unter dieser Verteilung auswählen. Ein 95% -Konfidenzbereich für ist die Menge aller für die in . Mit anderen Worten, es ist die Menge allerv A(m) v μ=m N(m,1) μ m v A(m) m wofür die Nullhypothese für das beobachtete akzeptiert würde . Deshalb sagt John: "Wenn das CI für einen Effekt nicht ist, können Sie die Nullhypothese ablehnen." (John bezieht sich auf den Fall des Testens von )v 0 μ=0
Ein verwandtes Thema ist der p-Wert. Der p-Wert ist der kleinste Wert für einen Test, bei dem wir die Nullhypothese ablehnen würden. Um dies mit der Diskussion der Konfidenzintervalle in Verbindung zu bringen, nehmen wir an, dass wir einen bestimmten Stichprobenmittelwert , aus dem wir Konfidenzintervalle unterschiedlicher Größe konstruieren. Angenommen, ein 95% -Konfidenzintervall für enthält . Dann können wir die Nullhypothese auf Stufe verwerfen Nehmen wir dann an, wir vergrößern das Konfidenzintervall, bis es den Wert nur berührt (aber nicht einschließt) , und nehmen an, dass dies ein Konfidenzintervall von 98% ist. Dann ist der p-Wert für die Hypothese ist (die wir erhalten ausv μ m μ=m 0.05. m μ=m 0.02 1−0.98 ).
quelle
'Student' plädierte für Konfidenzintervalle mit der Begründung, sie könnten zeigen, welche Effekte wichtiger und welche signifikanter sind.
Wenn Sie beispielsweise zwei Effekte gefunden haben, bei denen das erste Konfidenzintervall für die finanziellen Auswirkungen zwischen 5 und 6 GBP lag, während das zweite Konfidenzintervall zwischen 200 und 2800 GBP lag. Der erste ist statistisch signifikanter, der zweite ist wahrscheinlich wichtiger.
quelle