Dies ist eine rein hypothetische Frage. Eine sehr verbreitete Aussage ist, dass niemals wahr ist, es ist nur eine Frage der Stichprobengröße.
Nehmen wir an, dass es für real absolut keinen messbaren Unterschied zwischen zwei Mitteln ( ) gibt, die aus der normalverteilten Population gezogen werden (für und geschätzt ). Wir gehen von pro Gruppe aus und verwenden den Test. Dies würde bedeuten, dass der ist, was anzeigt, dass es absolut keine Abweichung von . Dies würde anzeigen, dass die Teststatistik . Die mittlere Differenz zwischen den Gruppen wäre . Was wären die Grenzen des -Konfidenzintervalls für die mittlere Differenz in diesem Fall? Wären sie ?
Der Hauptpunkt meiner Frage war, wann wir wirklich sagen können, dass wahr ist, dh in diesem Fall? Oder können wir im Rahmen des Frequentismus beim Vergleich zweier Mittelwerte wirklich "keinen Unterschied" sagen?
quelle
Antworten:
Ein Konfidenzintervall für einen t-Test ist von der Formx¯1−x¯2±tcrit,αsx¯1−x¯2 , wobei x¯1 und x¯2 sind die Probenmittel, tcrit,α ist der kritische t Wert bei dem gegebenen α , und sx¯1−x¯2 ist der Standardfehler der Mittelwertdifferenz . Wennp=1.0 , dann istx¯1−x¯2=0 . Sodie Formel nur±tcrit,αsx¯1−x¯2 , und die Grenzen sind nur {−tcrit,αsx¯1−x¯2 ,tcrit,αsx¯1−x¯2 }.
Ich bin mir nicht sicher, warum Sie glauben, dass die Limits{0,0}. Der kritische t Wert ist nicht Null und der Standardfehler der mittleren Differenz ist nicht Null.
quelle
Super-faul sein und R verwenden, um das Problem numerisch zu lösen, anstatt die Berechnungen von Hand durchzuführen:
Definieren Sie eine Funktion, die normalverteilte Werte mit einem Mittelwert von (fast!) Genau Null und einer SD von genau 1 liefert :
Führen Sie einen T-Test durch:
Die Mittelwerte sind wegen der Fließkomma-Ungenauigkeit nicht genau Null.
Direkter sind die CIs±
sqrt(1/8)*qt(0.975,df=30)
; Die Varianz jedes Mittelwerts beträgt 1/16, die gepoolte Varianz also 1/8.quelle
Das CI kann beliebige Grenzen haben, ist aber genau um Null zentriert
Für einen T-Test mit zwei Stichproben (Testen auf einen Unterschied im Mittelwert zweier Populationen) entspricht ein p-Wert von genau eins dem Fall, in dem die beobachteten Stichprobenmittelwerte genau gleich sind. † (Die Stichprobenvarianzen können beliebige Werte annehmen.) Beachten Sie, dass die p-Wert-Funktion für den Test wie folgt lautet:†
Das Setzen vonx¯=y¯ ergibt also:
Angenommen, Sie bilden das (ungefähre) Standard-Konfidenzintervall mit der Welch-Satterwaite-Näherung. In diesem Fall ergibt die Annahme, dassx¯=y¯ (um einen exakten p-Wert von eins zu erhalten) das Konfidenzintervall:
wobei die Grade-of-freedomDF wird von der Welch-Satterwaite Näherung bestimmt. Abhängig von den beobachteten Stichprobenabweichungen im Problem kann das Konfidenzintervall ein beliebiges endliches Intervall sein, das um Null zentriert ist. Das heißt, das Konfidenzintervall kann beliebige Grenzen haben, solange es genau um Null zentriert ist.
quelle
Es ist schwierig, eine überzeugende philosophische Diskussion über Dinge zu führen, bei denen keine Wahrscheinlichkeit besteht, dass sie eintreten. Deshalb zeige ich Ihnen einige Beispiele, die sich auf Ihre Frage beziehen.
Wenn Sie zwei enorme unabhängige Stichproben derselben Verteilung haben, haben beide Stichproben immer noch eine gewisse Variabilität. Die gepoolte 2-Stichproben-t-Statistik ist in der Nähe von, aber nicht genau 0. Der P-Wert wird alsUnif(0,1), und das 95% -Konfidenzintervall ist sehr kurz und sehr nahe bei 0 zentriert 0.
Ein Beispiel für einen solchen Datensatz und einen solchen t-Test:
Hier sind zusammengefasste Ergebnisse von 10.000 solchen Situationen. Erstens die Verteilung der P-Werte.
Als nächstes die Teststatistik:
Und so weiter für die Breite des CI.
Es ist fast unmöglich, einen P-Wert von Eins zu erhalten, wenn ein exakter Test mit kontinuierlichen Daten durchgeführt wird, bei dem die Annahmen erfüllt sind. So sehr, dass ein weiser Statistiker darüber nachdenkt, was bei einem P-Wert von 1 möglicherweise schief gelaufen ist.
Beispielsweise können Sie der Software zwei identische große Beispiele geben. Die Programmierung wird fortgesetzt, als wären dies zwei unabhängige Samples, und es werden merkwürdige Ergebnisse erzielt. Aber auch dann hat das CI keine Breite von 0.
quelle
Die einfache Antwort (+1 zu Noah) erklärt, dass das Konfidenzintervall für die mittlere Differenz möglicherweise immer noch eine Länge ungleich Null hat, da es von der beobachteten Variation in der Stichprobe auf andere Weise abhängt als der p-Wert.
Sie fragen sich vielleicht immer noch, warum das so ist. Da ist es nicht so seltsam, sich vorzustellen, dass ein hoher p-Wert auch ein kleines Konfidenzintervall bedeutet. Immerhin entsprechen beide etwas, was einer Bestätigung der Nullhypothese nahe kommt. Warum ist dieser Gedanke nicht richtig?
Ein hoher p-Wert ist nicht dasselbe wie ein kleines Konfidenzintervall.
Der p-Wert ist ein Indikator dafür, wie extrem eine bestimmte Beobachtung ist (bei bestimmten Hypothesen extrem), indem ausgedrückt wird, wie wahrscheinlich es ist, eine bestimmte Abweichung zu beobachten. Es ist ein Ausdruck der beobachteten Effektgröße in Bezug auf die Genauigkeit des Experiments (eine große beobachtete Effektgröße hat möglicherweise keine große Bedeutung, wenn das Experiment so ungenau ist, dass diese Beobachtungen vom statistischen / probabilistischen Standpunkt aus nicht extrem sind ). Wenn Sie einen p-Wert von 1 beobachten, bedeutet dies (nur), dass Sie einen Null-Effekt beobachtet haben, da die Wahrscheinlichkeit, ein solches Null-Ergebnis oder höher zu beobachten, gleich 1 ist (dies ist jedoch nicht dasselbe wie das, was es gibt Null - Effekt).
Nebenbemerkung: Warum p-Werte? Der p-Wert drückt die tatsächlich beobachtete Effektgröße im Verhältnis zu den erwarteten Effektgrößen (Wahrscheinlichkeiten) aus. Dies ist relevant, da Experimente aufgrund von häufigen Schwankungen bei Daten / Beobachtungen möglicherweise rein zufällig Beobachtungen von relevanter Effektgröße generieren. Die Anforderung, dass eine Beobachtung / ein Experiment einen niedrigen p-Wert aufweist, bedeutet, dass das Experiment eine hohe Präzision aufweist - das heißt: Die beobachtete Effektgröße ist weniger häufig / wahrscheinlich aufgrund von Zufällen / Schwankungen (und wahrscheinlich aufgrund eines echten Effekts). .
Sie sollten beachten, dass ein hoher p-Wert ( nicht unbedingt) ein Beweis / eine Unterstützung für die Nullhypothese ist. Der hohe p-Wert bedeutet nur, dass die Beobachtung für eine gegebene Nullhypothese nicht bemerkenswert / extrem ist, aber dies könnte genauso gut für die alternative Hypothese der Fall sein (dh das Ergebnis stimmt mit beiden Hypothesen überein, ja / nein Wirkung). Dies tritt normalerweise auf, wenn die Daten nicht viele Informationen enthalten (z. B. starkes Rauschen oder kleine Stichprobe).
quelle
No, because "absence of evidence is not evidence of absence." Probability can be thought as an extension of logic, with added uncertainties, so imagine for a moment that instead of real numbers on unit interval, the hypothesis test would return only the binary values: 0 (false) or 1 (true). In such case, the basic rules of logic apply, as in the following example:
As about confidence interval, if your sample is large, andμ1−μ2→0 , then the confidence interval for the difference would become extremely narrow, but non-zero. As noticed by others, you could observe things like exact ones and zeros, but rather because of the floating-point precision limitations.
Even if you observedp=1 and the ±0 confidence interval, you still need to keep in mind that the test gives you only the approximate answer. When doing hypothesis testing, we not only make the assumption that H0 is true, but also make a number of other assumptions, like that the samples are independent and come from normal distribution, what is never the case for real-world data. The test gives you an approximate answer, to ill-posed question, so it cannot "prove" the hypothesis, it can just say "under those unreasonable assumptions, this would be unlikely".
quelle
Nothing stops you from using standard t- or Gauss-formulae for computing the confidence interval - all informations needed are given in your question. p=1 doesn't mean that there's anything wrong with that. Note that p=1 does not mean that you can be particularly sure that the H0 is true. Random variation is still present and if u0=u1 can happen under the H0, it can also happen if the true value of u0 is slightly different from the true u1, so there will be more in the confidence interval than just equality.
quelle
Not among people who know what they're talking about, and are speaking precisely. Traditional hypothesis testing never concludes that the null is true, but whether the null is true or not is separate from whether the null is concluded to be true.
For a two-tailed test, yes.
To first approximation, the limits of a 95% confidence interval are about twice the applicable standard deviation. There is no discontinuity at zero. If you find a functionf(ϵ) that finds the 95% confidence interval for a difference in means of ϵ , you can simply take limϵ→0f(ϵ) to find the confidence interval for a mean difference of zero.
We can say whatever we want. However, saying that a test shows the null to be true is not consistent with traditional hypothesis testing, regardless of the results. And doing so is not well-founded from an evidenciary standpoint. The alternative hypothesis, that the means are not the same, encompasses all possible difference in means. The alternative hypothesis is "The difference in means is1 , or 2 , or 3 , or .5 , or .1 , ..." We can posit an arbitrarily small difference in means, and that will be consistent with the alternative hypothesis. And with an arbitrarily small difference, the probability given that mean is arbitrarily close to the probability given the null. Also, the alternative hypothesis encompasses not only the possibility that the parameters of the distributions, such as the mean, are different, but that there's an entirely different distribution. For instance, the alternative hypothesis encompasses "The two samples will always have a difference in means that this is either exactly 1 or exactly 0, with probability .5 for each". The results are more consistent with that then they are with the null.
quelle