Uneinigkeit zwischen p-Werten und Konfidenzintervallen

8

Dies ist eine Frage zum T-Test in SPSS.

Ich habe zwei Gruppen und möchte testen, ob die beiden Mittelwerte gleich sind. Ich benutze den T-Test mit Bootstrapping. Am Ende bekam ich einen p-Wert <0,005, was mich im Allgemeinen veranlassen würde, die Nullhypothese abzulehnen, dass die Mittelwerte der beiden Populationen gleich sind, aber in meinem Fall liegt die Null innerhalb der 95% BCa-Bootstrap-Konfidenzintervalle basierend auf 1000 Stichproben .

Lehne ich die Hypothese gleicher Mittel immer noch ab?

Liza Vieira
quelle
1
Haben Sie zur Verdeutlichung einen Bootstrap-T-Test durchgeführt, bei dem Sie jetzt den p-Wert und 95% CI vergleichen, oder haben Sie einen Standard-T-Test (nicht Bootstrap) durchgeführt, um den p-Wert zu erhalten, und nur Bootstrapping für den verwendet CI?
Rose Hartman

Antworten:

7

Vorsichtsmaßnahme: Bei dieser Antwort wird davon ausgegangen, dass es sich bei der Frage um die Interpretation von Bootstrap-p-Werten und CIs handelt. Ein Vergleich zwischen einem herkömmlichen p-Wert (nicht gebootet) und einem gebooteten CI wäre ein anderes Problem.

Bei einem herkömmlichen (nicht gebooteten) t-Test sagen Ihnen der 95% CI und die Position des p-Werts relativ zum 0,05-Grenzwert für die Signifikanz immer dasselbe. Das liegt daran, dass beide auf denselben Informationen basieren: der t-Verteilung für Ihre Freiheitsgrade und dem Mittelwert und dem Standardfehler, die in Ihrer Stichprobe beobachtet wurden (oder der Unterschied zwischen Mittelwert und Standardfehler im Fall eines t- mit zwei Stichproben). Prüfung). Wenn sich Ihr CI nicht mit 0 überschneidet, ist Ihr p-Wert notwendigerweise <0,05 - es sei denn, es liegt natürlich ein Fehler in der Software oder ein Benutzerfehler bei der Implementierung oder Interpretation des Tests vor.

Bei einem Bootstrap-T-Test werden sowohl der CI- als auch der p-Wert direkt aus der durch das Bootstrapping erzeugten empirischen Verteilung berechnet: Der p-Wert gibt einfach an, wie viel Prozent der Bootstrap-Gruppenunterschiede extremer sind als der ursprünglich beobachtete Unterschied. Der 95% CI ist der mittlere 95% der Bootstrap-Gruppenunterschiede. Es ist nicht unmöglich, dass der p-Wert und das CI in einem Bootstrap-Test nicht über die Signifikanz übereinstimmen.

Akzeptieren oder lehnen Sie die Nullhypothese ab?

Im Kontext eines Bootstrap-Tests spiegelt der p-Wert (im Vergleich zum CI) den Geist des Hypothesentests direkter wider. Daher ist es am sinnvollsten, sich auf diesen Wert zu verlassen, um zu entscheiden, ob die Null bei abgelehnt werden soll oder nicht Ihr gewünschtes Alpha (in der Regel .05). In Ihrem Fall, in dem der p-Wert kleiner als 0,05 ist, der 95% -KI jedoch Null enthält, empfehle ich, die Nullhypothese abzulehnen .

All dies überspringt die großen Ideen darüber, wie wichtig "Signifikanz" wirklich sein sollte und ob das Testen der Signifikanz von Nullhypothesen tatsächlich so nützlich für ein Werkzeug ist oder nicht. Kurz gesagt, ich empfehle immer, jede Analyse von Signifikanztests durch eine Schätzung der Effektgrößen zu ergänzen (für einen T-Test mit zwei Stichproben ist die beste Schätzung der Effektgröße wahrscheinlich Cohens d ), was einen zusätzlichen Kontext zum besseren Verständnis Ihrer Ergebnisse bieten kann.

In Verbindung stehender hilfreicher Beitrag: Was bedeutet ein Konfidenzintervall, das aus Bootstrap-Resamples entnommen wird?

Rose Hartman
quelle
1
Dies ist eine großartige Antwort (+1), aber einige Ratschläge, wie sich das OP nähert, ob er die Null akzeptiert oder ablehnt, würden die Antwort auf die letzte Frage des OP abrunden.
Ashe
@ Ashe Danke! Sie haben Recht, dass ich die zentrale Frage nicht direkt angesprochen habe. Ich werde bearbeiten, um das zu verbessern.
Rose Hartman
"Für einen T-Test mit zwei Stichproben wird die beste Schätzung der Effektgröße wahrscheinlich Cohens d sein." Ist dies spezifisch für das Bootstrapping? Da ich für einen normalen T-Test denken würde, gibt Ihnen das Konfidenzintervall die besten Informationen über die Effektgröße auf der tatsächlichen Skala, auf der Sie getestet haben.
David Ernst
Cohens d steht für zwei Gruppenunterschiede; Bootstrapping oder nicht ist irrelevant. CIs werden im Allgemeinen nicht als Schätzungen der "Effektgröße" betrachtet, da sie von der Stichprobengröße abhängen (z. B. en.wikipedia.org/wiki/… : "Im Gegensatz zur T-Test-Statistik zielt die Effektgröße auf die Schätzung eines Populationsparameters ab und wird nicht beeinflusst nach Stichprobengröße. ") Vielleicht wundern Sie sich über standardisierte oder nicht standardisierte Schätzungen der Effektgröße? Die nicht standardisierte Effektgröße für zwei Gruppen ist nur der rohe Unterschied zwischen den Mitteln.
Rose Hartman
Danke vielmals! Ihre Erklärung, was p-Wert und CI im Kontext eines Bootstrap-T-Tests sind, war sehr nützlich. Wie Sie vorschlagen, habe ich das Cohen-d ermittelt, eine sehr hilfreiche Statistik zum Verständnis meiner Ergebnisse.
Liza Vieira
0

Wenn der p-Wert der Nullhypothese kleiner als 0,05 ist, sollte Null nicht im Konfidenzintervall bei 0,05 des Parameters enthalten sein, von dem Sie annehmen, dass er in der Nullhypothese Null ist. Das ist das gleiche. Es liegt also ein Fehler vor oder Sie testen nicht dieselbe Hypothese.

BEARBEITEN , wie die anderen Antworten und der Kommentar unten richtig zeigen, ist dies nicht die ganze Geschichte. Ich denke jedoch immer noch, dass wenn ein Test anzeigt, dass Gruppen einen anderen Mittelwert haben (p <0,005) und der andere nicht ablehnt (p> 0,05), die Tests wahrscheinlich wirklich eine andere Sache überprüfen.

Während dieser Unterschied theoretisch auf Asymptotik zurückzuführen sein könnte (Bootstraps sind Annäherungen an eine endliche Stichprobe, andere Tests sind Annäherungen, die auf Normalitätsannahmen basieren), ist dieser Unterschied überraschend groß. Ich behaupte, es ist alarmierend groß, und ohne herauszufinden, was damit los ist, sollten Sie noch keine Schlussfolgerungen ziehen. Genau das tun Sie übrigens auch, indem Sie die Frage hier posten. Vielleicht können Sie die Zahlen teilen und diese interessante Frage etwas konkreter machen.

Gijs
quelle
2
Ich stimme dir nicht zu. Ein Bootstrap-Konfidenzintervall folgt möglicherweise nicht den Ergebnissen eines t-Tests, da es sich insgesamt um eine andere Art von Verfahren handelt (in diesem Fall basierend auf der Differenz der Gruppenmittelwerte). Insbesondere wenn ein vorspannungskorrigiertes und beschleunigtes Bootstrap-Konfidenzintervall durchgeführt wird, können beispielsweise asymmetrische Konfidenzintervalle um die ursprüngliche Schätzung (dh in diesem Fall die Differenz der Gruppenmittelwerte) auftreten.
IWS