Ich habe zwei Populationen (Männer und Frauen) mit jeweils Proben. Für jede Stichprobe habe ich zwei Eigenschaften A & B (Notendurchschnitt des ersten Jahres und SAT-Punktzahl). Ich habe einen T-Test separat für A & B verwendet: beide fanden signifikante Unterschiede zwischen den beiden Gruppen; A mit und B mit .
Ist es in Ordnung zu behaupten, dass die Eigenschaft B besser (signifikanter) als die Eigenschaft A diskriminiert wird? Oder ist ein t-Test nur eine Ja- oder Nein-Messung (signifikant oder nicht signifikant)?
Update : Nach den Kommentaren hier und nach dem, was ich auf Wikipedia gelesen habe, sollte die Antwort lauten: Lasse den bedeutungslosen p-Wert fallen und berichte deine Effektgröße . Irgendwelche Gedanken?
Antworten:
Viele Leute würden argumentieren, dass ein Wert entweder signifikant sein kann ( p < α ) oder nicht, und es daher (niemals) sinnvoll ist, zwei p- Werte miteinander zu vergleichen . Das ist falsch; in einigen Fällen schon.p p < α p
In Ihrem speziellen Fall besteht absolut kein Zweifel, dass Sie die Werte direkt vergleichen können . Wenn die Stichprobengröße festgelegt ist ( n = 1000 ), stehen p- Werte in einem monotonen Verhältnis zu t- Werten, die wiederum in einem monotonen Verhältnis zur nach Cohens d gemessenen Effektgröße stehen . Insbesondere ist d = 2 t / √p n = 1000 p t d . Dies bedeutet, dass Ihrep-Werte eins zu eins mit der Effektgröße übereinstimmen. Sie können also sicher sein, dassdie Effektgröße für A kleiner ist, wenn derp-Wert für Eigenschaft A größer als für Eigenschaft B ist als für Eigentum B.d= 2 t / n--√ p p
Ich glaube, das beantwortet Ihre Frage.
Einige zusätzliche Punkte:
Dies gilt nur, wenn die Stichprobengröße festgelegt ist. Wenn Sie in einem Experiment mit einer Stichprobengröße für Eigenschaft A p = 0,008 und in einem anderen Experiment mit einer anderen Stichprobengröße für Eigenschaft B p = 0,002 erhalten , ist es schwieriger, sie zu vergleichen.n p = 0,008 p = 0,002
Wenn die Frage speziell lautet, ob A oder B in der Bevölkerung besser "diskriminiert" werden (dh wie gut können Sie das Geschlecht anhand der A- oder B-Werte vorhersagen?), Sollten Sie sich die Effektgröße ansehen. In einfachen Fällen reicht es aus, und n zu kennen, um die Effektgröße zu berechnen.p n
Wenn die Frage vager ist: Welches Experiment liefert mehr "Beweise" gegen die Null? (Dies kann sinnvoll sein , wenn zB A = B) - dann ist die Frage kompliziert wird und umstritten, aber ich würde sagen , dass die - Wert per Definition ist eine skalare Zusammenfassung der Beweise gegen die Null, so das die untere p - Wert Je stärker die Evidenz, auch wenn die Stichprobengrößen unterschiedlich sind.p p
Zu sagen, dass die Effektgröße für B größer ist als für A, bedeutet nicht, dass sie signifikant größer ist. Sie benötigen einen direkten Vergleich zwischen A und B, um eine solche Behauptung aufzustellen.
Es ist immer eine gute Idee, neben Werten auch Effektgrößen und Konfidenzintervalle zu melden (und zu interpretieren) .p
quelle
Vielen Dank an denjenigen, der mich gerade abgelehnt hat, da ich jetzt eine völlig andere Antwort auf diese Frage habe. Ich habe meine ursprüngliche Antwort entsprechend gelöscht, da sie aus dieser Perspektive falsch ist.
Im Zusammenhang mit dieser Frage, die sich nur mit der Frage befasst "War A oder B ein besserer Diskriminator in meiner Studie?", Handelt es sich um eine Volkszählung und nicht um eine Stichprobe. Daher ist die Verwendung von Inferenzstatistiken, wie sie zur Erzeugung von p-Werten verwendet werden, irrelevant. Inferenzstatistiken werden verwendet, um Populationsschätzungen von denen abzuleiten, die wir aus unserer Stichprobe erhalten. Wenn wir nicht auf eine Population verallgemeinern möchten, sind diese Methoden nicht erforderlich. (Es gibt einige spezifische Probleme bezüglich fehlender Werte in einer Volkszählung, aber diese sind in dieser Situation irrelevant.)
Es gibt keine Wahrscheinlichkeit, in einer Population ein Ergebnis zu erzielen. Wir haben das Ergebnis erhalten, das wir bekommen haben. Daher beträgt die Wahrscheinlichkeit unserer Ergebnisse 100%. Es ist nicht erforderlich, ein Konfidenzintervall zu erstellen - die Punktschätzung für die Stichprobe ist genau. Wir müssen einfach gar nichts einschätzen.
Im speziellen Fall von "Welche Variable hat mit meinen Daten besser funktioniert?" Muss man sich die Ergebnisse nur in einer einfachen Zusammenfassung ansehen. Eine Tabelle kann ausreichen, vielleicht eine Grafik wie ein Box-Plot.
quelle
Sie erhalten einen Unterschied in p, aber es ist unklar, was dieser Unterschied bedeutet (ist es groß, klein, signifikant?)
Vielleicht Bootstrapping verwenden:
Wählen Sie (mit Ersetzung) aus Ihren Daten, wiederholen Sie Ihre Tests, berechnen Sie die Differenz der ps (p_a - p_b) und wiederholen Sie diese 100-200 Mal
Überprüfen Sie, welcher Bruchteil Ihrer Delta-Ps <0 ist (was bedeutet, dass p von A unter p von B liegt).
Hinweis: Ich habe dies gesehen, bin aber kein Experte.
quelle
Es wurde eine Antwort hinzugefügt, da es für einen Kommentar zu lang war!
Michelle hat eine gute Antwort, aber die vielen Kommentare zeigen einige häufige Diskussionen über p-Werte. Die Grundideen sind die folgenden:
1) Ein kleinerer p-Wert bedeutet nicht, dass ein Ergebnis mehr oder weniger signifikant ist. Es bedeutet nur, dass die Chancen, ein mindestens so extremes Ergebnis zu erzielen, geringer sind. Die Signifikanz ist ein binäres Ergebnis, das auf dem von Ihnen gewählten Signifikanzniveau basiert (das Sie auswählen, bevor Sie den Test ausführen).
2) Die Effektgröße (oft standardisiert auf die Anzahl der Standardabweichungen) ist ein guter Weg, um zu quantifizieren, "wie unterschiedlich" zwei Zahlen sind. Wenn also die Menge A eine Effektgröße von 0,8 Standardabweichungen und die Menge B eine Effektgröße von 0,5 Standardabweichungen hat, würde man sagen, dass es einen größeren Unterschied zwischen den beiden Gruppen bei der Menge A als bei der Menge B gibt :
.2 Standardabweichungen = "kleiner" Effekt
.5 Standardabweichungen = "mittlerer" Effekt
.8 Standardabweichungen = "großer" Effekt
quelle