Welchen Sinn macht es, p-Werte miteinander zu vergleichen?

20

Ich habe zwei Populationen (Männer und Frauen) mit jeweils Proben. Für jede Stichprobe habe ich zwei Eigenschaften A & B (Notendurchschnitt des ersten Jahres und SAT-Punktzahl). Ich habe einen T-Test separat für A & B verwendet: beide fanden signifikante Unterschiede zwischen den beiden Gruppen; A mit und B mit .1000p=0.008p=0.002

Ist es in Ordnung zu behaupten, dass die Eigenschaft B besser (signifikanter) als die Eigenschaft A diskriminiert wird? Oder ist ein t-Test nur eine Ja- oder Nein-Messung (signifikant oder nicht signifikant)?

Update : Nach den Kommentaren hier und nach dem, was ich auf Wikipedia gelesen habe, sollte die Antwort lauten: Lasse den bedeutungslosen p-Wert fallen und berichte deine Effektgröße . Irgendwelche Gedanken?

Dov
quelle
+ bitte verzeih mir, dass ich kein englischer Muttersprachler bin :)
Dov
Kein Problem: Wenn Sie der Meinung sind, dass die von mir vorgenommenen (geringfügigen) Änderungen Ihre Frage in irgendeiner Weise geändert haben, können Sie sie jederzeit korrigieren.
Whuber
Was ist das Ergebnis, das Sie gemessen haben? (Was unterscheidet sich zwischen den durch A / nicht A oder B / nicht B definierten Gruppen?) Wird es an allen 1000 Proben gemessen oder fehlen einige?
Gast
3
Es ist eine gute Idee, die zwei verschiedenen Effektgrößen oder Konfidenzintervalle für die zwei verschiedenen Effektgrößen anzugeben. Es wäre einfacher, dies zu interpretieren, wenn das Ergebnis in jedem Ihrer beiden Datensätze dasselbe wäre (oder?).
Peter Ellis
2
Sie können die statistische Signifikanz und die Effektgröße sehr bequem anhand eines Waldstücks anzeigen! Die Darstellung von 95% CIs bedeutet, dass Sie 4 statt 2 Zahlen verwenden. Wie jedoch jeder anspielt, gibt dies den Informationsumfang wieder, der zum Vergleichen von Experimenten erforderlich ist.
AdamO

Antworten:

20

Viele Leute würden argumentieren, dass ein Wert entweder signifikant sein kann ( p < α ) oder nicht, und es daher (niemals) sinnvoll ist, zwei p- Werte miteinander zu vergleichen . Das ist falsch; in einigen Fällen schon.pp<αp

In Ihrem speziellen Fall besteht absolut kein Zweifel, dass Sie die Werte direkt vergleichen können . Wenn die Stichprobengröße festgelegt ist ( n = 1000 ), stehen p- Werte in einem monotonen Verhältnis zu t- Werten, die wiederum in einem monotonen Verhältnis zur nach Cohens d gemessenen Effektgröße stehen . Insbesondere ist d = 2 t / pn=1000ptd . Dies bedeutet, dass Ihrep-Werte eins zu eins mit der Effektgröße übereinstimmen. Sie können also sicher sein, dassdie Effektgröße für A kleiner ist, wenn derp-Wert für Eigenschaft A größer als für Eigenschaft B ist als für Eigentum B.d=2t/npp

Ich glaube, das beantwortet Ihre Frage.

Einige zusätzliche Punkte:

  1. Dies gilt nur, wenn die Stichprobengröße festgelegt ist. Wenn Sie in einem Experiment mit einer Stichprobengröße für Eigenschaft A p = 0,008 und in einem anderen Experiment mit einer anderen Stichprobengröße für Eigenschaft B p = 0,002 erhalten , ist es schwieriger, sie zu vergleichen.np=0,008p=0,002

    • Wenn die Frage speziell lautet, ob A oder B in der Bevölkerung besser "diskriminiert" werden (dh wie gut können Sie das Geschlecht anhand der A- oder B-Werte vorhersagen?), Sollten Sie sich die Effektgröße ansehen. In einfachen Fällen reicht es aus, und n zu kennen, um die Effektgröße zu berechnen.pn

    • Wenn die Frage vager ist: Welches Experiment liefert mehr "Beweise" gegen die Null? (Dies kann sinnvoll sein , wenn zB A = B) - dann ist die Frage kompliziert wird und umstritten, aber ich würde sagen , dass die - Wert per Definition ist eine skalare Zusammenfassung der Beweise gegen die Null, so das die untere p - Wert Je stärker die Evidenz, auch wenn die Stichprobengrößen unterschiedlich sind.pp

  2. Zu sagen, dass die Effektgröße für B größer ist als für A, bedeutet nicht, dass sie signifikant größer ist. Sie benötigen einen direkten Vergleich zwischen A und B, um eine solche Behauptung aufzustellen.

  3. Es ist immer eine gute Idee, neben Werten auch Effektgrößen und Konfidenzintervalle zu melden (und zu interpretieren) .p

Amöbe sagt Reinstate Monica
quelle
3
Gute Punkte zur Monotonie und gute 3 Endpunkte. Nun zu der Aussage "Sie können sicher sein": Richtig genug für die Stichprobe, aber "signifikant"? (Dh mit vertrauenswürdigen Implikationen für die Bevölkerung?) Sie haben dies in # 2 kurz angesprochen. Eine umfassendere Behandlung wäre willkommen. Prost ~
rolando2
4
Das ist richtig, aber ich habe auch versucht zu verdeutlichen, dass es in diesem Fall nur unbedingt richtig ist (das merken Sie auch). Ich denke, Michelle machte einen sinnvollen Punkt, dass Sie p-Werte im Allgemeinen nicht auf diese Weise verwenden sollten.
gung - Wiedereinsetzung von Monica
1
(-1) Der Text dieses Beitrags ist korrekt, aber der einleitende Satz ("Viele Leute würden argumentieren, dass ... es keinen Sinn macht, zwei Werte miteinander zu vergleichen . Das ist falsch.") Ist zu einfach Als generischer Rat missverstanden, obwohl er nur in besonderen Fällen gilt, wie hier. p
Andrew M
1
@ AndrewM Vielleicht. Ich habe den Anfang meiner Antwort bearbeitet. Mal sehen, ob es dir jetzt besser gefällt.
Amöbe sagt Reinstate Monica
0

Vielen Dank an denjenigen, der mich gerade abgelehnt hat, da ich jetzt eine völlig andere Antwort auf diese Frage habe. Ich habe meine ursprüngliche Antwort entsprechend gelöscht, da sie aus dieser Perspektive falsch ist.

Im Zusammenhang mit dieser Frage, die sich nur mit der Frage befasst "War A oder B ein besserer Diskriminator in meiner Studie?", Handelt es sich um eine Volkszählung und nicht um eine Stichprobe. Daher ist die Verwendung von Inferenzstatistiken, wie sie zur Erzeugung von p-Werten verwendet werden, irrelevant. Inferenzstatistiken werden verwendet, um Populationsschätzungen von denen abzuleiten, die wir aus unserer Stichprobe erhalten. Wenn wir nicht auf eine Population verallgemeinern möchten, sind diese Methoden nicht erforderlich. (Es gibt einige spezifische Probleme bezüglich fehlender Werte in einer Volkszählung, aber diese sind in dieser Situation irrelevant.)

Es gibt keine Wahrscheinlichkeit, in einer Population ein Ergebnis zu erzielen. Wir haben das Ergebnis erhalten, das wir bekommen haben. Daher beträgt die Wahrscheinlichkeit unserer Ergebnisse 100%. Es ist nicht erforderlich, ein Konfidenzintervall zu erstellen - die Punktschätzung für die Stichprobe ist genau. Wir müssen einfach gar nichts einschätzen.

Im speziellen Fall von "Welche Variable hat mit meinen Daten besser funktioniert?" Muss man sich die Ergebnisse nur in einer einfachen Zusammenfassung ansehen. Eine Tabelle kann ausreichen, vielleicht eine Grafik wie ein Box-Plot.

Michelle
quelle
-1

Sie erhalten einen Unterschied in p, aber es ist unklar, was dieser Unterschied bedeutet (ist es groß, klein, signifikant?)

Vielleicht Bootstrapping verwenden:

Wählen Sie (mit Ersetzung) aus Ihren Daten, wiederholen Sie Ihre Tests, berechnen Sie die Differenz der ps (p_a - p_b) und wiederholen Sie diese 100-200 Mal

Überprüfen Sie, welcher Bruchteil Ihrer Delta-Ps <0 ist (was bedeutet, dass p von A unter p von B liegt).

Hinweis: Ich habe dies gesehen, bin aber kein Experte.

martin
quelle
1
Diese Antwort beschreibt einen Weg, um p-Werte zu vergleichen , aber die ursprüngliche Frage scheint unbeantwortet zu bleiben: Ergibt das Verfahren irgendeinen Sinn und wie interpretiert man die Ergebnisse?
whuber
-1

Es wurde eine Antwort hinzugefügt, da es für einen Kommentar zu lang war!

Michelle hat eine gute Antwort, aber die vielen Kommentare zeigen einige häufige Diskussionen über p-Werte. Die Grundideen sind die folgenden:

1) Ein kleinerer p-Wert bedeutet nicht, dass ein Ergebnis mehr oder weniger signifikant ist. Es bedeutet nur, dass die Chancen, ein mindestens so extremes Ergebnis zu erzielen, geringer sind. Die Signifikanz ist ein binäres Ergebnis, das auf dem von Ihnen gewählten Signifikanzniveau basiert (das Sie auswählen, bevor Sie den Test ausführen).

2) Die Effektgröße (oft standardisiert auf die Anzahl der Standardabweichungen) ist ein guter Weg, um zu quantifizieren, "wie unterschiedlich" zwei Zahlen sind. Wenn also die Menge A eine Effektgröße von 0,8 Standardabweichungen und die Menge B eine Effektgröße von 0,5 Standardabweichungen hat, würde man sagen, dass es einen größeren Unterschied zwischen den beiden Gruppen bei der Menge A als bei der Menge B gibt :

.2 Standardabweichungen = "kleiner" Effekt

.5 Standardabweichungen = "mittlerer" Effekt

.8 Standardabweichungen = "großer" Effekt

Duncan
quelle
1
Bei fester Stichprobengröße ist der p-Wert jedoch direkt monoton von der Effektgröße abhängig!
Amöbe sagt Reinstate Monica