Ich habe mich über Werte, Typ 1-Fehlerraten, Signifikanzniveaus, Leistungsberechnungen, Effektgrößen und die Debatte zwischen Fisher und Neyman-Pearson informiert. Das hat mich ein bisschen überwältigt. Ich entschuldige mich für die Textwand, aber ich hielt es für notwendig, einen Überblick über mein derzeitiges Verständnis dieser Konzepte zu geben, bevor ich zu meinen eigentlichen Fragen überging.
Wie ich gesehen habe, ist ein Wert lediglich ein Maß für die Überraschung, die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so extrem ist, vorausgesetzt, die Nullhypothese ist wahr. Fisher wollte ursprünglich, dass es sich um eine kontinuierliche Maßnahme handelt.
Im Neyman-Pearson-Framework wählen Sie im Voraus ein Signifikanzniveau aus und verwenden dieses als (willkürlichen) Grenzwert. Das Signifikanzniveau entspricht der Fehlerrate Typ 1. Es wird durch die Langzeitfrequenz definiert, dh wenn Sie ein Experiment 1000 Mal wiederholen und die Nullhypothese zutrifft, würden etwa 50 dieser Experimente aufgrund der Stichprobenvariabilität einen signifikanten Effekt haben. Mit der Wahl eines Signifikanzniveaus schützen wir uns mit einer gewissen Wahrscheinlichkeit vor diesen Fehlalarmen. Werte erscheinen traditionell nicht in diesem Rahmen.
Wenn wir einen Wert von 0,01 finden, bedeutet dies nicht , dass die Fehlerrate des Typs 1 0,01 beträgt, der Fehler des Typs 1 wird a priori angegeben. Ich glaube, dies ist eines der Hauptargumente in der Debatte zwischen Fisher und NP, da p- Werte häufig als 0,05 *, 0,01 **, 0,001 *** angegeben werden. Dies könnte die Leute irreführen, zu sagen, dass der Effekt bei einem bestimmten p- Wert signifikant ist, anstatt bei einem bestimmten Signifikanzwert.
Mir ist auch klar, dass der Wert eine Funktion der Stichprobengröße ist. Daher kann es nicht als absolutes Maß verwendet werden. Ein kleiner p- Wert könnte in einem großen Stichprobenexperiment auf einen kleinen, nicht relevanten Effekt hindeuten. Um dem entgegenzuwirken, ist es wichtig, eine Berechnung der Stärke / Effektgröße durchzuführen, wenn Sie die Stichprobengröße für Ihr Experiment bestimmen. P- Werte sagen uns, ob es einen Effekt gibt, nicht, wie groß er ist. Siehe Sullivan 2012 .
Meine Frage: Wie kann ich die Tatsache in Einklang bringen, dass der Wert ein Maß für Überraschung ist (kleiner = überzeugender) und gleichzeitig nicht als absolutes Maß angesehen werden kann?
Was mich verwirrt, ist Folgendes: Können wir uns auf einen kleinen Wert sicherer verlassen als auf einen großen? Im fischerischen Sinne würde ich ja sagen, wir sind eher überrascht. Im NP-Rahmen würde die Wahl eines niedrigeren Signifikanzniveaus bedeuten, dass wir uns stärker vor falschen Positiven schützen.
Andererseits hängen die Werte von der Stichprobengröße ab. Sie sind kein absolutes Maß. Daher können wir nicht einfach sagen, dass 0,001593 signifikanter als 0,0439 ist. Dies würde jedoch in Fischers Rahmen implizieren: Wir wären über einen solch extremen Wert mehr überrascht. Es wird sogar darüber diskutiert, dass der Begriff " hoch signifikant " eine falsche Bezeichnung ist: Ist es falsch, die Ergebnisse als "hoch signifikant" zu bezeichnen?
Ich habe gehört, dass Werte in einigen Bereichen der Wissenschaft nur dann als wichtig angesehen werden, wenn sie kleiner als 0,0001 sind, während in anderen Bereichen Werte um 0,01 bereits als hoch signifikant angesehen werden.
Verwandte Fragen:
Antworten:
Sind kleinere Werte "überzeugender"? Ja, natürlich sind sie.p
Im Fisher-Framework ist value eine Quantifizierung der Beweismenge gegen die Nullhypothese. Die Beweise können mehr oder weniger überzeugend sein; je kleiner der p- wert ist, desto überzeugender ist er. Beachten Sie, dass in jedem Experiment mit fester Stichprobengröße n der p- Wert monoton mit der Effektgröße zusammenhängt, wie @Scortchi in seiner Antwort (+1) deutlich hervorhebt. Kleinere p- Werte entsprechen also größeren Effektgrößen; Natürlich überzeugen sie mehr!p p n p p
Im Neyman-Pearson-Framework besteht das Ziel darin, eine binäre Entscheidung zu erhalten: Entweder sind die Beweise "signifikant" oder nicht. Durch die Wahl der Schwelle garantieren wir, dass wir nicht mehr als α falsch positive Ergebnisse erhalten. Beachten Sie, dass unterschiedliche Personen bei der Betrachtung der gleichen Daten unterschiedliche α- Werte haben können. Vielleicht würde ich, wenn ich eine Abhandlung aus einem Bereich lese, in dem ich skeptisch bin, die Ergebnisse mit z. B. p = 0,03 nicht persönlich als "signifikant" betrachten , obwohl die Autoren sie als signifikant bezeichnen. Mein persönliches α könnte auf 0,001 oder so eingestellt sein. Je niedriger der gemeldete pα α α p = 0,03 α 0,001 p -Wert, desto skeptischer Leser wird es überzeugen können! Daher sind wiederum niedrigere Werte überzeugender.p
Derzeit ist es üblich, Fisher- und Neyman-Pearson-Ansätze zu kombinieren: Wenn , werden die Ergebnisse als "signifikant" bezeichnet, und der p- Wert wird [genau oder ungefähr] angegeben und als Maß für die Überzeugungskraft verwendet (durch Markieren) mit Sternen, Ausdrücke als "hochbedeutend" usw.); wenn p > α , dann heißen die Ergebnisse "nicht signifikant" und das war's.p < α p p > α
Dies wird üblicherweise als "hybrider Ansatz" bezeichnet, und tatsächlich handelt es sich um einen hybriden Ansatz. Einige Leute argumentieren, dass dieser Hybrid inkohärent ist; Ich bin eher anderer Meinung. Warum ist es ungültig, zwei gültige Dinge gleichzeitig zu tun?
Weitere Lektüre:
Ist der "hybride" Ansatz zwischen Fisher und Neyman-Pearson für statistische Tests wirklich ein "inkohärenter Mischmasch"? - meine Frage zum "Hybrid". Es gab einige Diskussionen, aber ich bin mit keiner der Antworten zufrieden und plane, irgendwann auf diesen Thread zurückzukommen.
Ist es falsch, Ergebnisse als "hoch signifikant" zu bezeichnen? - siehe meine gestrige Antwort, die im Wesentlichen sagt: Es ist nicht falsch (aber vielleicht ein bisschen schlampig).
quelle
Ich weiß nicht, was damit gemeint ist, dass kleinere p-Werte "besser" oder wir "sicherer" sind. Aber p-Werte als Maß dafür zu betrachten, wie überrascht wir von den Daten sein sollten, erscheint uns vernünftig genug, wenn wir die Nullhypothese für richtig halten; Der p-Wert ist eine monotone Funktion der von Ihnen gewählten Teststatistikum die Diskrepanz mit der Nullhypothese in eine Richtung zu messen, an der Sie interessiert sind, und um sie in Bezug auf ihre Eigenschaften anhand eines relevanten Stichprobenverfahrens aus einer Population oder einer zufälligen Zuordnung von experimentellen Behandlungen zu kalibrieren. "Signifikanz" ist ein Fachbegriff für p-Werte, die entweder über oder unter einem bestimmten Wert liegen. Selbst diejenigen, die kein Interesse daran haben, Signifikanzniveaus zu spezifizieren und Hypothesen zu akzeptieren oder abzulehnen, tendieren daher dazu, Ausdrücke wie "hoch signifikant" - bloße Einhaltung von Konventionen - zu vermeiden.
In Bezug auf die Abhängigkeit der p-Werte von der Stichprobengröße und der Effektgröße kann es zu Verwirrung kommen, da z. B. 474 Köpfe aus 1000 Würfen für jemanden, der die Münze für fair hält, weniger überraschend sein sollten als 2 aus 10 der Stichprobenanteil weicht im ersteren Fall nur geringfügig von 50% ab - die p-Werte sind jedoch in etwa gleich. Aber wahr oder falsch lassen Sie keine Grade zu; Der p-Wert macht das, was von ihm verlangt wird: Oft sind Konfidenzintervalle für einen Parameter genau das, was beurteilt werden soll, wie genau ein Effekt gemessen wurde, und die praktische oder theoretische Bedeutung seiner geschätzten Größe.
quelle
Vielen Dank für die Kommentare und Lesevorschläge. Ich hatte noch etwas Zeit, um über dieses Problem nachzudenken, und ich glaube, ich habe es geschafft, meine Hauptverwirrungsquellen zu isolieren.
Anfangs dachte ich, es gäbe eine Zweiteilung zwischen der Betrachtung des p-Werts als Maß für die Überraschung und der Aussage, dass dies kein absolutes Maß ist. Jetzt ist mir klar, dass diese Aussagen sich nicht unbedingt widersprechen. Ersteres erlaubt es uns, mehr oder weniger sicher zu sein, dass ein beobachteter Effekt extrem ist (sogar ein Unterschied?), Verglichen mit anderen hypothetischen Ergebnissen desselben Experiments. Während letztere nur sagt, dass das, was in einem Experiment als überzeugender p-Wert angesehen werden kann, in einem anderen Experiment möglicherweise überhaupt nicht beeindruckend ist, z. B. wenn sich die Stichprobengrößen unterscheiden.
Die Tatsache, dass einige Wissenschaftsbereiche eine andere Basislinie starker p-Werte verwenden, könnte entweder eine Widerspiegelung des Unterschieds in gemeinsamen Stichprobengrößen (Astronomie, klinische, psychologische Experimente) und / oder ein Versuch sein, die Effektgröße in einem p- Wert. Letzteres ist jedoch eine inkorrekte Verschmelzung der beiden.
Die Signifikanz ist eine Ja / Nein-Frage, die auf dem Alpha basiert, das vor dem Experiment ausgewählt wurde. Ein p-Wert kann daher nicht signifikanter sein als ein anderer, da er entweder kleiner oder größer als das gewählte Signifikanzniveau ist. Andererseits wird ein kleinerer p-Wert überzeugender sein als ein größerer (für einen ähnlichen Stichprobenumfang / identisches Experiment, wie in meinem ersten Punkt erwähnt).
Konfidenzintervalle vermitteln von Natur aus die Effektgröße und sind daher eine gute Wahl, um sich vor den oben genannten Problemen zu schützen.
quelle
Der p-Wert kann kein Maß für die Überraschung sein, da er nur ein Maß für die Wahrscheinlichkeit ist, wenn die Null wahr ist. Wenn die Null wahr ist, ist jeder mögliche Wert von p gleich wahrscheinlich. Man kann sich nicht über einen p-Wert wundern, bevor man sich entscheidet, die Null abzulehnen. Sobald man sich für einen Effekt entscheidet, verschwindet die Bedeutung des p-Wertes. Man meldet es lediglich als Glied in einer relativ schwachen induktiven Kette, um die Zurückweisung der Null zu rechtfertigen oder nicht. Aber wenn es abgelehnt wurde, hat es eigentlich keine Bedeutung mehr.
quelle