Sollte ich mich darum kümmern, dass die T-Test-Leistung relativ gering ist, wenn H0 bereits abgelehnt wird?

8

Ich habe zwei ziemlich kleine Stichproben (jeweils ) und erhalte für sie eine T-Test-Leistung von zwei Stichproben von 0,49, was relativ klein ist (berechnet durch R ). Der Welch Two Sample t-Test ergibt hier jedoch einen p-Wert von , so dass die Nullhypothese verworfen werden kann.n=7power.t.test()0.032

Sollte ich mich jetzt darum kümmern, dass die Leistung gering ist?

Mein Verständnis ist, dass power = wobei die Wahrscheinlichkeit eines Fehlers vom Typ II ist. Hier bedeutet dies, dass mein Test H0 in etwa 50% der Fälle, in denen er abgelehnt werden sollte, nicht ablehnen würde. Daher sollte ich mir Sorgen machen, insbesondere wenn meine speziellen Proben H0 nicht ablehnen konnten. Aber bei meinen speziellen Samples scheint es mir ein Glück zu sein, und mein etwas leistungsschwacher T-Test konnte abgelehnt werden. Ich muss mich also nicht um die Beta kümmern und kann es genießen, einen signifikanten Unterschied in der Probe zu zeigen meint.β1ββ

Ist meine Interpretation korrekt? Oder vermisse ich etwas Wichtiges?

jrx1301
quelle
2
Die Leistung sollten Sie berechnen, bevor Sie ein Experiment entwerfen, um die Skala des Experiments auszuwählen, die zum Erkennen eines Unterschieds einer bestimmten Größe erforderlich ist. Es hilft nicht viel, es danach zu berechnen.
EdM
Sie lehnen aus einem von zwei Gründen ab; Ihre Null ist falsch oder Sie haben einen Fehler vom Typ I gemacht. Wenn die Null eine Chance hat, tatsächlich wahr zu sein, ist die Wahrscheinlichkeit, dass Sie tatsächlich einen Fehler vom Typ I gemacht haben, umso höher, je geringer Ihre Leistung ist. Wenn Sie jedoch die Leistung basierend auf der beobachteten Effektgröße berechnen , achten Sie darauf, dass Sie sehr vorsichtig damit arbeiten müssen. es verhält sich nicht so, wie Sie es vielleicht erwarten.
Glen_b -State Monica

Antworten:

5

Im engeren Sinne sind Sie richtig. Macht ist die Chance, eine falsche Nullhypothese korrekt abzulehnen. Sie hatten also eine kleine Chance, konnten dies aber trotzdem tun.

Aus der Perspektive der Bayes'schen Glaubensaktualisierung bedeutet "eine Verringerung der Macht eine Verringerung der Glaubensverschiebung, die durch die Beobachtung eines statistisch signifikanten Ergebnisses gerechtfertigt ist (McClelland et al. 2015)." Stellen Sie sich das so vor: Wenn ich Ihnen sagen würde, dass ich 30.000 Menschen aus der Öffentlichkeit befragt habe und festgestellt habe, dass die Leute Pepsi im Gegensatz zu den Verkaufszahlen eher mögen als Cola, wäre das sehr überzeugend. Ich fand ein Ergebnis, nachdem ich 1% der Bevölkerung (dh die US-amerikanische Öffentlichkeit) untersucht hatte. Es ist wahrscheinlich, auf die größere Bevölkerung zu verallgemeinern. Wenn ich 7 Personen befragen und dasselbe finden würde, selbst wenn es statistisch signifikant wäre, würde ich niemanden überzeugen. Sie können viele Gründe dafür argumentieren (Sie können keine repräsentative Stichprobe erhalten, ANOVA- / Regressionsannahmen werden möglicherweise nicht erfüllt usw.), aber was? s wichtig ist, dass hohe Leistung sehr überzeugend bedeutet (und Sie sollten genauso kritisch oder mehr von Ihren Ergebnissen sein als diejenigen, die Sie zu überzeugen versuchen). Für die Bayes'sche Mathematik sowie weitere Erklärungen können Sie eine der folgenden Möglichkeiten prüfen.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Außerdem liefert Ioannidis (2005) einige überzeugende Argumente für Ergebnisse mit geringem Stromverbrauch, die Fehler vom Typ I widerspiegeln, selbst wenn kein P-Hacking und andere Verzerrungen auftreten, die häufig auf geringen Stromverbrauch zurückzuführen sind (und das Papier ist offen zugänglich, falls Sie nicht dafür arbeiten eine Universität oder ähnliches!).

le_andrew
quelle
Vielen Dank für Ihre Antwort! Ich werde auf jeden Fall McClelland und Ioannidis überprüfen (ich weiß, dass dies eine sehr beliebte Zeitung ist). Ihr Beispiel mit der Pepsi-Coke-Umfrage ist auf jeden Fall sinnvoll, daher versuche ich nur, eine Parallele zu meiner Situation zu ziehen: Meine Stichproben beziehen sich auf die Anzahl der Rückfälle von Schizophreniepatienten in einer bestimmten beobachteten Population über 7 Jahre in zwei verglichenen Monaten ( zB Januar gegen Juli). Es gibt also keine Möglichkeit, das Versuchsprotokoll zu verbessern, beispielsweise mehr Menschen anzusprechen. Ich habe mich nur gefragt, ob ich aus den Daten, die ich bereits habe, bereits etwas sagen kann.
jrx1301
1
Das kannst du definitiv. Das Problem liegt in der Interpretation, nicht in der Statistik. Einige Leute würden Ihr Ergebnis nehmen und daraus schließen: "Ich habe Schizophrenie gelöst!" oder weniger dramatisch "Ich habe ein signifikantes Ergebnis, daher ist meine Theorie wahr und gilt für alle!" Sie haben wahrscheinlich Beweise, die eine Theorie stützen, aber wie verallgemeinerbar sie ist, kann in Frage gestellt werden. Betrachten Sie Dinge wie die tatsächliche Population, aus der Sie eine Stichprobe erstellt haben, dh Sie haben nicht tatsächlich eine Stichprobe aus der Population von "Schizophrenie-Patienten", sondern aus einer kleineren Teilpopulation gezogen. Die Verallgemeinerung auf das größere Pop'n erfordert extra-statistische Argumente.
Le_andrew
Wenn Sie n = 30.000 Personen befragt haben, aber nur p = 0,032 (wie im OP) für den Unterschied zwischen Pepsi und Cola erhalten haben, sehe ich nicht, warum dies überzeugender ist, als mit nur einer Handvoll Personen den gleichen p-Wert zu erhalten. Jede bedeutungsvolle Effektgröße mit n = 30.000 sollte einen winzigen p-Wert ergeben, daher schlägt p = 0,032 eine mikroskopische Effektgröße vor, der ich meiner Meinung nach nicht besonders vertrauen würde.
Amöbe
Sie geben an, dass Macht die Chance ist, eine falsche Nullhypothese korrekt abzulehnen. Dies ist richtig. und du machst weiter '' ... also hattest du eine kleine Chance, konntest es aber trotzdem '' und für letztere habe ich Zweifel, weil der Teil '' falsche Nullhypothese '' fehlt. Potenz ist die Wahrscheinlichkeit, abzulehnen, wenn falsch ist, und der zweite Teil Ihrer Aussage bezieht sich nur auf die Ablehnung von . H 0 H 0H0H0H0
2

Dies hängt davon ab, wie die Leistungsanalyse durchgeführt wurde. Im Allgemeinen gibt es eine Beziehung zwischen vier Variablen (Alpha, Potenz, Effektgröße und ), sodass Sie, wenn Sie drei festlegen, die vierte lösen können. N

Wenn Personen nach der Analyse ihrer Daten eine Leistungsanalyse durchführen, führen sie normalerweise eine Post-hoc- Leistungsanalyse durch (daher der Name). Dies bedeutet, dass sie ihren Wert für Alpha, ihre beobachtete Effektgröße und ihr , um nach Leistung zu suchen . Sie müssen es sicherlich nicht so machen (Sie könnten es vorher mit einer theoretisch vorgeschlagenen Effektgröße machen und das Sie wissen, dass es Ihnen zur Verfügung steht), aber wenn Sie dies tun, sind die Ergebnisse weitgehend weggelassen. Insbesondere wenn Ihr Ergebnis signifikant war, beträgt die Leistung , und wenn Ihr Ergebnis nicht signifikant war, beträgt die Leistung . N > 50 % < 50 %NN>50%<50%

Das scheint nicht ganz das zu sein, was du gefunden hast. Eine Möglichkeit besteht darin, dass es eine subtile Diskrepanz zwischen den in Ihrem Test verwendeten Methoden und denen in der Leistungsanalyse gibt. Dies wird durch die Tatsache nahegelegt, dass Ihr beobachteter Wert nahe bei und Ihre berechnete Leistung nahe bei , obwohl sie sich auf verschiedenen Seiten der Linie befinden. Eine andere Möglichkeit besteht darin, dass Sie eine etwas andere Effektgröße als die gefundene verwendet haben. 0,05 50 %p.0550%

Also, "sollte es dich stören, dass die Kraft klein ist?" Ja und nein. Wenn Sie eine traditionelle (ungültige) Post-hoc-Leistungsanalyse durchgeführt haben, würden Sie notwendigerweise solche Werte erhalten - die Übung war völlig uninformativ. Wenn wir andererseits die Leistungsanalyse ernst nehmen, bedeutet ein signifikanter Effekt bei einem Setup mit geringer Leistung im Grunde, dass Ihr beobachteter Effekt voreingenommen sein muss, um größer zu sein als er tatsächlich ist. Daher sollten Sie den Ergebnissen weniger vertrauen.

gung - Monica wieder einsetzen
quelle
Guter Eintrag! Falls Sie es nicht wissen. Es gibt einen Follow-up-Beitrag zu einer Ihrer vorherigen Antworten hier stats.stackexchange.com/questions/309745/…
Ein bisschen zu neugierig
-1

ppαpαP(pα|H0)αβP(p>α|H1)β1β

H0H1

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

Weitere Informationen finden Sie in den Konfidenzintervallen (CI). Man kann argumentieren, dass eine größere Stichprobe den CI enger macht und daher, wenn der Test für eine kleinere Stichprobe signifikant war, er auch für die größere Stichprobe signifikant ist. Allerdings kann sich auch der Standort des CI verschieben, wenn wir mehr Daten in unsere Stichprobe aufnehmen, wodurch das Ergebnis möglicherweise nicht signifikant wird. Es ist auch denkbar, dass die größere Stichprobe einen viel größeren Standardfehler aufweist und somit der CI tatsächlich breiter wird. Man könnte sagen, dass eine größere Stichprobe den Fakten mehr Gelegenheit gibt, sich zu beweisen.

p

[1] Colquhoun, "Eine Untersuchung der Rate falscher Entdeckungen und der Fehlinterpretation von p-Werten", Royal Society Open Science, 2014

[2] Colquhoun, "Die Reproduzierbarkeit von Forschung und die Fehlinterpretation von P-Werten", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

p<.005

p

Lasse Kliemann
quelle