Ich habe zwei ziemlich kleine Stichproben (jeweils ) und erhalte für sie eine T-Test-Leistung von zwei Stichproben von 0,49, was relativ klein ist (berechnet durch R ). Der Welch Two Sample t-Test ergibt hier jedoch einen p-Wert von , so dass die Nullhypothese verworfen werden kann.power.t.test()
Sollte ich mich jetzt darum kümmern, dass die Leistung gering ist?
Mein Verständnis ist, dass power = wobei die Wahrscheinlichkeit eines Fehlers vom Typ II ist. Hier bedeutet dies, dass mein Test H0 in etwa 50% der Fälle, in denen er abgelehnt werden sollte, nicht ablehnen würde. Daher sollte ich mir Sorgen machen, insbesondere wenn meine speziellen Proben H0 nicht ablehnen konnten. Aber bei meinen speziellen Samples scheint es mir ein Glück zu sein, und mein etwas leistungsschwacher T-Test konnte abgelehnt werden. Ich muss mich also nicht um die Beta kümmern und kann es genießen, einen signifikanten Unterschied in der Probe zu zeigen meint.β
Ist meine Interpretation korrekt? Oder vermisse ich etwas Wichtiges?
Antworten:
Im engeren Sinne sind Sie richtig. Macht ist die Chance, eine falsche Nullhypothese korrekt abzulehnen. Sie hatten also eine kleine Chance, konnten dies aber trotzdem tun.
Aus der Perspektive der Bayes'schen Glaubensaktualisierung bedeutet "eine Verringerung der Macht eine Verringerung der Glaubensverschiebung, die durch die Beobachtung eines statistisch signifikanten Ergebnisses gerechtfertigt ist (McClelland et al. 2015)." Stellen Sie sich das so vor: Wenn ich Ihnen sagen würde, dass ich 30.000 Menschen aus der Öffentlichkeit befragt habe und festgestellt habe, dass die Leute Pepsi im Gegensatz zu den Verkaufszahlen eher mögen als Cola, wäre das sehr überzeugend. Ich fand ein Ergebnis, nachdem ich 1% der Bevölkerung (dh die US-amerikanische Öffentlichkeit) untersucht hatte. Es ist wahrscheinlich, auf die größere Bevölkerung zu verallgemeinern. Wenn ich 7 Personen befragen und dasselbe finden würde, selbst wenn es statistisch signifikant wäre, würde ich niemanden überzeugen. Sie können viele Gründe dafür argumentieren (Sie können keine repräsentative Stichprobe erhalten, ANOVA- / Regressionsannahmen werden möglicherweise nicht erfüllt usw.), aber was? s wichtig ist, dass hohe Leistung sehr überzeugend bedeutet (und Sie sollten genauso kritisch oder mehr von Ihren Ergebnissen sein als diejenigen, die Sie zu überzeugen versuchen). Für die Bayes'sche Mathematik sowie weitere Erklärungen können Sie eine der folgenden Möglichkeiten prüfen.
Außerdem liefert Ioannidis (2005) einige überzeugende Argumente für Ergebnisse mit geringem Stromverbrauch, die Fehler vom Typ I widerspiegeln, selbst wenn kein P-Hacking und andere Verzerrungen auftreten, die häufig auf geringen Stromverbrauch zurückzuführen sind (und das Papier ist offen zugänglich, falls Sie nicht dafür arbeiten eine Universität oder ähnliches!).
quelle
Dies hängt davon ab, wie die Leistungsanalyse durchgeführt wurde. Im Allgemeinen gibt es eine Beziehung zwischen vier Variablen (Alpha, Potenz, Effektgröße und ), sodass Sie, wenn Sie drei festlegen, die vierte lösen können.N
Wenn Personen nach der Analyse ihrer Daten eine Leistungsanalyse durchführen, führen sie normalerweise eine Post-hoc- Leistungsanalyse durch (daher der Name). Dies bedeutet, dass sie ihren Wert für Alpha, ihre beobachtete Effektgröße und ihr , um nach Leistung zu suchen . Sie müssen es sicherlich nicht so machen (Sie könnten es vorher mit einer theoretisch vorgeschlagenen Effektgröße machen und das Sie wissen, dass es Ihnen zur Verfügung steht), aber wenn Sie dies tun, sind die Ergebnisse weitgehend weggelassen. Insbesondere wenn Ihr Ergebnis signifikant war, beträgt die Leistung , und wenn Ihr Ergebnis nicht signifikant war, beträgt die Leistung . N > 50 % < 50 %N N >50% <50%
Das scheint nicht ganz das zu sein, was du gefunden hast. Eine Möglichkeit besteht darin, dass es eine subtile Diskrepanz zwischen den in Ihrem Test verwendeten Methoden und denen in der Leistungsanalyse gibt. Dies wird durch die Tatsache nahegelegt, dass Ihr beobachteter Wert nahe bei und Ihre berechnete Leistung nahe bei , obwohl sie sich auf verschiedenen Seiten der Linie befinden. Eine andere Möglichkeit besteht darin, dass Sie eine etwas andere Effektgröße als die gefundene verwendet haben. 0,05 50 %p .05 50%
Also, "sollte es dich stören, dass die Kraft klein ist?" Ja und nein. Wenn Sie eine traditionelle (ungültige) Post-hoc-Leistungsanalyse durchgeführt haben, würden Sie notwendigerweise solche Werte erhalten - die Übung war völlig uninformativ. Wenn wir andererseits die Leistungsanalyse ernst nehmen, bedeutet ein signifikanter Effekt bei einem Setup mit geringer Leistung im Grunde, dass Ihr beobachteter Effekt voreingenommen sein muss, um größer zu sein als er tatsächlich ist. Daher sollten Sie den Ergebnissen weniger vertrauen.
quelle
Weitere Informationen finden Sie in den Konfidenzintervallen (CI). Man kann argumentieren, dass eine größere Stichprobe den CI enger macht und daher, wenn der Test für eine kleinere Stichprobe signifikant war, er auch für die größere Stichprobe signifikant ist. Allerdings kann sich auch der Standort des CI verschieben, wenn wir mehr Daten in unsere Stichprobe aufnehmen, wodurch das Ergebnis möglicherweise nicht signifikant wird. Es ist auch denkbar, dass die größere Stichprobe einen viel größeren Standardfehler aufweist und somit der CI tatsächlich breiter wird. Man könnte sagen, dass eine größere Stichprobe den Fakten mehr Gelegenheit gibt, sich zu beweisen.
[1] Colquhoun, "Eine Untersuchung der Rate falscher Entdeckungen und der Fehlinterpretation von p-Werten", Royal Society Open Science, 2014
[2] Colquhoun, "Die Reproduzierbarkeit von Forschung und die Fehlinterpretation von P-Werten", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
quelle