Ich erhielt einen Artikel über eine Studie, die einer sehr ähnlich ist, die mein Labor durchführen möchte. Ich habe jedoch festgestellt, dass für die interessierende Variable Duration die SDs größer als der Mittelwert sind. Da dies die in Minuten gemessene Dauer ist, kann sie niemals negativ sein, und dies scheint mir sehr seltsam. Dies geschah in 2 Studien, von denen unten eine ist.
Darüber hinaus ist dies ein gemischtes Design. Kontrolle v Behandlung (zwischen Gruppen) und Zeit1, Zeit2, Zeit3 (Wiederholungsmessungen). Hier sind die Mittelwerte (SDs), N> 200
Time1 Time2 Time3
Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7)
Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9)
... sie führten eine ANOVA durch und meldeten einen p <0,001.
Ich wurde gebeten, dies als Grundlage für eine Leistungsanalyse zu verwenden, um die Stichprobengröße für unsere Studie zu bestimmen. Ich bin mir ziemlich sicher, dass dies darauf hinweist, dass die Daten nicht normal sind oder Ausreißer aufweisen, und ich fühle mich nicht wohl dabei, die Stichprobengröße basierend darauf zu bestimmen. Bin ich gerade weit weg von der Basis?
quelle
Antworten:
Es ist leicht möglich, dass die Standardabweichung bei nicht negativen oder streng positiven Daten den Mittelwert überschreitet
Ich würde den Fall für Ihre Daten als die Standardabweichung beschreiben, die nahe am Mittelwert liegt (nicht jeder Wert ist größer und diejenigen, die größer sind, sind im Allgemeinen nahe). Bei nicht negativen Daten zeigt dies ziemlich deutlich an, dass die Daten schief sind (zum Beispiel wäre die Gammaverteilung mit dem Variationskoeffizienten = 1 die Exponentialverteilung. Wenn die Daten also Gamma wären, würden sie irgendwo in der Nähe der Exponentialverteilung aussehen).
Bei dieser Art von Stichprobengröße ist die ANOVA davon jedoch möglicherweise nicht besonders stark betroffen. Die Unsicherheit bei der Schätzung der gepoolten Varianz wird ziemlich gering sein, daher können wir davon ausgehen, dass zwischen der CLT (für die Mittelwerte) und dem Slutsky-Theorem (für die Varianzschätzung auf dem Nenner) eine ANOVA wahrscheinlich recht gut funktioniert, da Sie Ich habe ein asymptotisches Chi-Quadrat, für das die ANOVA-F mit ihren großen Nenner-Freiheitsgraden eine gute Annäherung darstellt. (dh es sollte eine angemessene Robustheit aufweisen, und da die Mittel nicht so weit von der Konstante entfernt sind, sollte die Leistung durch die Heteroskedastizität nicht zu stark beeinträchtigt werden.)
Wenn Ihre Studie jedoch eine kleinere Stichprobengröße aufweist, ist es möglicherweise besser, einen anderen Test zu verwenden (möglicherweise einen Permutationstest oder einen Test, der für verzerrte Daten geeignet ist, möglicherweise einen, der auf einem GLM basiert). Die Änderung des Tests erfordert möglicherweise eine etwas größere Stichprobe als bei einer direkten ANOVA.
Mit den Originaldaten können Sie eine Leistungsanalyse unter einem geeigneten Modell / einer geeigneten Analyse durchführen. Selbst wenn die Originaldaten fehlen, könnte man plausibelere Annahmen über die Verteilung (möglicherweise eine Vielzahl von ihnen) treffen und die gesamte Leistungskurve (oder einfacher nur die Fehlerrate vom Typ I und die Leistung bei jeder Effektgröße) untersuchen ist von Interesse). Es könnten verschiedene vernünftige Annahmen verwendet werden, die eine Vorstellung davon geben, welche Leistung unter plausiblen Umständen erreicht werden kann und wie viel größer die Stichprobengröße sein muss.
quelle
Sie kommen zu Recht zu dem Schluss, dass die Daten nicht normal sind. Wenn die Daten normal wären, würden wir erwarten, dass etwa 16% der Beobachtungen unter dem Mittelwert abzüglich der Standardabweichung liegen. Bei einer SD, die größer als der Mittelwert ist, ist diese Zahl negativ und Sie geben an, dass es keine negativen Zahlen geben kann. Was Sie also sehen, stimmt nicht mit normalverteilten Daten überein. Die SD-Werte sind möglich, jedoch nur, wenn die Verteilung sehr recht schief ist (was bei Dauern üblich ist).
Ich bin damit einverstanden, dass die Auswahl einer Stichprobengröße basierend auf der Annahme, dass Daten normal sind, keine gute Idee ist. Wenn Sie jedoch mehr über den Prozess erfahren und eine richtig verzerrte Verteilung (eine Gammaverteilung als eine Möglichkeit) finden können, ist dies eine vernünftige Annahme. Dann können Sie damit die Stichprobengröße bestimmen.
quelle