SD größer als die mittlere, nicht negative Skala

9

Ich erhielt einen Artikel über eine Studie, die einer sehr ähnlich ist, die mein Labor durchführen möchte. Ich habe jedoch festgestellt, dass für die interessierende Variable Duration die SDs größer als der Mittelwert sind. Da dies die in Minuten gemessene Dauer ist, kann sie niemals negativ sein, und dies scheint mir sehr seltsam. Dies geschah in 2 Studien, von denen unten eine ist.

Darüber hinaus ist dies ein gemischtes Design. Kontrolle v Behandlung (zwischen Gruppen) und Zeit1, Zeit2, Zeit3 (Wiederholungsmessungen). Hier sind die Mittelwerte (SDs), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... sie führten eine ANOVA durch und meldeten einen p <0,001.

Ich wurde gebeten, dies als Grundlage für eine Leistungsanalyse zu verwenden, um die Stichprobengröße für unsere Studie zu bestimmen. Ich bin mir ziemlich sicher, dass dies darauf hinweist, dass die Daten nicht normal sind oder Ausreißer aufweisen, und ich fühle mich nicht wohl dabei, die Stichprobengröße basierend darauf zu bestimmen. Bin ich gerade weit weg von der Basis?

Neugierig
quelle
Sind Sie sicher, dass dies SD und keine 95% -Konfidenzintervalle sind, die eher 3 * SD entsprechen könnten? Es sieht so aus, als ob diese SD ungefähr so ​​groß sind wie die Mittel. Es ist wirklich schwer zu sagen, wie groß die Stichprobe ist, da wir nicht wissen, welche Effekte in diesen Fehlern enthalten waren oder wie die Statistik aussieht. Wenn nur Statistiken gezählt würden, dh die Poisson-Verteilung, sollte der Mittelwert über der SD 1 / Sqrt (N) betragen. Dies würde jedoch N = 1 (oder höchstens einige) bedeuten. Können Sie uns weitere Informationen zu diesen Statistiken geben?
Dave31415
Außerdem hat die Normalverteilung einen Mittelwert und eine SD, die völlig unabhängig voneinander sind. Ich denke, vielleicht meinten Sie die Poisson-Verteilung.
Dave31415
2
Bei nicht negativen Dauern würde ich normalerweise eine verzerrte Verteilung erwarten. Mit dem Mittelwert vergleichbare SDs sind durchaus möglich und keineswegs überraschend. Welche Verteilung für andere Berechnungen am besten angenommen wird, kann ohne weitere Informationen nicht angegeben werden, aber ich würde Poisson nicht als meine erste Vermutung wählen, sondern Gamma oder Lognormal.
Nick Cox
Wie @NickCox feststellt, wäre ich mit Dauer überrascht, wenn die SD nicht größer als der Mittelwert wäre (wenn es keine Zensur gäbe). Sie können auch die Weibull-Verteilung berücksichtigen. Die Leistungsanalyse muss wahrscheinlich simulationsbasiert sein. In einem anderen Sinne würde ich vermuten, dass eine ANOVA mit solchen Daten ungültig war.
Gung - Reinstate Monica
1
nÖ(n)0

Antworten:

5

Es ist leicht möglich, dass die Standardabweichung bei nicht negativen oder streng positiven Daten den Mittelwert überschreitet

Ich würde den Fall für Ihre Daten als die Standardabweichung beschreiben, die nahe am Mittelwert liegt (nicht jeder Wert ist größer und diejenigen, die größer sind, sind im Allgemeinen nahe). Bei nicht negativen Daten zeigt dies ziemlich deutlich an, dass die Daten schief sind (zum Beispiel wäre die Gammaverteilung mit dem Variationskoeffizienten = 1 die Exponentialverteilung. Wenn die Daten also Gamma wären, würden sie irgendwo in der Nähe der Exponentialverteilung aussehen).

Bei dieser Art von Stichprobengröße ist die ANOVA davon jedoch möglicherweise nicht besonders stark betroffen. Die Unsicherheit bei der Schätzung der gepoolten Varianz wird ziemlich gering sein, daher können wir davon ausgehen, dass zwischen der CLT (für die Mittelwerte) und dem Slutsky-Theorem (für die Varianzschätzung auf dem Nenner) eine ANOVA wahrscheinlich recht gut funktioniert, da Sie Ich habe ein asymptotisches Chi-Quadrat, für das die ANOVA-F mit ihren großen Nenner-Freiheitsgraden eine gute Annäherung darstellt. (dh es sollte eine angemessene Robustheit aufweisen, und da die Mittel nicht so weit von der Konstante entfernt sind, sollte die Leistung durch die Heteroskedastizität nicht zu stark beeinträchtigt werden.)

Wenn Ihre Studie jedoch eine kleinere Stichprobengröße aufweist, ist es möglicherweise besser, einen anderen Test zu verwenden (möglicherweise einen Permutationstest oder einen Test, der für verzerrte Daten geeignet ist, möglicherweise einen, der auf einem GLM basiert). Die Änderung des Tests erfordert möglicherweise eine etwas größere Stichprobe als bei einer direkten ANOVA.

Mit den Originaldaten können Sie eine Leistungsanalyse unter einem geeigneten Modell / einer geeigneten Analyse durchführen. Selbst wenn die Originaldaten fehlen, könnte man plausibelere Annahmen über die Verteilung (möglicherweise eine Vielzahl von ihnen) treffen und die gesamte Leistungskurve (oder einfacher nur die Fehlerrate vom Typ I und die Leistung bei jeder Effektgröße) untersuchen ist von Interesse). Es könnten verschiedene vernünftige Annahmen verwendet werden, die eine Vorstellung davon geben, welche Leistung unter plausiblen Umständen erreicht werden kann und wie viel größer die Stichprobengröße sein muss.

Glen_b - Monica neu starten
quelle
4

Sie kommen zu Recht zu dem Schluss, dass die Daten nicht normal sind. Wenn die Daten normal wären, würden wir erwarten, dass etwa 16% der Beobachtungen unter dem Mittelwert abzüglich der Standardabweichung liegen. Bei einer SD, die größer als der Mittelwert ist, ist diese Zahl negativ und Sie geben an, dass es keine negativen Zahlen geben kann. Was Sie also sehen, stimmt nicht mit normalverteilten Daten überein. Die SD-Werte sind möglich, jedoch nur, wenn die Verteilung sehr recht schief ist (was bei Dauern üblich ist).

Ich bin damit einverstanden, dass die Auswahl einer Stichprobengröße basierend auf der Annahme, dass Daten normal sind, keine gute Idee ist. Wenn Sie jedoch mehr über den Prozess erfahren und eine richtig verzerrte Verteilung (eine Gammaverteilung als eine Möglichkeit) finden können, ist dies eine vernünftige Annahme. Dann können Sie damit die Stichprobengröße bestimmen.

Greg Snow
quelle