Kleine und unausgeglichene Stichprobengrößen für zwei Gruppen - was tun?

10

Ich habe Daten für zwei Gruppen (dh Stichproben), die ich vergleichen möchte, aber die Gesamtstichprobengröße ist klein (n = 29) und stark unausgeglichen (n = 22 gegenüber n = 7).

Diese Daten sind logistisch schwierig und teuer zu erfassen. Daher ist es in diesem Fall nicht hilfreich, mehr Daten als offensichtliche Lösung zu erfassen.

Es wurden verschiedene Variablen gemessen (Abflugdatum, Ankunftsdatum, Migrationsdauer usw.), sodass mehrere Tests durchgeführt wurden, von denen einige sehr unterschiedlich sind (die kleinere Stichprobe weist eine höhere Varianz auf).

Anfänglich führte ein Kollege t-Tests mit diesen Daten durch, und einige waren statistisch signifikant mit P <0,001, ein anderer war mit P = 0,069 nicht signifikant. Einige Proben waren normal verteilt, andere nicht. Einige Tests umfassten große Abweichungen von "gleichen" Abweichungen.

Ich habe mehrere Fragen:

  1. Sind hier T-Tests angebracht? Wenn nicht, warum? Gilt dies nur für Tests, bei denen die Annahmen von Normalität und Varianzgleichheit erfüllt sind?
  2. Was ist eine geeignete Alternative? Vielleicht ein Permutationstest?
  3. Eine ungleiche Varianz erhöht den Fehler vom Typ I, aber wie? und wie wirkt sich die kleine, unausgeglichene Stichprobengröße auf den Typ I-Fehler aus?
DeanP
quelle

Antworten:

10

T-Tests, die gleiche Varianzen der beiden Populationen annehmen, sind nicht gültig, wenn die beiden Populationen unterschiedliche Varianzen aufweisen, und es ist schlimmer für ungleiche Stichprobengrößen. Wenn die kleinste Stichprobengröße die mit der höchsten Varianz ist, hat der Test einen überhöhten Fehler vom Typ I). Die Welch-Satterthwaite-Version des t-Tests geht dagegen nicht von gleichen Varianzen aus. Wenn Sie an den Fisher-Pitman-Permutationstest denken, geht er ebenfalls von gleichen Varianzen aus (wenn Sie aus einem niedrigen p-Wert ungleiche Mittelwerte ableiten möchten).

Es gibt eine Reihe anderer Dinge, über die Sie nachdenken sollten:

(1) Wenn die Abweichungen eindeutig ungleich sind, sind Sie immer noch so interessiert an einem Unterschied zwischen den Mitteln?

(2) Könnten Effektschätzungen für Sie von größerem Nutzen sein als p-Werte?

(3) Möchten Sie die multivariate Natur Ihrer Daten berücksichtigen, anstatt nur eine Reihe von univariaten Vergleichen durchzuführen?

Scortchi - Monica wieder einsetzen
quelle
Hallo Scortchi, danke für deine Antwort. Ich habe die Fragen berücksichtigt, die Sie gestellt haben:
DeanP
2
(1) Sowohl die Varianz als auch der Mittelwert können für unsere Studie aussagekräftig sein (z. B. können die Abreisedaten für eine Population erheblich später sein UND der Bereich der Abreisedaten ist variabler).
DeanP
3
(1) Ich habe es gerade erwähnt, weil die Leute ungleiche Abweichungen oft nur als technisches Problem betrachten und vergessen, dass es eine interessante Tatsache für sich ist.
Scortchi - Monica wieder einsetzen
2
(2) Mein Punkt war mehr, dass eine Liste von p-Werten im Allgemeinen weniger nützlich ist als eine Liste von Effektgrößenschätzungen (die Mittelwerte, Mediane, Varianzen oder was auch immer sein können) mit Konfidenzintervallen. Insbesondere bei kleinen Stichproben können Konfidenzintervalle zeigen, ob Effektgrößen von praktischer Bedeutung auch bei hohem p-Wert noch mit den Daten übereinstimmen.
Scortchi - Monica wieder einsetzen
2
(3) Ich dachte an eine unabhängige Variable (Gruppe) und mehrere abhängige Variablen (Migrationszeit usw.): Ein interessanter Unterschied zwischen Gruppen könnte eine Änderung der Beziehung zwischen abhängigen Variablen sein. Ein erster Schritt wäre eine schöne Matrix mit Boxplots oder Dotplots, die jeden dv zwischen Gruppen entlang der Diagonale vergleichen, und Streudiagrammen für jedes Paar von dvs (wiederum unterscheidende Gruppen) in den anderen Zellen. Und um ehrlich zu sein, könnte dies für eine explorative Analyse mit kleinen Stichprobengrößen der letzte Schritt sein.
Scortchi - Monica wieder einsetzen
1

Erstens ist der T-Test, wie Scortchi bereits betont, aufgrund seiner Annahmen zur Verteilung der Daten nicht so gut für Ihre Daten geeignet.

Zu Ihrem zweiten Punkt würde ich eine Alternative zum T-Test vorschlagen. Wenn Ihr Interesse nur an der Tatsache liegt, ob die Verteilungen Ihrer beiden Stichproben gleich sind oder nicht, können Sie auch versuchen, die zweiseitige Version des Wilcoxon-Rang-Summen-Tests zu verwenden. Der Wilcoxon-Rang-Summen-Test ist ein nicht parametrischer Test. Diese Art von Test ist besonders hilfreich, wenn Sie sich über die zugrunde liegende Verteilung Ihrer Daten nicht sicher sind.

Es gibt eine exakte Lösung des Tests für kleine Stichprobengrößen sowie für große Kohorten. Darüber hinaus gibt es auch ein R-Paket, das den Wilcoxon-Rang-Summen-Test realisiert.

Da es sich um einen parameterfreien Test handelt und auch kleine Stichprobengrößen handhabt, sollte der Test für Ihren Testfall gut geeignet sein.

Alex VII
quelle