Ungleiche Stichprobengrößen: Wann wird es beendet?

14

Ich überprüfe einen Artikel in einer akademischen Zeitschrift und die Autoren haben Folgendes geschrieben, um zu begründen, dass keine Inferenzstatistiken gemeldet wurden (ich habe die Natur der beiden Gruppen identifiziert):

Insgesamt gaben 25 der 2.349 (1,1%) Befragten an, X zu haben . Wir verzichten angemessen auf Analysen, die Gruppe X statistisch vergleichen zur Gruppe Y (den anderen 2.324 Teilnehmern) da diese Ergebnisse stark zufällig sein könnten, was zu einem so seltenen Ergebnis führen könnte.

Meine Frage ist, ob die Autoren dieser Studie berechtigt sind, im Hinblick auf Gruppenvergleiche das Handtuch zu werfen. Wenn nicht, was könnte ich ihnen empfehlen?

Aaron Duke
quelle

Antworten:

20

Bei statistischen Tests werden keine Annahmen über die Stichprobengröße getroffen. Natürlich gibt es bei verschiedenen Tests unterschiedliche Annahmen (z. B. Normalität), aber die Gleichheit der Stichprobengrößen ist keine davon. Sofern der verwendete Test nicht auf andere Weise unangemessen ist (mir fällt momentan kein Problem ein), die Fehlerrate von Typ I nicht durch drastisch ungleiche Gruppengrößen beeinflusst. Darüber hinaus impliziert ihre Formulierung (meiner Meinung nach), dass sie glauben, dass es so sein wird. Daher sind sie über diese Probleme verwirrt.

Auf der anderen Seite, Typ - II - Fehlerraten sehr viel werden von sehr ungleich betroffen s. Dies gilt unabhängig von der Art des Tests (z. B. der t- Test, der Mann-Whitney- U- Test oder der z- Test für die Gleichheit der Proportionen werden alle auf diese Weise beeinflusst). Ein Beispiel dafür finden Sie in meiner Antwort hier: Wie sollte man den Vergleich von Mitteln aus verschiedenen Stichprobengrößen interpretieren? Daher könnten sie in Bezug auf dieses Problem durchaus "berechtigt sein, das Handtuch zu werfen" . (Was ist der Sinn des Tests, wenn Sie ein nicht signifikantes Ergebnis erwarten, ob der Effekt real ist oder nicht?) ntUz

Mit abweichenden Stichprobengrößen konvergiert die statistische Leistung gegen . Diese Tatsache führt tatsächlich zu einem anderen Vorschlag, von dem ich vermute, dass nur wenige Menschen jemals etwas gehört haben und wahrscheinlich Schwierigkeiten haben würden, an Überprüfern vorbeizukommen (keine Straftat beabsichtigt): eine Analyse der Kompromissfähigkeit . Die Idee ist relativ einfach: In jeder Potenzanalyse existieren α , β , n 1 , n 2 und die Effektgröße d in Beziehung zueinander. Nachdem Sie alle bis auf einen angegeben haben, können Sie für den letzten lösen. In der Regel werden so genannte A-priori-Potenzanalysen durchgeführt , bei denen Sie nach N auflösenααβn1n2dN(Im Allgemeinen nehmen Sie ). Auf der anderen Seite können Sie n 1 , n 2 und d festlegen und nach α (oder entsprechend β ) auflösen , wenn Sie das Verhältnis der Fehlerraten von Typ I zu Typ II angeben , mit denen Sie leben möchten. Herkömmlicherweise ist α = 0,05 und β = 0,20 , Sie sagen also, dass Fehler vom Typ I viermal schlimmer sind als Fehler vom Typ I. Natürlich kann ein bestimmter Forscher damit nicht einverstanden sein, aber wenn Sie ein bestimmtes Verhältnis angegeben haben, können Sie lösen, wofür α istn1=n2n1n2dαβα=.05β=.20αSie sollten verwenden, um möglicherweise eine ausreichende Leistung aufrechtzuerhalten. Dieser Ansatz ist eine logisch gültige Option für die Forscher in dieser Situation, obwohl ich anerkenne, dass die Exotik dieses Ansatzes es in der größeren Forschungsgemeinschaft, die wahrscheinlich noch nie von so etwas gehört hat, zu einem harten Verkauf werden lässt.

gung - Wiedereinsetzung von Monica
quelle
Das ist unglaublich hilfreich. Ich fand auch Ihre Antwort auf Wie sollte man den Vergleich von Mitteln aus verschiedenen Stichprobengrößen interpretieren? nützlich für mein eigenes Verständnis dieses Problems. Nachdem ich Ihre Antwort gelesen habe, werde ich die Autoren auf die Möglichkeit einer Kompromissanalyse der Macht aufmerksam machen (es scheint sicher, dass sie damit nicht vertraut sind) und möglicherweise vorschlagen, in ihren Kommentaren in Bezug auf Bedenken hinsichtlich der Macht spezifischer zu sein.
Aaron Duke
2
Gern geschehen, @AaronD. Meiner Meinung nach sollten Sie sie auf jeden Fall ermutigen, die Formulierung mindestens zu ändern, da dies entweder irreführend ist oder impliziert, dass sie das Thema falsch verstehen. Ich würde voraussagen, dass sie nicht versuchen, die Kompromissleistung zu analysieren, sondern lediglich beschreibende Statistiken (Mittelwerte und SDs) und eine Effektgröße mit geeigneten Konfidenzintervallen angeben könnten.
gung - Wiedereinsetzung von Monica
6

Obwohl die Antwort von @gung ausgezeichnet ist, gibt es meines Erachtens ein wichtiges Problem, das berücksichtigt werden sollte, wenn wild unterschiedliche Gruppengrößen betrachtet werden. Im Allgemeinen ist der Unterschied in der Gruppengröße nicht wichtig, solange alle Anforderungen des Tests erfüllt sind.

In einigen Fällen wirkt sich die unterschiedliche Gruppengröße jedoch dramatisch auf die Robustheit des Tests gegen Verstöße gegen diese Annahme aus. Der klassische ungepaarte T-Test mit zwei Stichproben geht beispielsweise von einer Varianzhomogenität aus und ist nur dann robust gegen Verstöße, wenn beide Gruppen eine ähnliche Größe aufweisen (in der Größenordnung). Andernfalls führt eine höhere Varianz in der kleineren Gruppe zu Fehlern des Typs I. Beim t-Test ist dies kein großes Problem, da üblicherweise der Welch-t-Test verwendet wird und keine Varianzhomogenität angenommen wird. Ähnliche Effekte können jedoch in linearen Modellen auftreten.

Zusammenfassend würde ich sagen, dass dies einer statistischen Analyse in keiner Weise im Wege steht, sondern bei der Entscheidung über das weitere Vorgehen berücksichtigt werden muss.

Erik
quelle
8
Ich glaube, der springende Punkt hier ist nicht die Anwendbarkeit von Tests, sondern deren Aussagekraft und Interpretierbarkeit. Die Frage bezieht sich auf "Befragte". Dies deutet stark auf die Möglichkeit einer Nichtantwortrate ungleich Null hin. Selbst eine geringe Nichtantwortrate (ein Bruchteil von einem Prozent) in Bezug auf die Studiengröße würde eine enorme Nichtantwortrate in Bezug auf die kleine Untergruppe bedeuten. Das stellt die Repräsentativität einer so kleinen Untergruppe in Frage. Infolgedessen ist es ein großes Hindernis für jede statistische Analyse.
Whuber