Angesichts der Tatsache, dass Ihre beiden Metriken 1) binär und 2) stark schwankend sind, sollten Sie einen t-Test vermeiden, der normale Verteilungen voraussetzt.
Ich denke, Mann-Whitney U ist Ihre beste Wahl und sollte ausreichend effizient sein, auch wenn Ihre Verteilungen nahezu normal waren.
Zu Ihrer zweiten Frage:
Was passiert, wenn ein Test einen signifikanten Unterschied zwischen Kohorten und ein anderer Test einen nicht signifikanten Unterschied anzeigt?
Dies ist nicht ungewöhnlich, wenn der statistische Unterschied grenzwertig ist und die Daten "unordentliche" Stichprobenverteilungen aufweisen. In dieser Situation muss der Analyst alle Annahmen und Einschränkungen jedes statistischen Tests sorgfältig abwägen und dem statistischen Test mit der geringsten Anzahl von Verstößen gegen Annahmen das größte Gewicht verleihen.
Nehmen Sie die Normalverteilung an. Es gibt verschiedene Tests für die Normalität, aber das ist noch nicht das Ende der Geschichte. Einige Tests funktionieren bei symmetrischen Verteilungen ziemlich gut , auch wenn es Abweichungen von der Normalität gibt, aber bei Schrägverteilungen funktionieren sie nicht gut.
Als allgemeine Faustregel würde ich vorschlagen, dass Sie keinen Test durchführen, bei dem eine seiner Annahmen eindeutig verletzt wird.
BEARBEITEN: Für die zweite Variable ist es möglicherweise möglich, die Variable in eine normal verteilte (oder zumindest nahe) zu transformieren, solange die Transformation die Reihenfolge beibehält. Sie müssen sicher sein, dass die Transformation für beide Kohorten eine Normalverteilung ergibt. Wenn Sie die zweite Variable an die Protokollnormalverteilung anpassen, wird sie von einer Protokollfunktion in eine Normalverteilung umgewandelt. Wenn die Verteilung jedoch Pareto (Potenzgesetz) ist, erfolgt keine Umwandlung in eine Normalverteilung.
BEARBEITEN: Wie in diesem Kommentar vorgeschlagen , sollten Sie auf jeden Fall die Bayes'sche Schätzung als Alternative zu T-Tests und anderen Nullhypothesen-Signifikanztests (NHST) in Betracht ziehen.
Für die real bewerteten Daten möchten Sie möglicherweise auch eine eigene Teststatistik generieren, die auf einem Bootstrap Ihrer Daten basiert. Dieser Ansatz führt in der Regel zu genauen Ergebnissen, wenn Sie mit nicht normalen Populationsverteilungen arbeiten oder versuchen, ein Konfidenzintervall für einen Parameter zu entwickeln, für den keine geeignete Analyselösung verfügbar ist. (Ersteres ist in Ihrem Fall richtig. Ich erwähne Letzteres nur für den Kontext.)
Für Ihre echten Daten würden Sie Folgendes tun:
Sobald Sie diese Verteilung erhalten haben, berechnen Sie die Differenz der Mittelwerte für Ihre tatsächlichen Stichproben und berechnen Sie einen p-Wert.
quelle
Ich zweite @ MrMeritology Antwort. Eigentlich habe ich mich gefragt, ob der MWU-Test weniger leistungsfähig ist als der Test mit unabhängigen Proportionen, da die Lehrbücher, aus denen ich gelernt und die ich verwendet habe, besagten, dass der MWU nur auf ordinale (oder Intervall- / Verhältnis-) Daten angewendet werden kann.
Die unten dargestellten Simulationsergebnisse zeigen jedoch, dass der MWU-Test tatsächlich etwas leistungsfähiger ist als der Proportional-Test, während der Typ-I-Fehler gut kontrolliert wird (bei einem Bevölkerungsanteil von Gruppe 1 = 0,50).
Der Bevölkerungsanteil der Gruppe 2 wird bei 0,50 gehalten. Die Anzahl der Iterationen beträgt an jedem Punkt 10.000. Ich habe die Simulation ohne Yates Korrektur wiederholt, aber die Ergebnisse waren die gleichen.
quelle