Ich habe Stichproben aus einem stark verzerrten Datensatz (der wie eine Exponentialverteilung aussieht) über die Teilnahme von Benutzern (z. B. Anzahl der Beiträge), die unterschiedliche Größen haben (aber nicht weniger als 200), und ich möchte deren Mittelwert vergleichen. Dafür verwende ich ungepaarte T-Tests mit zwei Stichproben (und T-Tests mit dem Welch-Faktor, wenn die Stichproben unterschiedliche Varianzen aufwiesen). Wie ich gehört habe, spielt es bei wirklich großen Samples keine Rolle, dass die Samples nicht normalverteilt sind.
Jemand überprüfte, was ich getan habe und sagte, dass die Tests, die ich verwende, nicht für meine Daten geeignet sind. Sie schlugen vor, meine Proben vor der Verwendung der T-Tests zu protokollieren.
Ich bin ein Anfänger, daher klingt es für mich sehr verwirrend, meine Forschungsfragen mit "Log of Participation Metric" zu beantworten.
Irren sie sich Liege ich falsch? Wenn sie falsch sind, gibt es ein Buch oder eine wissenschaftliche Arbeit, die ich ihnen zeigen könnte? Welchen Test soll ich verwenden, wenn ich falsch liege?
quelle
Antworten:
Ich würde es nicht als exponentiell bezeichnen. Sein Log ist zum Beispiel deutlich nach links geneigt, und seine Momentschiefe beträgt nur 2.
a) Der Zähler der Teststatistik sollte in Ordnung sein: Sind die Daten unabhängig exponentiell mit einer gemeinsamen Skala (und nicht wesentlich schwerer als diese), werden ihre Mittelwerte mit Formparametern gleich der Anzahl der Beobachtungen gammaverteilt. Die Verteilung ist bei Formparametern über etwa 40 sehr normal (abhängig davon, wie weit Sie in den Schwanz hinein genau sein müssen).
Dies ist ein mathematischer Beweis, aber Mathematik ist keine Wissenschaft. Sie können dies natürlich empirisch durch Simulation überprüfen, aber wenn Sie sich in Bezug auf die Exponentialität irren, benötigen Sie möglicherweise größere Stichproben. So sieht die Verteilung der Stichprobensummen (und damit der Stichprobenmittelwerte) der Exponentialdaten aus, wenn n = 40 ist:
Sehr leicht schief. Diese Schiefe nimmt mit der Quadratwurzel der Stichprobengröße ab. Bei n = 160 ist es also halb so schief. Bei n = 640 ist es ein Viertel so schief:
Dass dies effektiv symmetrisch ist, können Sie erkennen, indem Sie es über den Mittelwert drehen und darüber zeichnen:
Blau ist das Original, rot ist gespiegelt. Wie Sie sehen, sind sie fast zufällig.
-
-
c) Was jedoch wirklich zählt, ist die Verteilung der gesamten Statistik unter der Null. Die Normalität des Zählers reicht nicht aus, damit die t-Statistik eine t-Verteilung hat. Im Fall von Exponentialdaten ist dies jedoch auch kein großes Problem:
Es ist jedoch zu beachten, dass für tatsächlich exponentielle Daten die Standardabweichung nur dann unterschiedlich ist, wenn die Mittelwerte unterschiedlich sind. Wenn die exponentielle Annahme der Fall ist, dann besteht unter der Null kein besonderer Grund, sich um unterschiedliche Populationsabweichungen zu sorgen, da sie nur unter der Alternative auftreten. Ein T-Test mit gleicher Varianz sollte also immer noch in Ordnung sein (in diesem Fall ist die im Histogramm angegebene gute Näherung möglicherweise sogar etwas besser).
2) Wenn Sie Protokolle führen, können Sie trotzdem einen Sinn daraus ziehen
[Wenn Sie diesen Test in den Protokollen durchführen, würde ich vorschlagen, in diesem Fall einen Test mit gleicher Varianz durchzuführen.]
Mit dem bloßen Eingreifen von vielleicht ein oder zwei Sätzen, die den Zusammenhang rechtfertigen, ähnlich dem, was ich oben habe, sollten Sie also in der Lage sein, Ihre Schlussfolgerungen nicht über das Protokoll der Beteiligungsmetrik, sondern über die Beteiligungsmetrik selbst zu schreiben.
3) Es gibt viele andere Dinge, die Sie tun können!
a) Sie können einen für Exponentialdaten geeigneten Test durchführen. Es ist einfach, einen Likelihood-Ratio-basierten Test abzuleiten. Zufälligerweise erhalten Sie für exponentielle Daten einen F-Test mit kleiner Stichprobe (basierend auf einem Verhältnis der Mittelwerte) für diese Situation in dem Fall mit einem Endpunkt. Die zweischwänzige LRT hätte im Allgemeinen bei kleinen Stichprobengrößen nicht den gleichen Anteil an jedem Schwanz. (Dies sollte eine bessere Leistung als der T-Test haben, aber die Leistung für den T-Test sollte angemessen sein, und ich würde erwarten, dass es bei Ihren Stichprobengrößen keinen großen Unterschied gibt.)
b) Sie können einen Permutationstest durchführen - auf Wunsch sogar auf dem T-Test aufbauen. Das einzige, was sich ändert, ist die Berechnung des p-Wertes. Oder Sie führen einen anderen Resampling-Test durch, beispielsweise einen Bootstrap-Test. Dies sollte eine gute Leistung haben, obwohl es teilweise davon abhängt, welche Teststatistik Sie im Verhältnis zu Ihrer Verteilung wählen.
c) Sie können einen rangbasierten nichtparametrischen Test durchführen (z. B. Wilcoxon-Mann-Whitney). Wenn Sie annehmen, dass sich die Verteilungen, wenn sie sich unterscheiden, nur um einen Skalierungsfaktor unterscheiden (der für eine Vielzahl von versetzten Verteilungen einschließlich der Exponentialverteilung geeignet ist), können Sie sogar ein Konfidenzintervall für das Verhältnis der Skalierungsparameter erhalten.
[Zu diesem Zweck würde ich vorschlagen, an der Protokollskala zu arbeiten (die Ortsverschiebung in den Protokollen ist das Protokoll der Skalierungsverschiebung). Der p-Wert wird nicht geändert, aber Sie können die Punktschätzung und die CI-Grenzen potenzieren, um ein Intervall für die Skalenverschiebung zu erhalten.]
Auch dies sollte in exponentiellen Situationen eine recht gute Leistung haben, aber wahrscheinlich nicht so gut wie der T-Test.
Eine Referenz, die eine erheblich breitere Reihe von Fällen für die Standortverschiebungsalternative berücksichtigt (z. B. sowohl mit Varianz- als auch mit Schiefheitsheterogenität unter der Null), ist
Fagerland, MW und L. Sandvik (2009),
"Durchführung von fünf Standorttests mit zwei Stichproben für verzerrte Verteilungen mit ungleichen Varianzen",
Contemporary Clinical Trials , 30 , 490–496
In der Regel wird der Welch-U-Test empfohlen (einer von mehreren Tests, die von Welch in Betracht gezogen werden, und der einzige, den sie getestet haben). Wenn Sie nicht genau die gleiche Welch-Statistik verwenden, können die Empfehlungen etwas variieren (obwohl wahrscheinlich nicht viel). [Beachten Sie, dass Sie bei exponentiellen Verteilungen an einer Skalierungsalternative interessiert sind, es sei denn, Sie führen Protokolle durch. In diesem Fall werden Sie keine ungleichen Varianzen haben.]
quelle