Sollte ich T-Test für stark verzerrte Daten verwenden? Wissenschaftlicher Beweis, bitte?

15

Ich habe Stichproben aus einem stark verzerrten Datensatz (der wie eine Exponentialverteilung aussieht) über die Teilnahme von Benutzern (z. B. Anzahl der Beiträge), die unterschiedliche Größen haben (aber nicht weniger als 200), und ich möchte deren Mittelwert vergleichen. Dafür verwende ich ungepaarte T-Tests mit zwei Stichproben (und T-Tests mit dem Welch-Faktor, wenn die Stichproben unterschiedliche Varianzen aufwiesen). Wie ich gehört habe, spielt es bei wirklich großen Samples keine Rolle, dass die Samples nicht normalverteilt sind.

Jemand überprüfte, was ich getan habe und sagte, dass die Tests, die ich verwende, nicht für meine Daten geeignet sind. Sie schlugen vor, meine Proben vor der Verwendung der T-Tests zu protokollieren.

Ich bin ein Anfänger, daher klingt es für mich sehr verwirrend, meine Forschungsfragen mit "Log of Participation Metric" zu beantworten.

Irren sie sich Liege ich falsch? Wenn sie falsch sind, gibt es ein Buch oder eine wissenschaftliche Arbeit, die ich ihnen zeigen könnte? Welchen Test soll ich verwenden, wenn ich falsch liege?

hypothesis-testing t-test nonparametric mean skewness Milena Araujo
quelle

1

T-Test hat die Normalverteilungsannahme csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Möglicherweise denken Sie, dass die t-Verteilung sich der Normalverteilung annähert, wenn die Stichprobe ausreichend groß ist.

Rdorlearn

6

Was bedeutet "wissenschaftlicher Beweis" in diesem Zusammenhang?

Glen_b -Reinstate Monica

1

Ich dachte, dass die Annahme lautete, dass alle Mittelwerte aller möglichen Stichproben aus einer bestimmten Population normal sein sollten. Also, vom CLT, würde es auch für meinen Datensatz gelten.

Milena Araujo

1

wissenschaftlicher Beweis = etwas akademisch Relevantes: ein Buch, eine Arbeit usw.

Milena Araujo

Antworten:

36

Ich würde es nicht als exponentiell bezeichnen. Sein Log ist zum Beispiel deutlich nach links geneigt, und seine Momentschiefe beträgt nur 2.

$n$

a) Der Zähler der Teststatistik sollte in Ordnung sein: Sind die Daten unabhängig exponentiell mit einer gemeinsamen Skala (und nicht wesentlich schwerer als diese), werden ihre Mittelwerte mit Formparametern gleich der Anzahl der Beobachtungen gammaverteilt. Die Verteilung ist bei Formparametern über etwa 40 sehr normal (abhängig davon, wie weit Sie in den Schwanz hinein genau sein müssen).

Dies ist ein mathematischer Beweis, aber Mathematik ist keine Wissenschaft. Sie können dies natürlich empirisch durch Simulation überprüfen, aber wenn Sie sich in Bezug auf die Exponentialität irren, benötigen Sie möglicherweise größere Stichproben. So sieht die Verteilung der Stichprobensummen (und damit der Stichprobenmittelwerte) der Exponentialdaten aus, wenn n = 40 ist:

Bildbeschreibung hier eingeben

Sehr leicht schief. Diese Schiefe nimmt mit der Quadratwurzel der Stichprobengröße ab. Bei n = 160 ist es also halb so schief. Bei n = 640 ist es ein Viertel so schief:

Bildbeschreibung hier eingeben

Dass dies effektiv symmetrisch ist, können Sie erkennen, indem Sie es über den Mittelwert drehen und darüber zeichnen:

Bildbeschreibung hier eingeben

Blau ist das Original, rot ist gespiegelt. Wie Sie sehen, sind sie fast zufällig.

-

$n=40$

Bildbeschreibung hier eingeben

$n=500$

-

c) Was jedoch wirklich zählt, ist die Verteilung der gesamten Statistik unter der Null. Die Normalität des Zählers reicht nicht aus, damit die t-Statistik eine t-Verteilung hat. Im Fall von Exponentialdaten ist dies jedoch auch kein großes Problem:

Bildbeschreibung hier eingeben

$n=40$ $n=500$ $n=500$

Es ist jedoch zu beachten, dass für tatsächlich exponentielle Daten die Standardabweichung nur dann unterschiedlich ist, wenn die Mittelwerte unterschiedlich sind. Wenn die exponentielle Annahme der Fall ist, dann besteht unter der Null kein besonderer Grund, sich um unterschiedliche Populationsabweichungen zu sorgen, da sie nur unter der Alternative auftreten. Ein T-Test mit gleicher Varianz sollte also immer noch in Ordnung sein (in diesem Fall ist die im Histogramm angegebene gute Näherung möglicherweise sogar etwas besser).

2) Wenn Sie Protokolle führen, können Sie trotzdem einen Sinn daraus ziehen

$\log\lambda_1\neq\log\lambda_2$ $\lambda_1\neq\lambda_2$

[Wenn Sie diesen Test in den Protokollen durchführen, würde ich vorschlagen, in diesem Fall einen Test mit gleicher Varianz durchzuführen.]

Mit dem bloßen Eingreifen von vielleicht ein oder zwei Sätzen, die den Zusammenhang rechtfertigen, ähnlich dem, was ich oben habe, sollten Sie also in der Lage sein, Ihre Schlussfolgerungen nicht über das Protokoll der Beteiligungsmetrik, sondern über die Beteiligungsmetrik selbst zu schreiben.

3) Es gibt viele andere Dinge, die Sie tun können!

a) Sie können einen für Exponentialdaten geeigneten Test durchführen. Es ist einfach, einen Likelihood-Ratio-basierten Test abzuleiten. Zufälligerweise erhalten Sie für exponentielle Daten einen F-Test mit kleiner Stichprobe (basierend auf einem Verhältnis der Mittelwerte) für diese Situation in dem Fall mit einem Endpunkt. Die zweischwänzige LRT hätte im Allgemeinen bei kleinen Stichprobengrößen nicht den gleichen Anteil an jedem Schwanz. (Dies sollte eine bessere Leistung als der T-Test haben, aber die Leistung für den T-Test sollte angemessen sein, und ich würde erwarten, dass es bei Ihren Stichprobengrößen keinen großen Unterschied gibt.)

b) Sie können einen Permutationstest durchführen - auf Wunsch sogar auf dem T-Test aufbauen. Das einzige, was sich ändert, ist die Berechnung des p-Wertes. Oder Sie führen einen anderen Resampling-Test durch, beispielsweise einen Bootstrap-Test. Dies sollte eine gute Leistung haben, obwohl es teilweise davon abhängt, welche Teststatistik Sie im Verhältnis zu Ihrer Verteilung wählen.

c) Sie können einen rangbasierten nichtparametrischen Test durchführen (z. B. Wilcoxon-Mann-Whitney). Wenn Sie annehmen, dass sich die Verteilungen, wenn sie sich unterscheiden, nur um einen Skalierungsfaktor unterscheiden (der für eine Vielzahl von versetzten Verteilungen einschließlich der Exponentialverteilung geeignet ist), können Sie sogar ein Konfidenzintervall für das Verhältnis der Skalierungsparameter erhalten.

[Zu diesem Zweck würde ich vorschlagen, an der Protokollskala zu arbeiten (die Ortsverschiebung in den Protokollen ist das Protokoll der Skalierungsverschiebung). Der p-Wert wird nicht geändert, aber Sie können die Punktschätzung und die CI-Grenzen potenzieren, um ein Intervall für die Skalenverschiebung zu erhalten.]

Auch dies sollte in exponentiellen Situationen eine recht gute Leistung haben, aber wahrscheinlich nicht so gut wie der T-Test.

Eine Referenz, die eine erheblich breitere Reihe von Fällen für die Standortverschiebungsalternative berücksichtigt (z. B. sowohl mit Varianz- als auch mit Schiefheitsheterogenität unter der Null), ist

Fagerland, MW und L. Sandvik (2009),
"Durchführung von fünf Standorttests mit zwei Stichproben für verzerrte Verteilungen mit ungleichen Varianzen",
Contemporary Clinical Trials , 30 , 490–496

In der Regel wird der Welch-U-Test empfohlen (einer von mehreren Tests, die von Welch in Betracht gezogen werden, und der einzige, den sie getestet haben). Wenn Sie nicht genau die gleiche Welch-Statistik verwenden, können die Empfehlungen etwas variieren (obwohl wahrscheinlich nicht viel). [Beachten Sie, dass Sie bei exponentiellen Verteilungen an einer Skalierungsalternative interessiert sind, es sei denn, Sie führen Protokolle durch. In diesem Fall werden Sie keine ungleichen Varianzen haben.]

Glen_b - Setzen Sie Monica wieder ein
quelle

4

Gute Antwort! Ich war wirklich verblüfft, wie viele Informationen Sie in einem einzigen Post gepackt haben

Christian Sauer,

@ Glen_b, das ist eine großartige Antwort! Vielen Dank. Noch eine Frage: Meine Proben stammen aus demselben Datensatz. Ich möchte Stichproben von Benutzern mit Merkmal X und Benutzern mit Merkmal Y vergleichen. Die Stichproben für Benutzer X liegen bei ca. 500 und für Benutzer Y bei ca. 10000. Es gibt einen großen Unterschied in der Größe, aber es scheint keinen großen Unterschied in der Form zu geben (im Hinblick auf Dichte- und Wahrscheinlichkeitsdiagramme). Wäre es trotzdem ein Problem, T-Tests zu verwenden?

Milena Araujo

Wenn Sie "enormer Größenunterschied" sagen, sprechen Sie dann von der Stichprobengröße (10000 vs 500) oder von den typischen Werten innerhalb jeder Gruppe? (Sind diese Werte übrigens kontinuierlich oder diskret? Wie klein sind die typischen Mindestwerte für diese Art von Daten? Sind die Protokolle in ihrer Form ähnlich - dh handelt es sich nur um eine Skalenverschiebung, die wir in Betracht ziehen?)

Glen_b -Reinstate Monica

1

Mit einer Tabelle für solche Daten sind Sie vielleicht besser dran. Die entscheidende Information ist, dass es nicht nur diskret ist, sondern dass fast alle Werte in der niedrigsten Anzahl von Fragen enthalten sind. Wenn Sie ein Histogramm zeichnen, zeichnen Sie es ohne Wobbelungen und stellen Sie sicher, dass alle niedrigen Werte getrennt sind (Balken für 0, 1, 2, ohne sie zu kombinieren). Es ist besser, die rechte Seite abzuschneiden und die linke Seite weiter auszubreiten (wo sich fast alle Daten befinden), solange Sie klar machen, dass sich rechts mehr befindet, wenn Sie etwas abschneiden. Geben Sie an, was Sie messen und was Sie erreichen möchten ... (ctd)

Glen_b

1

@ScottH Teil 1.c meiner Antwort befasst sich explizit damit und untersucht, wie wichtig es im vorliegenden Fall ist (ungefähr exponentielle Verteilung bei ähnlichen Stichprobengrößen)

Glen_b -Reinstate Monica