Wie robust ist der T-Test für unabhängige Stichproben, wenn die Verteilungen der Stichproben nicht normal sind?

24

Ich habe gelesen, dass der t- Test "ziemlich robust" ist, wenn die Verteilung der Stichproben von der Normalität abweicht. Natürlich ist es die Stichprobenverteilung der Unterschiede, die wichtig sind. Ich habe Daten für zwei Gruppen. Eine der Gruppen ist in Bezug auf die abhängige Variable stark verzerrt. Die Stichprobengröße ist für beide Gruppen recht gering (n = 33 in der einen und 45 in der anderen). Sollte ich davon ausgehen, dass mein t- Test unter diesen Bedingungen für Verstöße gegen die Normalitätsannahme robust ist?

Archaeopteryx
quelle
3
"Natürlich ist es die Stichprobenverteilung der Unterschiede, die wichtig sind" - Unterschiede in was? Ich war versucht, dies außer Frage zu stellen, da ich befürchte, dass es für zukünftige Leser irreführend ist (und tangential zum Hauptpunkt). Mein erster Gedanke war, dass es sich fälschlicherweise um einen gepaarten t- Test handelt, bei dem wir annehmen, dass die Unterschiede zwischen Paaren normal sind, dies jedoch bei einem unabhängigen Stichproben-Test nicht zutrifft. Wir haben nicht einmal Paare zu unterscheiden! Vielleicht ist "Unterschied in den Mitteln" gemeint? Der Rest des Q berücksichtigt die Normalität der beiden Stichproben, keine Unterschiede.
Silverfish
Die Frage, wie robust der t- Test gegen solche Verstöße ist, ist wichtig und legitim. Ein verwandtes Problem ist jedoch, dass es nicht empfohlen wird, zuerst nach Verstößen in Ihren Daten zu suchen und dann zu entscheiden, ob ein t- Test oder ein alternativer Test angewendet werden soll. Ein solches mehrstufiges Verfahren weist unsichere Betriebseigenschaften auf. Siehe diesen Thread: Eine prinzipielle Methode für die Auswahl zwischen t-Test oder nicht-parametrischen z. B. Wilcoxon in kleinen Proben
Silverfish
Was ist eine glaubwürdige Quelle? (Ich nehme an, wir sind uns einig, dass es keine offizielle Quelle gibt). Betrachten wir Level-Robustheit oder auch Power? Und wenn 'auch Macht' ... von was für einer Alternative sprechen wir ?
Glen_b
@ Glen_b Entschuldigung, die Bounty-Nachricht "official sources" ist eindeutig mehr für StackOverflow! Ich denke nur, dass dieser Thread praktisch wichtig ist (plus ziemlich viel Verkehr und wenig auf Wikipedia), um ein paar Zitate zu verdienen. Die Kopfgeldvorlage "Kanonische Antwort" wäre unangemessen, wie die Antwort von Peter Flom deutlich zeigt. Ich habe das Gefühl, dass es zu diesem Thema ein "allgemeines Wissen" gibt - wenn ich dieses Q aus der Hand bekommen hätte, würde meine Liste ungefähr so aussehen wie die von Dallal (ich hätte Kurtosis hinzugefügt, mich aber nicht an die gleiche Stichprobengröße gewagt) schützt gegen allgemeine Nichtnormalität)
Silberfischchen
@ Glen_b Ihre Antwort weist eine ähnliche Ader auf, so dass es den Anschein hat, dass einige grundlegende Punkte allgemein bekannt / akzeptiert sind. Mein Abschluss deckte Annahmen, aber keine Konsequenzen von Verstößen ab: Mein Wissen stammt aus verschiedenen Quellen, verstreuten Stellen (Bücher vom Typ "Statistik für Psychologen" können den Konsequenzen mehr Aufmerksamkeit schenken als viele statistische Theorie-Texte) - ansonsten hätte ich gepostet Eine Antwort, keine Prämie! Wenn jemand eine anständige einseitige Zusammenfassung in einem guten Lehrbuch kennt, würde das mir nichts ausmachen. Wenn es sich um ein paar Artikel mit Simulationsergebnissen handelt, ist das auch in Ordnung. Alles, worauf sich zukünftige Leser beziehen und was sie zitieren könnten.
Silverfish

Antworten:

16

Fragen zur Robustheit sind sehr schwer zu beantworten, da die Annahmen auf so viele Arten und in unterschiedlichem Maße verletzt werden können. Simulationsarbeiten können nur einen sehr kleinen Teil der möglichen Verstöße erfassen.

Angesichts den Zustand der Berechnung, ich denke , es ist die Zeit oft lohnt, läuft sowohl einen parametrischen und einen nicht-parametrischen Test, wenn beide vorhanden sind. Sie können dann die Ergebnisse vergleichen.

Wenn Sie wirklich ehrgeizig sind, können Sie sogar einen Permutationstest durchführen.

Was wäre, wenn Alan Turing seine Arbeit getan hätte, bevor Ronald Fisher seine tat? :-).

Peter Flom - Wiedereinsetzung von Monica
quelle
1
Peter, du hast mich dazu inspiriert, historische Romane zu schreiben, um genau diese Frage zu beantworten!
Sycorax sagt Reinstate Monica
12

@PeterFlom hat mit seinem ersten Satz den Nagel auf den Kopf getroffen.

Ich werde versuchen, eine grobe Zusammenfassung der Studien zu geben, die ich gesehen habe (wenn Sie Links möchten, kann es eine Weile dauern):

Insgesamt ist der t-Test mit zwei Stichproben relativ leistungsstabil gegenüber symmetrischer Nichtnormalität (die wahre Typ-I-Fehlerrate wird etwas von Kurtosis beeinflusst, die Leistung wird hauptsächlich davon beeinflusst).

Wenn die beiden Proben leicht in die gleiche Richtung geneigt sind, ist der einseitige t-Test nicht mehr unverzerrt. Die t-Statistik ist entgegengesetzt zur Verteilung verschoben und hat viel mehr Leistung, wenn der Test in die eine Richtung als in die andere gerichtet ist. Wenn sie in entgegengesetzte Richtungen geneigt sind, kann die Fehlerrate von Typ I stark beeinträchtigt werden.

Starke Schräglage kann größere Auswirkungen haben, aber im Allgemeinen ist eine moderate Schräglage bei einem Test mit zwei Schwänzen nicht so schlimm, wenn Sie nichts dagegen haben, wenn Sie im Wesentlichen einen größeren Teil der Kraft in die eine oder die andere Richtung verteilen.

Kurz gesagt - der zweiseitige T-Test mit zwei Stichproben ist für diese Art von Dingen ziemlich robust, wenn Sie einen gewissen Einfluss auf das Signifikanzniveau und eine leichte Verzerrung tolerieren können.

Es gibt jedoch viele, viele Möglichkeiten, wie Distributionen nicht normal sein können, die von diesen Kommentaren nicht abgedeckt werden.

Glen_b - Setzen Sie Monica wieder ein
quelle
Ich bin mir nicht sicher, ob es richtig ist, zu sagen, dass es einigermaßen leistungsfähig ist! Es ist vernünftig und robust, das Signifikanzniveau ist ungefähr korrekt, aber zum Beispiel können Wilcoxon-Tests eine viel höhere Aussagekraft haben, wenn Alternativen, die der Normalität angemessen nahe kommen, schwer zu erkennen sind. Dies hängt auch von Faktoren ab, z. B. ob es in jeder Gruppe die gleiche Anzahl von Beobachtungen gibt: Die Robustheit ist im ungleichen Fall viel fragiler!
kjetil b halvorsen
1
@kjetilbhalvorsen Die Studien, die ich gesehen habe - einschließlich einiger Simulationen, die ich selbst gemacht habe (und die ich mir lange nicht angesehen habe; Sie haben vielleicht etwas gesehen, was ich nicht gesehen habe), schienen die meisten Auswirkungen auf die Leistung zu haben um den Pegel hauptsächlich nach oben und unten zu drücken (was den Wilcoxon nicht beeinflusste). Angesichts der allgemein guten Leistungseigenschaften des Wilcoxon unter diesen Umständen (insbesondere bei schweren Schwänzen) reicht dies aus, um den Wilcoxon an Leistung zu gewinnen. Wenn Sie die Pegel so einstellen, dass sie ähnlich sind, wundert es mich, wie gut das Tempo ist tat.
Glen_b
7

@PeterFlom hat bereits erwähnt, dass Simulationsstudien niemals alle Szenarien und Möglichkeiten abdecken und daher nicht zu einer eindeutigen Antwort führen können. Trotzdem finde ich es immer noch nützlich, ein Problem wie dieses durch einige Simulationen zu untersuchen (dies ist auch genau die Art von Übung, die ich gerne verwende, wenn ich den Studenten die Idee von Monte-Carlo-Simulationsstudien vorstelle). Probieren wir das also mal aus. Ich werde dafür R verwenden.

Der Code

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Erläuterung

  1. Zuerst setzen wir die Gruppengröße ( n1und n2), das wahre Gruppenmittel ( mu1und mu2) und die wahren Standardabweichungen ( sd1und sd2).

  2. Dann definieren wir die Anzahl der auszuführenden Iterationen und richten Vektoren ein, in denen die p-Werte gespeichert werden.

  3. Dann simuliere ich Daten unter 5 Szenarien:

    1. Beide Verteilungen sind normal.
    2. Beide Verteilungen sind nach rechts versetzt.
    3. Beide Verteilungen sind nach links versetzt.
    4. Die erste Verteilung ist nach links und die zweite nach rechts verschoben.
    5. Die erste Verteilung ist nach rechts und die zweite nach links geneigt.

    Beachten Sie, dass ich Chi-Quadrat-Verteilungen zum Generieren der versetzten Verteilungen verwende. Bei einem Freiheitsgrad handelt es sich um stark verzerrte Verteilungen. Da der wahre Mittelwert und die Varianz einer Chi-Quadrat-Verteilung mit einem Freiheitsgrad gleich 1 bzw. 2 sind ( siehe Wikipedia ), skaliere ich diese Verteilungen so, dass sie zuerst den Mittelwert 0 und die Standardabweichung 1 haben, und skaliere sie dann so, dass sie das haben gewünschter echter Mittelwert und Standardabweichung (dies könnte in einem Schritt erfolgen, aber dies könnte klarer sein).

  4. In jedem Fall wende ich den t-Test an (Welch-Version - man könnte natürlich auch die Student-Version in Betracht ziehen, die in beiden Gruppen gleiche Varianzen annimmt) und speichere den p-Wert in den zuvor eingerichteten Vektoren.

  5. Wenn alle Iterationen abgeschlossen sind, berechne ich schließlich für jeden Vektor, wie oft der p-Wert gleich oder kleiner als 0,05 ist (dh der Test ist "signifikant"). Dies ist die empirische Ablehnungsrate.

Einige Ergebnisse

  1. Genau wie oben beschrieben simulieren ergibt:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    α=.05

  2. Wenn wir den Code auf ändern mu1 <- .5, erhalten wir:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Im Vergleich zu dem Fall, in dem beide Verteilungen normal sind (wie vom Test angenommen), scheint die Leistung tatsächlich etwas höher zu sein, wenn die Schiefe in die gleiche Richtung geht! Wenn Sie überrascht sind, können Sie dies einige Male wiederholen (natürlich jedes Mal, wenn Sie etwas andere Ergebnisse erhalten), aber das Muster bleibt erhalten.

    Beachten Sie, dass wir bei der Interpretation der empirischen Leistungswerte unter den beiden Szenarien, in denen die Schiefe in entgegengesetzte Richtungen verläuft, vorsichtig sein müssen, da die Fehlerrate des Typs I nicht ganz nominal ist (im Extremfall nehme ich an, ich lehne unabhängig von den Daten immer ab zeigen; dann werde ich immer einen Test mit maximaler Leistung haben, aber natürlich hat der Test auch eine ziemlich überhöhte Typ-I-Fehlerrate).

Man könnte damit beginnen, eine Reihe von Werten zu untersuchen mu1(und mu2- aber was wirklich zählt, ist der Unterschied zwischen den beiden) und, was noch wichtiger ist, die wahren Standardabweichungen der beiden Gruppen (dh sd1und sd2) zu ändern und sie insbesondere ungleich zu machen. Ich habe mich auch an die vom OP erwähnten Stichprobengrößen gehalten, aber das könnte natürlich auch angepasst werden. Und die Schiefe kann natürlich viele andere Formen annehmen als das, was wir in einer Chi-Quadrat-Verteilung mit einem Freiheitsgrad sehen. Ich denke immer noch, dass es nützlich ist, sich den Dingen auf diese Weise zu nähern, obwohl es keine eindeutige Antwort geben kann.

Wolfgang
quelle
2
Warum lohnt sich diese Diskussion, da wir heutzutage eine Reihe robuster semiparametrischer Methoden haben?
Frank Harrell
(+1) Ich denke, es hätte sich gelohnt, den Fall einzuschließen, in dem eine Stichprobe aus einer verdrehten Population gezogen wurde und die andere nicht, da dies der OP-Gedanke war, der mit ihren Daten geschehen könnte. Aber es ist schön, eine Antwort mit explizitem Code zu sehen. (Eine kleine Verallgemeinerung würde es dem Leser tatsächlich ermöglichen, zu untersuchen, wie gut robuste Methoden im Vergleich zum traditionellen t-Test sind. Dies ist eine nützliche pädagogische Übung, wenn Sie jemandem die Gefahren der Anwendung eines Tests beibringen möchten, dessen Annahmen verletzt wurden.) .)
Silverfish
2

In Ihrer Situation ist der t-Test in Bezug auf die Fehlerrate des Typs I wahrscheinlich robust, jedoch nicht in Bezug auf die Fehlerrate des Typs II. Sie würden wahrscheinlich mehr Leistung durch a) einen Kruskal-Wallis-Test oder b) eine Normalisierungstransformation vor einem t-Test erzielen.

Ich stütze diese Schlussfolgerung auf zwei Monte-Carlo-Studien. In der ersten ( Khan & Rayner, 2003 ) wurden Skew und Kurtosis indirekt über die Parameter der g-und-k-Verteilungsfamilie manipuliert und die resultierende Potenz untersucht. Wichtig ist, dass die Leistung des Kruskal-Wallis-Tests durch Nichtnormalität weniger geschädigt wurde, insbesondere für n> = 15.

Ein paar Einschränkungen / Qualifikationen zu dieser Studie: Die Leistung wurde häufig durch eine hohe Kurtosis beeinträchtigt, sie wurde jedoch weniger durch Schräglauf beeinträchtigt. Auf den ersten Blick scheint dieses Muster für Ihre Situation weniger relevant zu sein, da Sie ein Problem mit der Schrägstellung und nicht mit der Kurtosis festgestellt haben. Ich wette jedoch, dass übermäßige Kurtosis auch in Ihrem Fall extrem ist. Denken Sie daran, dass die überschüssige Kurtosis mindestens so hoch ist wie der Versatz ^ 2 - 2. (Lassen Sie die überschüssige Kurtosis gleich dem 4. standardisierten Moment minus 3 sein, so dass die überschüssige Kurtosis für eine Normalverteilung = 0 ist.) Beachten Sie auch, dass Khan und Rayner ( 2003) untersuchten ANOVAs mit 3 Gruppen, aber ihre Ergebnisse werden wahrscheinlich auf einen t-Test mit zwei Stichproben verallgemeinern.

Eine zweite relevante Studie ( Beasley, Erikson & Allison, 2009)) untersuchten sowohl Fehler vom Typ I als auch vom Typ II mit verschiedenen nicht normalen Verteilungen, wie z. B. einem Chi-Quadrat (1) und einem Weibull (1, .5). Bei Stichprobengrößen von mindestens 25 kontrollierte der t-Test die Fehlerrate des Typs I angemessen auf oder unter dem nominellen Alpha-Niveau. Die höchste Leistung wurde jedoch entweder mit einem Kruskal-Wallis-Test oder mit einer rangbasierten inversen Normaltransformation (Blom-Scores) vor dem t-Test erzielt. Beasley und Kollegen sprachen sich im Allgemeinen gegen den Normalisierungsansatz aus, es sei jedoch angemerkt, dass der Normalisierungsansatz die Fehlerrate des Typs I für n> = 25 kontrollierte und seine Stärke manchmal etwas über der des Kruskal-Wallis-Tests lag. Das heißt, der Normalisierungsansatz scheint für Ihre Situation vielversprechend zu sein. Einzelheiten finden Sie in den Tabellen 1 und 4 in ihrem Artikel.

Verweise:

Khan, A. & Rayner, GD (2003) . Robustheit gegenüber Nichtnormalität bei allgemeinen Tests für das Problem der Lokalisierung mit vielen Stichproben. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.

Beasley, TM, Erickson, S. & Allison, DB (2009) . Rangbasierte inverse normale Transformationen werden zunehmend verwendet, aber sind sie verdient? Behavioral Genetics, 39 , 580 & ndash; 595.

Anthony
quelle
(überschüssige) Kurtosisschief2-2
Das scheint eine Frage zu sein, die ihren eigenen Faden verdient. Vielleicht befürchten Sie, dass überschüssige Kurtosis in kleinen Stichproben nach unten verzerrt wird? Dies war natürlich auch in den obigen Simulationsstudien der Fall, und Kurtosis verursachte in diesen Situationen im t-Test immer noch eine geringe Leistung. Ihre Frage deutet auf eine allgemeinere Einschränkung der meisten Monte-Carlo-Studien hin: Schlussfolgerungen basieren häufig auf Populationsmerkmalen, die der angewandte Forscher nicht beobachten kann. Es wäre sinnvoller, die relative Leistung auf der Grundlage von Stichprobenversatz, Kurtosis usw. vorhersagen zu können.
Anthony
Ich habe eine separate Frage zu diesem Problem gestellt: stats.stackexchange.com/questions/133247/…
Anthony
0

Wenn Sie davon ausgehen, dass die Verteilung der beiden Stichproben unterschiedlich ist, stellen Sie zunächst sicher, dass Sie die Welch-Version des t-Tests verwenden, bei der ungleiche Abweichungen zwischen den Gruppen angenommen werden. Dies wird zumindest versuchen, einige der Unterschiede zu berücksichtigen, die aufgrund der Verteilung auftreten.

Wenn wir uns die Formel für den Welch-T-Test ansehen:

t=X¯1-X¯2sX¯1-X¯2

sX¯1-X¯2

sX¯1-X¯2=s12n1+s22n2

wir können sehen, dass wir jedes Mal, wenn es ein s gibt , wissen, dass die Varianz berücksichtigt wird. Stellen wir uns vor, die beiden Varianzen sind tatsächlich gleich, aber eine ist schief, was zu einer unterschiedlichen Varianzschätzung führt. Wenn diese Schätzung der Varianz aufgrund des Versatzes nicht für Ihre Daten repräsentativ ist, ist der tatsächliche Verzerrungseffekt im Wesentlichen die Quadratwurzel dieser Verzerrung geteilt durch die Anzahl der zur Berechnung verwendeten Datenpunkte. Daher wird der Effekt schlechter Varianzschätzer ein wenig durch die Quadratwurzel und ein höheres n gedämpft, und dies ist wahrscheinlich der Grund, warum der Konsens darin besteht, dass es ein robuster Test bleibt.

Das andere Problem bei verzerrten Verteilungen besteht darin, dass die Mittelwertberechnung ebenfalls beeinträchtigt wird. Hier liegen wahrscheinlich die eigentlichen Probleme bei Verstößen gegen die Testannahme, da die Mittelwerte relativ verzerrungsempfindlich sind. Und die Robustheit des Tests kann grob bestimmt werden, indem die Differenz der Mittelwerte im Vergleich zur Differenz der Mediane (als Idee) berechnet wird. Vielleicht könnten Sie sogar versuchen, die Differenz der Mittelwerte durch die Differenz der Mediane im t-Test als robustere Messgröße zu ersetzen (ich bin sicher, dass dies jemand besprochen hat, aber ich konnte bei Google nicht schnell genug einen Link finden).

Ich würde auch vorschlagen, einen Permutationstest durchzuführen, wenn Sie nur einen T-Test durchführen. Der Permutationstest ist ein exakter Test, der von Verteilungsannahmen unabhängig ist. Am wichtigsten ist, dass die Permutationstests und der t-Test zu identischen Ergebnissen führen, wenn die Annahmen des parametrischen Tests erfüllt sind . Daher kann das Robustheitsmaß, das Sie suchen, 1 sein - der Unterschied zwischen den p-Werten für Permutation und t-Test, wobei ein Wert von 1 eine perfekte Robustheit und 0 eine überhaupt keine Robustheit impliziert.

Mensen
quelle