Wie kann man auf Unterschiede zwischen zwei Gruppen testen, wenn die Daten nicht normal verteilt sind?

19

Ich werde alle biologischen Details und Experimente eliminieren und nur das vorliegende Problem und das, was ich statistisch getan habe, zitieren. Ich würde gerne wissen, ob es richtig ist und wenn nicht, wie es weitergeht. Wenn die Daten (oder meine Erklärung) nicht klar genug sind, werde ich versuchen, sie durch Bearbeiten besser zu erklären.

Angenommen, ich habe zwei Gruppen / Beobachtungen, X und Y, mit der Größe und N y = 40 . Ich würde gerne wissen, ob die Mittel dieser beiden Beobachtungen gleich sind. Meine erste Frage ist:Nx=215Ny=40

  1. Wenn die Annahmen erfüllt sind, ist es relevant, hier einen parametrischen Zwei-Stichproben-T-Test zu verwenden? Ich frage dies, weil es meines Wissens normalerweise angewendet wird, wenn die Größe klein ist.

  2. Ich zeichnete Histogramme von X und Y und sie waren nicht normal verteilt, eine der Annahmen eines t-Tests mit zwei Stichproben. Meine Verwirrung ist, dass ich sie als zwei Populationen betrachte und deshalb auf Normalverteilung geprüft habe. Aber dann mache ich gleich einen T-Test mit zwei SAMPLE ... Stimmt das?

  3. Aus dem zentralen Grenzwertsatz geht hervor, dass wenn Sie eine Stichprobe (mit / ohne Wiederholung, abhängig von Ihrer Populationsgröße) mehrmals durchführen und jedes Mal den Durchschnitt der Stichproben berechnen, diese ungefähr normalverteilt sind. Der Mittelwert dieser Zufallsvariablen ist eine gute Schätzung des Populationsmittelwerts. Also habe ich mich entschlossen, dies 1000-mal sowohl für X als auch für Y zu tun, und Proben erhalten und dem Mittelwert jeder Probe eine Zufallsvariable zugewiesen. Die Handlung war sehr normal verteilt. Der Mittelwert von X und Y betrug 4,2 und 15,8 (was der Bevölkerung + - 0,15 entsprach), und die Varianz betrug 0,95 und 12,11.
    Ich habe einen t-Test für diese beiden Beobachtungen (jeweils 1000 Datenpunkte) mit ungleichen Abweichungen durchgeführt, da sie sehr unterschiedlich sind (0,95 und 12,11). Und die Nullhypothese wurde abgelehnt.
    Macht das überhaupt Sinn? Ist dieser korrekte / aussagekräftige Ansatz oder ein Z-Test mit zwei Stichproben ausreichend oder völlig falsch?

  4. Ich habe auch einen nicht-parametrischen Wilcoxon-Test durchgeführt, um sicherzugehen (auf Original X und Y), und die Nullhypothese wurde auch dort überzeugend zurückgewiesen. Für den Fall, dass meine vorherige Methode völlig falsch war, ist die Durchführung eines nichtparametrischen Tests, abgesehen von der statistischen Aussagekraft, möglicherweise sinnvoll.

In beiden Fällen waren die Mittelwerte signifikant unterschiedlich. Ich würde jedoch gerne wissen, ob einer oder beide Ansätze fehlerhaft / völlig falsch sind, und wenn ja, welche Alternative gibt es?

Arun
quelle

Antworten:

21

Die Vorstellung, dass der T-Test nur für kleine Stichproben gilt, ist ein historischer Faktor. Ja, es wurde ursprünglich für kleine Proben entwickelt, aber es gibt in der Theorie nichts, was zwischen klein und groß unterscheidet. In den Tagen, bevor Computer für statistische Zwecke üblich waren, stiegen die T-Tabellen häufig nur auf etwa 30 Freiheitsgrade, und die Normalen wurden darüber hinaus als eine enge Annäherung an die T-Verteilung verwendet. Dies diente der Bequemlichkeit, um die Größe des T-Tisches angemessen zu halten. Jetzt können wir mit Computern T-Tests für jede Stichprobengröße durchführen (obwohl bei sehr großen Stichproben die Unterschiede zwischen den Ergebnissen eines Z-Tests und eines T-Tests sehr gering sind). Die Hauptidee ist, einen t-Test zu verwenden, wenn die Stichprobe zur Schätzung der Standardabweichungen verwendet wird, und den z-Test, wenn die Populationsstandardabweichungen bekannt sind (sehr selten).

Mit dem zentralen Grenzwertsatz können wir die normale theoretische Inferenz (in diesem Fall t-Tests) verwenden, auch wenn die Grundgesamtheit nicht normalverteilt ist, solange die Stichprobengröße groß genug ist. Dies bedeutet, dass Ihr Test ungefähr ist (bei Ihren Stichproben sollte die Zulassung jedoch sehr gut sein).

Der Wilcoxon-Test ist kein Mittelwerttest (es sei denn, Sie wissen, dass die Populationen perfekt symmetrisch sind und andere unwahrscheinliche Annahmen zutreffen). Wenn die Mittelwerte im Mittelpunkt des Interesses stehen, ist der T-Test wahrscheinlich der am besten zu zitierende.

Angesichts der Tatsache, dass Ihre Standardabweichungen so unterschiedlich sind und die Formen nicht normal und möglicherweise voneinander verschieden sind, ist der Unterschied in den Mitteln möglicherweise nicht das interessanteste, was hier vor sich geht. Denken Sie über die Wissenschaft nach und was Sie mit Ihren Ergebnissen anfangen möchten. Werden Entscheidungen auf Bevölkerungsebene oder auf individueller Ebene getroffen? Denken Sie an dieses Beispiel: Sie vergleichen 2 Medikamente für eine bestimmte Krankheit mit dem Medikament. Die Hälfte der Probe starb sofort, die andere Hälfte erholte sich in ungefähr einer Woche. auf Droge B überlebten alle und erholten sich, aber die Zeit bis zur Erholung war länger als eine Woche. In diesem Fall würde es Sie wirklich interessieren, welche mittlere Wiederherstellungszeit kürzer war? Oder ersetzen Sie die Hälfte, die in A stirbt, indem Sie nur eine sehr lange Zeit brauchen, um sich zu erholen (länger als in der Gruppe B).

Greg Snow
quelle
Vielen Dank, Greg. Ich gehe davon aus, dass an der Vorgehensweise per se nichts auszusetzen ist. Ich verstehe, dass ich möglicherweise nicht die richtige Frage stelle, aber meine Sorge gilt gleichermaßen dem statistischen Test / Verfahren und dem Verständnis selbst bei zwei Stichproben. Ich überprüfe, ob ich die richtige Frage stelle, und werde gegebenenfalls auf Fragen zurückkommen. Wenn ich das biologische Problem erkläre, hilft es vielleicht mit weiteren Vorschlägen. Danke noch einmal.
Arun
5

Eine Ergänzung zu Gregs bereits sehr umfassender Antwort.

Wenn ich Sie richtig verstehe, lautet Ihr Punkt 3 wie folgt:

  • Beobachten n Proben einer Distribution X.
  • Dann zeichne m von diesen n Werte und berechnen ihren Mittelwert.
  • Wiederholen Sie dies 1000 Mal und speichern Sie das entsprechende Mittel
  • Schließlich berechnen Sie den Mittelwert dieser Mittelwerte und nehmen an, dass der Mittelwert von X entspricht dem so berechneten Mittelwert.

Nun nehmen Sie an, dass für diesen Mittelwert der zentrale Grenzwertsatz gilt und die entsprechende Zufallsvariable normalverteilt wird.

Schauen wir uns vielleicht die Mathematik hinter Ihrer Berechnung an, um den Fehler zu identifizieren:

Wir nennen Ihre Proben von X X1,,Xnoder, in statistischer Terminologie, haben Sie X1,,XnX. Nun zeichnen wir Größenmustermund berechnen ihren Mittelwert. Dask-th dieser Mittel sieht irgendwie so aus:

Y.k=1mich=1mXμichk

woher μichk bezeichnet den Wert zwischen 1 und n das wurde bei Unentschieden gezogen ich. Die Berechnung des Mittelwerts aller dieser Mittelwerte ergibt somit

11000k=110001mich=1mXμichk

Um Ihnen die genaue mathematische Terminologie zu ersparen, werfen Sie einen Blick auf diese Summe. Was passiert ist, dass dieXichwerden einfach mehrfach zur Summe addiert. Alles in allem addieren Sie1000m zahlen und dividieren durch 1000m. Tatsächlich berechnen Sie einen gewichteten Mittelwert vonXich mit zufälligen Gewichten.

Nun besagt der zentrale Grenzwertsatz jedoch, dass die Summe vieler unabhängiger Zufallsvariablen ungefähr normal ist. (Was dazu führt, dass auch der Mittelwert ungefähr normal ist).

Ihre obige Summe produziert keine unabhängigen Samples. Sie haben vielleicht zufällige Gewichte, aber das macht Ihre Proben überhaupt nicht unabhängig. Somit ist das in 3 beschriebene Verfahren nicht legal.

Allerdings, wie Greg bereits sagte, mit einem t-Test auf Ihre ursprünglichen Daten kann in etwa richtig sein - wenn Sie am Mittelwert wirklich interessiert sind.

Thilo
quelle
Vielen Dank. Es scheint, dass T-Test das Problem bereits mit CLT löst (aus Gregs Antwort, die ich übersehen habe). Vielen Dank für den Hinweis und für die klare Erklärung von 3), was ich eigentlich wissen wollte. Ich muss mehr Zeit investieren, um diese Konzepte zu verstehen.
Arun
2
Beachten Sie, dass die CLT je nach vorliegender Verteilung unterschiedlich gut funktioniert (oder, noch schlimmer, der erwartete Wert oder die Varianz der Verteilung existieren nicht - dann ist die CLT nicht einmal gültig). Im Zweifelsfall ist es immer eine gute Idee, eine Verteilung zu generieren, die der von Ihnen beobachteten ähnelt, und dann Ihren Test einige hundert Mal mit dieser Verteilung zu simulieren. Sie werden ein Gefühl für die Qualität der von CLT gelieferten Approximation bekommen.
Thilo