T-Test mit nur zusammenfassenden Daten in einem Box-Plot

8

Ich habe die 5-Zahlen-Zusammenfassung (min, Q1, Median, Q3, max) aus zwei Boxplots und wollte testen, ob die Durchschnittswerte der Gruppen in den beiden Boxplots signifikant unterschiedlich waren oder nicht.

Ich möchte dies mit einem T-Test tun, aber mir stehen die Daten nicht zur Verfügung (nur die 5-Zahlen-Zusammenfassung).

Gibt es eine Möglichkeit, Unterschiede im Mittelwert zu testen? Oder eine grobe Annäherung an einen T-Test? Außerdem kenne ich die Stichprobengröße und den Mittelwert.

James Stanley
quelle
Kennen Sie zufällig auch die Standardabweichung?
Glen_b -Reinstate Monica
Nein, ich nicht. Wenn ich das wüsste, hätte ich dieses Problem nicht :)
Gibt es eine Annäherung an die Standardabweichung, die ich verwenden kann?
Beide Gruppen haben die Stichprobengröße 30.
Bitte bearbeiten Sie die relevanten Informationen in Ihrer Frage
Glen_b -Rate State Monica

Antworten:

10

Da Sie über die Stichprobenmittel verfügen und Ihre Hypothese sich auf Populationsmittel bezieht, habe ich angenommen, dass Sie die Stichprobenmittel im Folgenden definitiv verwenden möchten.

Mit einigen Verteilungsannahmen können Sie sicherlich irgendwohin gelangen.

  1. Wenn die Stichprobengröße ziemlich groß ist, können Sie eine Verteilung annehmen, um die IQRs auf eine Schätzung von zu skalieren und sie einfach als Z-Test zu behandeln. (n = 30 ist allerdings nicht wirklich "groß")σ

    Wenn Sie beispielsweise von Normalität ausgehen, beträgt der Populationsinterquartilbereich etwa 1,35 . Wenn die Stichprobe also groß genug ist, dass der IQR der Population mit geringem Fehler geschätzt wird, können Sie σ schätzen und einen effektiven Test bei Normal durchführen.σσ

    Wenn Sie in diesem Fall nicht gleiche Varianzen annehmen, erhalten Sie , berechnen dann ˜ σ 2 D = ˜ σ 2 1 / n 1 + ˜ σ 2 2 / n 2 und nehmen dann z = ˉ x 1 - ˉ x 2σi~=IQRi/1.35σ~D2=σ~12/n1+σ~22/n2und Z-Tabellen nachschlagen.z=x¯1x¯2σ~D

    [Zur Überprüfung habe ich gerade eine Simulation durchgeführt, bei der ich normale Stichproben der Größe 30 generiert habe (mit gleicher Varianz, obwohl ich sie bei der Berechnung nicht angenommen habe), und der Test ist antikonservativ (dh die Fehlerrate vom Typ I ist höher als nominal). Wenn Sie also versuchen, einen 5% -Test durchzuführen, sieht es so aus, als würden Sie tatsächlich irgendwo im Bereich von 6,8% ankommen (die Annäherung wird wahrscheinlich etwas schlechter sein, wenn sich die Varianzen unterscheiden). Wenn Sie das tolerieren können, ist das wahrscheinlich in Ordnung. Natürlich könnten Sie das Signifikanzniveau senken, um den Antikonservatismus auszugleichen, aber ich würde gerne in die Kugel beißen und Option 2 ausprobieren. Sobald die Stichprobengröße etwa 200 erreicht, funktioniert dies ziemlich gut.]

  2. Wenn eine der Stichproben nicht groß ist, können Sie trotzdem etwas tun, aber die Verteilung der Statistik hängt von der genauen Methode ab, mit der die Quartile berechnet wurden, sowie von den jeweiligen Stichprobengrößen.

    Insbesondere könnten Sie entweder

    σ2

    b. Nehmen Sie keine Annahme gleicher Varianz an und verwenden Sie eine Teststatistik, die einer Statistik vom Typ Welch-Satterthwaite ähnlicher ist.

    Im ersten Fall könnte die Verteilung der Teststatistik ziemlich einfach durch Simulation aus der angenommenen Verteilung erhalten werden. (Im zweiten Fall sind die Dinge etwas komplizierter, da die Verteilung davon abhängt, wie sich die Spreads unterscheiden - aber es könnte noch etwas getan werden.)

Wenn Sie nicht bereit sind, eine Verteilungsannahme zu treffen, können Sie die Standardabweichung der Stichprobe dennoch begrenzen und so die Ober- und Untergrenze der t-Statistik ermitteln. Die Grenzen sind jedoch möglicherweise nicht sehr eng.


Wenn Sie die Stichprobenmittel nicht gehabt hätten, könnten Sie die Mediane in einem Analogon des T-Tests verwenden. Wenn Sie von Normalität ausgehen (oder auch nur von Symmetrie und Existenz von Mitteln), schätzen die Mediane die jeweiligen Mittel; Da wir uns jedoch nur mit den Unterschieden in den Mitteln befassen müssen, reichen wesentlich schwächere Annahmen aus, damit dies als Test funktioniert.

In diesem Fall können Sie kritische Werte (oder tatsächlich p-Werte) ziemlich einfach über die Simulation erhalten, aber die Nullverteilung unter einer normalen Annahme ist ziemlich nahe an der t-Verteilung; Eine recht anständige Annäherung an den p-Wert kann aus t-Tabellen erhalten werden, aber geeignete Freiheitsgrade sind wesentlich niedriger als bei einem t-Test (fast die Hälfte!) - und die Teststatistik sollte skaliert werden auch, da die Abweichungen nicht genau übereinstimmen.

Dies hat im Normalfall keine besonders gute Leistung, aber eine gute Robustheit gegenüber Abweichungen von der Normalität.

Als Beispiel für eine Statistik dieser Form:

t=x~1x~2q12/n+q22/n

xi~iqiin

Geben Sie hier die Bildbeschreibung ein

tct40c=1.064

Geben Sie hier die Bildbeschreibung ein

cn

Glen_b -Reinstate Monica
quelle
σ
Gehen Sie von gleichen Abweichungen aus?
Glen_b -State Monica
Ich habe unter Option 1 eine Bearbeitung vorgenommen, bei der nicht die gleichen Varianzen angenommen wurden, wobei einige Details angegeben wurden, und eine kleine Simulationsstudie bei n = 30 durchgeführt.
Glen_b -State Monica
Außerdem wurden einige Kommentare dazu hinzugefügt, was getan werden kann, wenn Sie nicht über die Mittel verfügen.
Glen_b -State Monica