Hier sind vier verschiedene Zahlenreihen:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
Mit einem t-Test mit zwei Stichproben ohne Annahme gleicher Varianzen vergleiche ich B, C und D mit A und erhalte die folgenden p-Werte:
0,015827 (A gegen B)
0,000283 (A gegen C)
0,001190 (A gegen D)
Ich finde es seltsam, dass der p-Wert aus dem AD-Test schlechter ist als der AC-Test: Der Unterschied zwischen den Mitteln ist deutlich größer UND die Varianz von D ist viel geringer als die Varianz von C. Intuitiv (zumindest für meine Intuition) ) sollten diese beiden Tatsachen den p-Wert senken.
Könnte jemand erklären, ob dies ein gewünschtes oder erwartetes Verhalten des T-Tests ist oder ob es mehr mit meinem speziellen Datensatz zu tun hat (extrem niedrige Stichprobengröße vielleicht?). Ist der T-Test für diesen bestimmten Datensatz ungeeignet?
Aus rein rechnerischer Sicht scheint der Grund für einen schlechteren p-Wert die Freiheitsgrade zu sein, die im AD-Vergleich 2,018 betragen, während sie im AC-Vergleich 3,566 betragen. Aber wenn Sie nur diese Zahlen gesehen hätten, würden Sie nicht glauben, dass es im Vergleich zu AC stärkere Beweise dafür gibt, die Nullhypothese im AD-Fall abzulehnen?
Einige könnten vorschlagen, dass dies hier kein Problem ist, da alle p-Werte sowieso ziemlich niedrig sind. Mein Problem ist, dass diese 3 Tests Teil einer Reihe von Tests sind, die ich durchführe. Nach der Korrektur mehrerer Tests führt der AD-Vergleich nicht zum Schnitt, während der AC-Vergleich dies tut. Stellen Sie sich vor, Sie zeichnen diese Zahlen (sagen wir Balkendiagramme mit Fehlerbalken, wie es Biologen oft tun) und versuchen zu rechtfertigen, warum C sich signifikant von A unterscheidet, D aber nicht ... nun, ich kann nicht.
Update: warum das wirklich wichtig ist
Lassen Sie mich klarstellen, warum diese Beobachtung einen großen Einfluss auf die Interpretation früherer Studien haben könnte. In der Bioinfomatik habe ich gesehen, dass der t-Test auf kleine Probengrößen in großem Maßstab angewendet werden kann (denken Sie an die unterschiedliche Genexpression von Hunderten oder Tausenden von Genen oder an die Wirkung vieler verschiedener Medikamente auf eine Zelllinie mit nur 3-5 Replikaten ). Das übliche Verfahren besteht darin, viele t-Tests durchzuführen (einen für jedes Gen oder Arzneimittel), gefolgt von einer Korrektur mehrerer Tests, normalerweise FDR. Angesichts der obigen Beobachtung des Verhaltens des Welch-T-Tests bedeutet dies, dass einige der besten Fälle systematisch herausgefiltert werden. Obwohl die meisten Leute die tatsächlichen Daten für die Vergleiche oben auf ihrer Liste betrachten (diejenigen mit den besten p-Werten), kenne ich niemanden, der die Liste aller Vergleiche durchsehen wird, bei denen die Nullhypothese nicht war. t abgelehnt.
Antworten:
Ja, es sind die Freiheitsgrade. Die t-Statistiken selbst nehmen zu, wenn wir die Gruppen B, C, D mit A vergleichen; Die Zähler werden größer und die Nenner werden kleiner.
Warum "funktioniert" Ihr Ansatz nicht? Nun, die Satterthwaite-Näherung für die Freiheitsgrade und die Referenzverteilung ist (wie der Name schon sagt!) Nur eine Näherung. Es würde gut funktionieren, wenn Sie mehr Stichproben in jeder Gruppe hätten und keine Daten mit extrem hohen Schwänzen. 3 Beobachtungen pro Gruppe sind für die meisten Zwecke wirklich sehr klein. (Auch wenn p-Werte für Tests nützlich sind, messen sie keine Beweise und schätzen keine Parameter mit direkter Interpretation in Bezug auf Daten.)
Wenn Sie wirklich die genaue Verteilung der Teststatistik - und einen besser kalibrierten p-Wert - herausfinden möchten, können hier Methoden verwendet werden. Sie beruhen jedoch auf der Annahme der Normalität, eine Annahme, die Sie hier nicht nennenswert überprüfen können.
quelle
Diese Frage hat einiges zu bieten, und ich bin mir ziemlich sicher, dass ein Teil davon außerhalb meines Verständnisses liegt. Während ich also eine wahrscheinliche Lösung für das "Problem" und einige Spekulationen habe, müssen Sie möglicherweise meine "Funktionsweise" überprüfen.
Sie interessieren sich für Beweise. Fisher schlug die Verwendung von p-Werten als Beweis vor, aber der Beweis innerhalb eines Datensatzes gegen die Nullhypothese wird mit einer Wahrscheinlichkeitsfunktion leichter (vernünftiger?) Dargestellt als der p-Wert. Ein extremerer p-Wert ist jedoch ein stärkerer Beweis.
Dies ist meine Lösung: Verwenden Sie nicht den T-Test von Welch, sondern transformieren Sie die Daten mit einer Quadratwurzel-Transformation, um die Varianzen auszugleichen, und verwenden Sie dann einen Standard-T-Test für Schüler. Diese Transformation funktioniert gut mit Ihren Daten und ist einer der Standardansätze für heteroskedastische Daten. Die Reihenfolge der p-Werte entspricht jetzt Ihrer Intuition und dient als Beweis.
Wenn Sie p-Werte als Beweis verwenden, anstatt zu versuchen, sich vor langfristigen falsch positiven Fehlern zu schützen, werden die Argumente für die Anpassung der p-Werte für Mehrfachvergleiche meiner Meinung nach ziemlich schwach.
Nun zum spekulativen Teil. Soweit ich weiß, ist der T-Test von Welch eine Lösung für das Fisher-Behrens-Problem (Testen bedeutet, dass die Daten ungleiche Abweichungen aufweisen), aber es ist eine Lösung, mit der Fisher unzufrieden war. Vielleicht ist es ein Neyman-Pearsonianer in seiner zugrunde liegenden Philosophie. Wie auch immer, die Menge an Beweisen im ap-Wert aus einem t-Test hängt vom p-Wert UND von der Stichprobengröße ab. (Das ist nicht allgemein anerkannt, vielleicht weil der Nachweis des ap-Werts aus einem z-Test unabhängig von der Stichprobengröße ist.) Ich vermute, dass der Welch-Test die Beweiskraft des p-Werts durch die Anpassung der Freiheitsgrade vermasselt.
quelle
Nachdem ich mich umgesehen habe, denke ich, dass mein endgültiges Urteil ungefähr so lautet:
Betrachten wir zur Vereinfachung der Diskussion nur den Fall, in dem die Stichprobengrößen gleich sind. In diesem Fall kann die Annäherung an die Freiheitsgrade wie folgt geschrieben werden
Dabei sind und die Stichprobenvarianzen und die Stichprobengröße. Daher sind die Freiheitsgrade wenn die Stichprobenvarianzen gleich sind und sich wenn die Stichprobengrößen ungleicher werden. Dies bedeutet, dass sich die Freiheitsgrade nur aufgrund der Stichprobenvarianzen um den Faktor 2 unterscheiden. Selbst bei Stichprobengrößen mit angemessener Größe (z. B. 10 oder 20) kann die im Hauptbeitrag dargestellte Situation leicht auftreten. s 2 2 n ( n - 1 ) ⋅ 2 ( n - 1 )s21 s22 n (n−1)⋅2 (n−1)
Wenn viele t-Tests durchgeführt werden, kann das Sortieren der Vergleiche nach p-Wert leicht dazu führen, dass die besten Vergleiche nicht ganz oben auf der Liste stehen oder nach Anpassung für mehrere Tests ausgeschlossen werden.
Meine persönliche Meinung ist, dass dies ein grundlegender Fehler im Welch-T-Test ist, da er für Vergleiche zwischen Proben mit ungleichen Varianzen ausgelegt ist. Je ungleicher die Varianzen werden, desto mehr verlieren Sie an Leistung (in dem Sinne, dass die Reihenfolge Ihres p -Werte werden falsch sein).
Die einzige Lösung, die ich mir vorstellen kann, besteht darin, stattdessen entweder permutationsbasierte Tests zu verwenden oder die Daten so zu transformieren, dass die Abweichungen in Ihren Tests nicht zu weit voneinander entfernt sind.
quelle
Soweit ich weiß, habe ich Welchs T-Test gehört, der die Satterthwaite-Näherung verwendet
wird für den 0,05-Signifikanztest verifiziert.
Was bedeutet, wenn P (lineare Kombination der Chi-Quadrat-Verteilung> c) = 0,05 ist,
wir können ungefähr c erhalten.
Ich denke also, dass der p-Wert um 0,05 ziemlich zuverlässig ist.
Und offensichtlich ist es nicht so, wenn es viel weniger als 0,05 wird.
p1 = 0 p2 = 0 für (m in 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.test (a, c, var.eqaul = F) p. Wert} Diagramm (1:50, p1, col = "schwarz") Punkte (1:50, p2, col = "rot")p.valuep2[m]=t.test(a,d,var.eqaul=F)
Sie können sehen, dass die p-Werte korrekter werden, wenn sie sich 0,05 nähern ...
Wir dürfen also keine p-Werte verwenden, die viel kleiner als 0,05 sind, wenn wir den Welch-t-Test verwenden.
Wenn es verwendet wird, sollten wir ein Papier darüber schreiben.
Jedenfalls schreibe ich gerade über "Statistik" und dieses Thema ist faszinierend.
Ich hoffe, dass Sie Ihre Daten verwenden können, um das Buch mit Ihrer Erlaubnis zu schreiben.
Würden Sie mich Ihre Daten verwenden lassen?
Und ich wäre Ihnen dankbar, wenn Sie die Datenquelle und den Kontext angeben könnten, aus dem sie stammen
Sie kamen!
quelle