Der t-Test von Welch ergibt einen schlechteren p-Wert für extremere Unterschiede

8

Hier sind vier verschiedene Zahlenreihen:

A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}

Mit einem t-Test mit zwei Stichproben ohne Annahme gleicher Varianzen vergleiche ich B, C und D mit A und erhalte die folgenden p-Werte:

0,015827 (A gegen B)
0,000283 (A gegen C)
0,001190 (A gegen D)

Ich finde es seltsam, dass der p-Wert aus dem AD-Test schlechter ist als der AC-Test: Der Unterschied zwischen den Mitteln ist deutlich größer UND die Varianz von D ist viel geringer als die Varianz von C. Intuitiv (zumindest für meine Intuition) ) sollten diese beiden Tatsachen den p-Wert senken.

Könnte jemand erklären, ob dies ein gewünschtes oder erwartetes Verhalten des T-Tests ist oder ob es mehr mit meinem speziellen Datensatz zu tun hat (extrem niedrige Stichprobengröße vielleicht?). Ist der T-Test für diesen bestimmten Datensatz ungeeignet?

Aus rein rechnerischer Sicht scheint der Grund für einen schlechteren p-Wert die Freiheitsgrade zu sein, die im AD-Vergleich 2,018 betragen, während sie im AC-Vergleich 3,566 betragen. Aber wenn Sie nur diese Zahlen gesehen hätten, würden Sie nicht glauben, dass es im Vergleich zu AC stärkere Beweise dafür gibt, die Nullhypothese im AD-Fall abzulehnen?

Einige könnten vorschlagen, dass dies hier kein Problem ist, da alle p-Werte sowieso ziemlich niedrig sind. Mein Problem ist, dass diese 3 Tests Teil einer Reihe von Tests sind, die ich durchführe. Nach der Korrektur mehrerer Tests führt der AD-Vergleich nicht zum Schnitt, während der AC-Vergleich dies tut. Stellen Sie sich vor, Sie zeichnen diese Zahlen (sagen wir Balkendiagramme mit Fehlerbalken, wie es Biologen oft tun) und versuchen zu rechtfertigen, warum C sich signifikant von A unterscheidet, D aber nicht ... nun, ich kann nicht.

Update: warum das wirklich wichtig ist

Lassen Sie mich klarstellen, warum diese Beobachtung einen großen Einfluss auf die Interpretation früherer Studien haben könnte. In der Bioinfomatik habe ich gesehen, dass der t-Test auf kleine Probengrößen in großem Maßstab angewendet werden kann (denken Sie an die unterschiedliche Genexpression von Hunderten oder Tausenden von Genen oder an die Wirkung vieler verschiedener Medikamente auf eine Zelllinie mit nur 3-5 Replikaten ). Das übliche Verfahren besteht darin, viele t-Tests durchzuführen (einen für jedes Gen oder Arzneimittel), gefolgt von einer Korrektur mehrerer Tests, normalerweise FDR. Angesichts der obigen Beobachtung des Verhaltens des Welch-T-Tests bedeutet dies, dass einige der besten Fälle systematisch herausgefiltert werden. Obwohl die meisten Leute die tatsächlichen Daten für die Vergleiche oben auf ihrer Liste betrachten (diejenigen mit den besten p-Werten), kenne ich niemanden, der die Liste aller Vergleiche durchsehen wird, bei denen die Nullhypothese nicht war. t abgelehnt.

ALiX
quelle
1
Denken Sie daran, die Welch-Formel ist eine Annäherung. Simulationsstudien zeigen, dass die "Welch-Korrektur zu konservativ wird, wenn die Stichprobengrößen stark ungleich sind", was beim AD-Vergleich der Fall ist.
whuber
1
Die Stichprobengrößen sind in diesem Fall @whuber gleich. Meinten Sie Stichprobenabweichungen?
ALiX
1
Danke, ALiX, du hast recht. Für den Fall von sehr ungleichen Varianzen und gleichen Stichprobengrößen hätte ich eine andere Schlussfolgerung zitieren sollen (was noch schlimmer ist!): "... Fehler vom Typ I ... wird in unterschiedlichem Maße aufgeblasen, so dass die Tests ungültig sind und sollte nicht benutzt werden."
whuber
Ich frage mich, ob Ihre Daten von rna-seq gelesen werden. Wenn ja, kann ich vorschlagen, dass Sie sich mit DESeq (R / Bioconductor-Paket) befassen? Genombiologie.com/2010/11/10/R106
bdemarest

Antworten:

3

Ja, es sind die Freiheitsgrade. Die t-Statistiken selbst nehmen zu, wenn wir die Gruppen B, C, D mit A vergleichen; Die Zähler werden größer und die Nenner werden kleiner.

Warum "funktioniert" Ihr Ansatz nicht? Nun, die Satterthwaite-Näherung für die Freiheitsgrade und die Referenzverteilung ist (wie der Name schon sagt!) Nur eine Näherung. Es würde gut funktionieren, wenn Sie mehr Stichproben in jeder Gruppe hätten und keine Daten mit extrem hohen Schwänzen. 3 Beobachtungen pro Gruppe sind für die meisten Zwecke wirklich sehr klein. (Auch wenn p-Werte für Tests nützlich sind, messen sie keine Beweise und schätzen keine Parameter mit direkter Interpretation in Bezug auf Daten.)

Wenn Sie wirklich die genaue Verteilung der Teststatistik - und einen besser kalibrierten p-Wert - herausfinden möchten, können hier Methoden verwendet werden. Sie beruhen jedoch auf der Annahme der Normalität, eine Annahme, die Sie hier nicht nennenswert überprüfen können.

Gast
quelle
Mehr Proben allein würden nicht helfen: Ich würde niedrigere p-Werte erhalten, aber die Reihenfolge der p-Werte wäre dieselbe. Siehe mein Update, warum dies in einigen Anwendungen wichtig sein kann.
ALiX
Ich stimme zu, dass dieses Phänomen wichtig sein könnte, aber mehr Proben pro Gruppe würden helfen; asymptotisch ergibt der Test genaue p-Werte. Bei winzigen Gruppen gibt es jedoch genaue Methoden (z. B. SAM von Tibshirani), deren statistische Validität durch permutationsbasierte Analyse erhalten wird.
Gast
Wenn es einen großen Unterschied zwischen den Varianzen der beiden Gruppen gibt, hilft eine erhöhte Stichprobengröße nicht in dem Sinne, dass die Reihenfolge der p-Werte falsch ist (dh AC hat immer noch einen niedrigeren p-Wert als AD). SAM kann nicht verwendet werden, wenn Sie die Wirkung vieler Verbindungen in unterschiedlichen Konzentrationen testen (dies sollte eine ideale Anwendung des t-Tests sein). Der T-Test von Welch scheint mir grundlegend fehlerhaft zu sein : Er dient dazu, ungleiche Varianzen zu behandeln. Je ungleicher die Varianzen sind, desto schlechter ist seine Leistung (die Annäherung an den Freiheitsgrad bricht zusammen).
ALiX
1
Wenn Sie paarweise Vergleiche der verschiedenen Konzentrationsniveaus wünschen und Genexpressionsniveaus über viele Gene testen, kann SAM für jeden paarweisen Vergleich verwendet werden und gibt Ihnen ehrliche Aussagen von statistischer Signifikanz für jeden Vergleich. Wenn Sie möchten, können Sie diese dann verwenden, um die Vergleiche zu bewerten. Auch der Welch-Test ist nicht grundlegend fehlerhaft. Sicher, es funktioniert einfach nicht gut mit n = 3, aber das ist nicht das, was es behauptet zu tun. Eine Fahrradpumpe ist hoffnungslos zum Schälen von Kartoffeln, aber das bedeutet nicht, dass Sie daraus schließen können, dass sie "grundlegend fehlerhaft" ist.
Gast
1
Die Reihenfolge ist möglicherweise falsch, egal was Sie tun, das hilft also nicht. Wenn Sie nach statistischer Signifikanz der mittleren Differenz zwischen den Gruppen in Ihren tatsächlichen Daten ordnen möchten und Stichproben mittlerer Größe haben möchten, ist der p-Wert aus dem Welch-Test ausreichend. Bei winzigen Stichprobengrößen ist dies nicht der Fall, aber da es als Annäherung entwickelt wurde und besser funktioniert als viele Mitbewerber, ist dies kein Grund zur Kritik.
Gast
1

Diese Frage hat einiges zu bieten, und ich bin mir ziemlich sicher, dass ein Teil davon außerhalb meines Verständnisses liegt. Während ich also eine wahrscheinliche Lösung für das "Problem" und einige Spekulationen habe, müssen Sie möglicherweise meine "Funktionsweise" überprüfen.

Sie interessieren sich für Beweise. Fisher schlug die Verwendung von p-Werten als Beweis vor, aber der Beweis innerhalb eines Datensatzes gegen die Nullhypothese wird mit einer Wahrscheinlichkeitsfunktion leichter (vernünftiger?) Dargestellt als der p-Wert. Ein extremerer p-Wert ist jedoch ein stärkerer Beweis.

Dies ist meine Lösung: Verwenden Sie nicht den T-Test von Welch, sondern transformieren Sie die Daten mit einer Quadratwurzel-Transformation, um die Varianzen auszugleichen, und verwenden Sie dann einen Standard-T-Test für Schüler. Diese Transformation funktioniert gut mit Ihren Daten und ist einer der Standardansätze für heteroskedastische Daten. Die Reihenfolge der p-Werte entspricht jetzt Ihrer Intuition und dient als Beweis.

Wenn Sie p-Werte als Beweis verwenden, anstatt zu versuchen, sich vor langfristigen falsch positiven Fehlern zu schützen, werden die Argumente für die Anpassung der p-Werte für Mehrfachvergleiche meiner Meinung nach ziemlich schwach.

Nun zum spekulativen Teil. Soweit ich weiß, ist der T-Test von Welch eine Lösung für das Fisher-Behrens-Problem (Testen bedeutet, dass die Daten ungleiche Abweichungen aufweisen), aber es ist eine Lösung, mit der Fisher unzufrieden war. Vielleicht ist es ein Neyman-Pearsonianer in seiner zugrunde liegenden Philosophie. Wie auch immer, die Menge an Beweisen im ap-Wert aus einem t-Test hängt vom p-Wert UND von der Stichprobengröße ab. (Das ist nicht allgemein anerkannt, vielleicht weil der Nachweis des ap-Werts aus einem z-Test unabhängig von der Stichprobengröße ist.) Ich vermute, dass der Welch-Test die Beweiskraft des p-Werts durch die Anpassung der Freiheitsgrade vermasselt.

Michael Lew
quelle
Vielen Dank, dass Sie auf die Quadratwurzel-Transformation als Lösung hingewiesen haben. Ich werde es untersuchen.
ALiX
(Fortsetzung) Ich verstehe Ihren Kommentar zu p-Werten und Mehrfachtests nicht wirklich. Gibt es einen Widerspruch zwischen der Verwendung von p-Werten als Beweis und der Anpassung für mehrere Tests? Und Ihr letzter Kommentar zu den Beweisen in einem p-Wert aus einem t-Test in Abhängigkeit von der Stichprobengröße: Passen sich die Freiheitsgrade nicht an die Stichprobengröße an? Und wie könnte sich dies auf diesen bestimmten Datensatz auswirken, wenn die Stichprobengrößen für alle Vergleiche gleich sind?
ALiX
@AliX Der Beweis gegen die Nullhypothese wird am besten durch die Wahrscheinlichkeitsfunktion quantifiziert. Bei einem t-Test hängt die Höhe der Wahrscheinlichkeitsfunktion, die einem bestimmten p-Wert entspricht, von der Stichprobengröße ab. Im Gegensatz dazu wird bei einem Z-Test die Höhe der Wahrscheinlichkeitsfunktion nicht von der Stichprobengröße beeinflusst. Wenn Sie an Beweisen interessiert sind, dann schlage ich vor, dass Sie sich Statistical Evidence: A Likelihood Paradigm von Richard Royall ansehen.
Michael Lew
1

Nachdem ich mich umgesehen habe, denke ich, dass mein endgültiges Urteil ungefähr so ​​lautet:

Betrachten wir zur Vereinfachung der Diskussion nur den Fall, in dem die Stichprobengrößen gleich sind. In diesem Fall kann die Annäherung an die Freiheitsgrade wie folgt geschrieben werden

(s12n+s22n)2s14n2(n1)+s24n2(n1)=...=(n1)(1+2s12s22s14+s24),

Dabei sind und die Stichprobenvarianzen und die Stichprobengröße. Daher sind die Freiheitsgrade wenn die Stichprobenvarianzen gleich sind und sich wenn die Stichprobengrößen ungleicher werden. Dies bedeutet, dass sich die Freiheitsgrade nur aufgrund der Stichprobenvarianzen um den Faktor 2 unterscheiden. Selbst bei Stichprobengrößen mit angemessener Größe (z. B. 10 oder 20) kann die im Hauptbeitrag dargestellte Situation leicht auftreten. s 2 2 n ( n - 1 ) 2 ( n - 1 )s12s22n(n1)2(n1)

Wenn viele t-Tests durchgeführt werden, kann das Sortieren der Vergleiche nach p-Wert leicht dazu führen, dass die besten Vergleiche nicht ganz oben auf der Liste stehen oder nach Anpassung für mehrere Tests ausgeschlossen werden.

Meine persönliche Meinung ist, dass dies ein grundlegender Fehler im Welch-T-Test ist, da er für Vergleiche zwischen Proben mit ungleichen Varianzen ausgelegt ist. Je ungleicher die Varianzen werden, desto mehr verlieren Sie an Leistung (in dem Sinne, dass die Reihenfolge Ihres p -Werte werden falsch sein).

Die einzige Lösung, die ich mir vorstellen kann, besteht darin, stattdessen entweder permutationsbasierte Tests zu verwenden oder die Daten so zu transformieren, dass die Abweichungen in Ihren Tests nicht zu weit voneinander entfernt sind.

ALiX
quelle
1
Ich denke nicht, dass es "grundlegender Fehler" genannt werden sollte. Alles ist relativ zu etwas. Der T-Test von Welch wurde als Reaktion auf einen unterschätzten Typ-I-Fehler des T-Tests der Spool-Varianz veröffentlicht. Daher ist dies eine verbesserte Methode zur Kontrolle des Typ-I-Fehlers im Vergleich zum Sp-Varianz-T-Test. Aber wenn es um MCP und sehr niedrige p-Werte geht, hat es sicher Probleme.
KH Kim
2
Wie werden Sie Ihre Permutationen organisieren? Wenn die Stichproben tatsächlich aus Populationen stammen, die sich in der Varianz unterscheiden, sind die Gruppenbezeichnungen auch unter Null nicht willkürlich - bei einem Wert nahe , wenn ein Wert nahe am Mittelwert liegt, ist es viel wahrscheinlicher, dass er aus der Gruppe mit geringerer Varianz stammt. Sie scheinen also nicht in der Lage zu sein, das Argument vorzubringen, dass Sie nur Beschriftungen unter der Null permutieren können. n
Glen_b -State Monica
0

Soweit ich weiß, habe ich Welchs T-Test gehört, der die Satterthwaite-Näherung verwendet

wird für den 0,05-Signifikanztest verifiziert.

Was bedeutet, wenn P (lineare Kombination der Chi-Quadrat-Verteilung> c) = 0,05 ist,

wir können ungefähr c erhalten.

Ich denke also, dass der p-Wert um 0,05 ziemlich zuverlässig ist.

Und offensichtlich ist es nicht so, wenn es viel weniger als 0,05 wird.

p1 = 0 p2 = 0 für (m in 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.test (a, c, var.eqaul = F) p. Wert} Diagramm (1:50, p1, col = "schwarz") Punkte (1:50, p2, col = "rot")p.valuep2[m]=t.test(a,d,var.eqaul=F)

Sie können sehen, dass die p-Werte korrekter werden, wenn sie sich 0,05 nähern ...

Wir dürfen also keine p-Werte verwenden, die viel kleiner als 0,05 sind, wenn wir den Welch-t-Test verwenden.

Wenn es verwendet wird, sollten wir ein Papier darüber schreiben.

Jedenfalls schreibe ich gerade über "Statistik" und dieses Thema ist faszinierend.

Ich hoffe, dass Sie Ihre Daten verwenden können, um das Buch mit Ihrer Erlaubnis zu schreiben.

Würden Sie mich Ihre Daten verwenden lassen?

Und ich wäre Ihnen dankbar, wenn Sie die Datenquelle und den Kontext angeben könnten, aus dem sie stammen

Sie kamen!

KH Kim
quelle
Ich habe einige Nachforschungen angestellt und festgestellt, dass die Annäherung so aussieht. Sie möchten die Verteilung von a chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2) kennen, aber die genaue Verteilung ist so kompliziert, dass die Annäherung einsetzt. Und lassen Sie a chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3) und setze df3 so, dass die Mittelwerte und die zweiten Momente zweier Verteilungen gleich sind. also ist p = 0,5 genau, aber wenn es weiter von ihm entfernt ist, wird die Differenz b2 das exakte p und das ungefähre p größer. Ich erinnere mich, als Welchs t aufgeführt wurde, druckte R immer "p-Wert ist nicht genau", denke ich
KH Kim
Ich analysiere nur die Daten und als solche gehören die Daten nicht wirklich mir. Sobald die Daten veröffentlicht sind (sollten bald verfügbar sein), sollten Sie sie nach Belieben verwenden können.
ALiX