Stouffers Z-Score-Methode: Was ist, wenn wir anstelle von ?

22

Ich führe unabhängige statistische Tests mit derselben Nullhypothese durch und möchte die Ergebnisse zu einem Wert kombinieren . Es scheint, dass es zwei "akzeptierte" Methoden gibt: die Fisher-Methode und die Stouffer-Methode .pNp

Meine Frage betrifft die Methode von Stouffer. Für jeden einzelnen Test ich einen z-Score . Unter einer Nullhypothese wird jede von ihnen mit einer Standardnormalverteilung verteilt, so dass die Summe einer Normalverteilung mit der Varianz folgt . Daher schlägt Stouffers Methode vor, zu berechnen , das normal mit der Einheitsvarianz verteilt werden soll, und dieses dann als gemeinsames Z-Ergebnis zu verwenden. Σ z i N Σ z i / ziΣziNΣzi/N

Das ist vernünftig, aber hier ist ein anderer Ansatz, den ich mir ausgedacht habe und der sich für mich auch vernünftig anhört. Da jedes von aus einer Standardnormalverteilung stammt, sollte die Summe der Quadrate aus einer Chi-Quadrat-Verteilung mit Freiheitsgraden stammen. So kann man berechnen und an einem wandeln p -Wertes unter Verwendung kumulative Chi-Quadrat - Verteilungsfunktion mit N Freiheitsgraden ( p = 1-x_n (S) , wo x_n ist die CDF). S = Σ Z 2 i N S p N p = 1 - X N ( S ) X NziS=Σzich2NSpNp=1-XN(S)XN

Nirgendwo kann ich diesen Ansatz jedoch überhaupt erwähnen. Wird es jemals benutzt? Hat es einen Namen? Was wären Vor- und Nachteile gegenüber der Stouffer-Methode? Oder ist meine Argumentation fehlerhaft?

Amöbe sagt Reinstate Monica
quelle
Ein hervorstechender Fehler ist, dass Stouffers Methode systematische Verschiebungen im z_i erkennen kann. Dieszich ist das, was man normalerweise erwarten würde, wenn eine Alternative durchgehend zutrifft, während die Chi-Quadrat-Methode weniger Macht zu haben scheint. Eine schnelle Simulation ( N=100 , 104 Iterationen) zeigt, dass dies der Fall ist; die Chi-Quadrat - Methode ist ernst weniger leistungsfähig eine einseitige Alternative zu erfassen.
Whuber
2
Danke, whuber! Könnten Sie Ihre Simulation genauer beschreiben, ich bin gespannt. Auf der anderen Seite, wenn unterschiedliche Vorzeichen, aber große absolute Werte haben, kann die Stouffer-Methode insgesamt , wohingegen meine Methode ein SEHR signifikantes liefern würde . Ich denke, in einigen Fällen kann es viel sinnvoller sein (und ich vermute in meinem Fall, aber ich bin nicht sicher). z 0 pziz0p
Amöbe sagt Reinstate Monica
1
Sie haben recht, weshalb ich meinen Kommentar nicht als Antwort gepostet habe. Aber welche Situationen gibt es, in denen die Alternativen so radikal von der Null in beide Richtungen abweichen , außer aufgrund des Zufalls allein?
Whuber
Die Situation, an die ich gedacht habe, ähnelt derjenigen in Pearsons Chi-Quadrat-Test, bei dem es darum geht, ob sich eine empirische Verteilung von der Null unterscheidet. dann sind Abweichungen in beide Richtungen wichtig. Aber nachdem ich es mir noch einmal überlegt habe, denke ich, dass Ihre Intuition korrekt ist und in meinem Fall sind verdächtige Abweichungen alle in eine Richtung. Wenn Sie Ihren Kommentar als Antwort posten und einige Details zu Ihrer schnellen Simulation angeben (ich bin sehr gespannt, warum die Chi-Quadrat-Methode weniger leistungsfähig ist!), Werde ich ihn gerne akzeptieren.
Amöbe sagt Reinstate Monica
Die Summe von n Z Punkten hat eine Verteilung mit einer Varianz von n? Warum ist die Varianz nicht das Quadrat des Standardfehlers des Mittelwerts? Die im Titel implizierte Summe von hat eine Varianz von N. Vielleicht fehlt mir etwas Offensichtliches? Z2
Russellpierce

Antworten:

17

Ein herausstechender Fehler ist, dass die Stouffer-Methode systematische Verschiebungen im erkennen kann. ist das, was man normalerweise erwarten würde, wenn eine Alternative durchgehend zutrifft, während die Chi-Quadrat-Methode weniger Macht zu haben scheint. Eine schnelle Simulation zeigt, dass dies der Fall ist. Die Chi-Quadrat-Methode ist weniger leistungsfähig, um eine einseitige Alternative zu erkennen. Hier sind Histogramme der p-Werte nach beiden Methoden (rot = Stouffer, blau = Chi-Quadrat) für unabhängige Iterationen mit und verschiedenen einseitigen standardisierten Effekten Bereich von none ( ). bis SD ( ).10 5 N = 10 μ μ = 0 0,6 μ = 0,6zich105N=10μμ=00,6μ=0,6

Zahl

Das bessere Verfahren hat mehr Fläche nahe Null. Für alle positiven Werte von ist diese Prozedur die Stouffer-Prozedur.μ


R-Code

Dies schließt die (auskommentierte) Fisher-Methode zum Vergleich ein.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })
whuber
quelle
Nochmals vielen Dank, das ist sehr schön. Und was passiert, wenn Sie die Methode von Fisher auskommentieren? Ich vermute, Sie haben es bereits versucht. Gewinnt Stouffer konsequent? (Tut mir leid, dass ich es nicht selbst ausprobiert habe, aber ich habe keine Erfahrung mit R und habe es nicht zur Hand.)
Amöbe sagt Reinstate Monica
Update: in Bezug auf Vergleich zwischen Fisher und Stouffer Methoden finde ich eine nette Diskussion hier . Die Behauptung ist, dass Stouffer empfindlicher für konsistente Abweichungen von Null ist, während Fisher empfindlicher für einzelne (aber große) Abweichungen ist. Ich vermute, Sie hatten in Ihrer Simulation konsistente Abweichungen ( in allen Tests gleich), richtig? Ich frage mich, was passieren würde, wenn nur 1 von Tests eine starke Abweichung zeigt. μNN
Amöbe sagt Reinstate Monica
1
Sie können die RSimulation leicht modifizieren , um dies zu testen. Es ist eine gute Möglichkeit, sich mit dieser Plattform für statistische Berechnungen vertraut zu machen. :-)
whuber
2
Ich habe matlab verwendet, um Ihre Simulation zu reproduzieren. Schlussfolgerungen: Wenn alle konsistent von 0 abweichen, dann gewinnt Stouffer mit einem kleinen Vorsprung über Fisher und "meine" Methode verliert hoffnungslos (wie Sie gezeigt haben). Wenn nur einer von stark von 0 abweicht, gewinnt Fisher mit einem kleinen Spielraum über "meine" Methode und Stouffer verliert hoffnungslos. zichzich
Amöbe sagt Reinstate Monica
Tolle Diskussion und QS! Eine kurze Frage: Was , wenn man Formen dieses Problem als ein Ausreißer / Anomalieerkennung durch Berechnung Mahalanobisabstand und folgen Sie so etwas wie dies ?
NULL
10

Eine allgemeine Möglichkeit, einen Einblick in die Teststatistik zu gewinnen, besteht darin, die (normalerweise impliziten) zugrunde liegenden Annahmen abzuleiten, die dazu führen würden, dass diese Teststatistik am leistungsfähigsten ist. Für diesen speziellen Fall haben ein Student und ich dies kürzlich getan: http://arxiv.org/abs/1111.1210v2 (eine überarbeitete Version soll in Annals of Applied Statistics erscheinen).

Um es kurz zusammenzufassen (und mit den Simulationsergebnissen in einer anderen Antwort übereinzustimmen): Die Methode von Stouffer ist am wirkungsvollsten, wenn die "wahren" zugrunde liegenden Effekte alle gleich sind. Die Summe von Z ^ 2 ist am stärksten, wenn die zugrunde liegenden Effekte normalerweise um 0 verteilt sind. Dies ist eine leichte Vereinfachung, bei der Details weggelassen werden: Weitere Informationen finden Sie in Abschnitt 2.5 des oben verlinkten Vorabdrucks von arxiv.

mstephens
quelle
2
(+1) Irgendwie dachte ich, ich hätte es vor langer Zeit geschrieben, aber anscheinend nicht: Vielen Dank, dass Sie sich hier speziell registriert haben, um meine Frage zu beantworten! Ich schätze es. Abschnitt 2.5 in Ihrem Artikel ist in der Tat sehr relevant.
Amöbe sagt Reinstate Monica
3

Geringfügig o / t: Eines der Probleme bei beiden Ansätzen ist der Leistungsverlust aufgrund der Freiheitsgrade (N für Stouffer; 2N für Fisher). Hierfür wurden bessere metaanalytische Ansätze entwickelt, die Sie möglicherweise in Betracht ziehen möchten (z. B. inverse varianzgewichtete Metaanalyse).

Wenn Sie nach Beweisen für einige alternative Tests in einer Gruppe suchen, sollten Sie sich Donohos und Jins Statistik der höheren Kritik ansehen: https://projecteuclid.org/euclid.aos/1085408492

Cotsapas
quelle
1

Zur Beantwortung der Frage und für alle weiteren Leser: Wird es jemals verwendet? Gibt es ein erschöpfendes Papier von Cousins ​​(2008) über arXiv, in dem einige alternative Ansätze aufgelistet und besprochen wurden. Der vorgeschlagene scheint nicht zu erscheinen.

victor_v
quelle