In meinem Statistikprogramm werden sowohl die Verfahren Benjamini & Hochberg (1995) als auch Benjamini & Yekutieli (2001) für die Falschentdeckungsrate (FDR) implementiert. Ich habe mein Bestes getan, um die spätere Abhandlung durchzulesen, aber sie ist ziemlich mathematisch dicht und ich bin nicht sicher, ob ich den Unterschied zwischen den Abläufen verstehe. Ich kann anhand des zugrunde liegenden Codes in meinem Statistikprogramm erkennen, dass diese tatsächlich unterschiedlich sind und dass letzterer eine Menge q enthält, auf die ich in Bezug auf FDR Bezug genommen habe, die ich aber auch nicht ganz verstehe.
Gibt es einen Grund, das Benjamini & Hochberg (1995) -Verfahren dem Benjamini & Yekutieli (2001) -Verfahren vorzuziehen? Haben sie unterschiedliche Annahmen? Was sind die praktischen Unterschiede zwischen diesen Ansätzen?
Benjamini, Y. und Hochberg, Y. (1995). Kontrolle der Rate falscher Entdeckungen: ein praktischer und leistungsstarker Ansatz für mehrere Tests. Zeitschrift der Royal Statistical Society Series B, 57, 289–300.
Benjamini, Y. und Yekutieli, D. (2001). Die Kontrolle der Falschentdeckungsrate bei Mehrfachtests in Abhängigkeit. Annals of Statistics 29, 1165–1188.
Das Papier von 1999, auf das in den nachstehenden Kommentaren Bezug genommen wird: Yekutieli, D. & Benjamini, Y. (1999). Resampling-basierte Falscherkennungsrate, die mehrere Testverfahren für korrelierte Teststatistiken steuert. Journal of Statistical Planning and Inference, 82 (1), 171-196.
quelle
Antworten:
Benjamini und Hochberg (1995) führten die Falschentdeckungsrate ein. Benjamini und Yekutieli (2001) haben bewiesen, dass der Schätzer unter bestimmten Formen der Abhängigkeit gültig ist. Abhängigkeit kann wie folgt entstehen. Betrachten Sie die kontinuierliche Variable, die in einem t-Test verwendet wird, und eine andere Variable, die damit korreliert ist. B. testen, ob sich der BMI in zwei Gruppen unterscheidet und ob sich der Taillenumfang in diesen beiden Gruppen unterscheidet. Da diese Variablen korreliert sind, werden auch die resultierenden p-Werte korreliert. Yekutieli und Benjamini (1999) entwickelten ein weiteres FDR-Kontrollverfahren, das in allgemeiner Abhängigkeit durch Resampling der Nullverteilung angewendet werden kann. Da sich der Vergleich auf die Nullpermutationsverteilung bezieht, wird das Verfahren konservativer, wenn die Gesamtzahl der echten Positiven zunimmt. Es stellt sich heraus, dass BH 1995 auch konservativ ist, wenn die Anzahl der echten Positiven zunimmt. Um dies zu verbessern, führten Benjamini und Hochberg (2000) das adaptive FDR-Verfahren ein. Dies erforderte die Schätzung eines Parameters, des Nullanteils, der auch im pFDR-Schätzer von Storey verwendet wird. Storey gibt Vergleiche und argumentiert, dass seine Methode leistungsfähiger ist und den konservativen Charakter des Verfahrens von 1995 betont. Storey hat auch Ergebnisse und Simulationen in Abhängigkeit.
Alle oben genannten Prüfungen gelten unabhängig voneinander. Die Frage ist, um welche Art von Abweichung von der Unabhängigkeit es sich bei diesen Schätzungen handelt.
Wenn Sie nicht zu viele echte positive Ergebnisse erwarten, ist das BY (1999) -Verfahren meines Erachtens gut, da es Verteilungsmerkmale und Abhängigkeiten enthält. Mir ist jedoch keine Implementierung bekannt. Die Methode von Storey wurde für viele echte Positive mit einer gewissen Abhängigkeit entwickelt. BH 1995 bietet eine Alternative zur familienbezogenen Fehlerquote und ist nach wie vor konservativ.
Benjamini, Y und Y Hochberg. Zur adaptiven Steuerung der Falscherkennungsrate bei Mehrfachtests mit unabhängigen Statistiken. Zeitschrift für Bildungs- und Verhaltensstatistik, 2000.
quelle
p.adjust wechselt nicht zu BY. Der Verweis bezieht sich auf Satz 1.3 (Beweis in Abschnitt 5 auf S.1182) in der Arbeit:
Benjamini, Y. und Yekutieli, D. (2001). Die Kontrolle der Falschentdeckungsrate bei Mehrfachtests in Abhängigkeit. Annals of Statistics 29, 1165–1188.
Da in diesem Artikel verschiedene Anpassungen behandelt werden, ist der Verweis auf der Hilfeseite (zum Zeitpunkt des Schreibens) für p.adjust () etwas undeutlich. Es ist garantiert, dass die Methode FDR mit der angegebenen Rate unter der allgemeinsten Abhängigkeitsstruktur kontrolliert. Die Folien von Christopher Genovese enthalten informative Kommentare unter: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Beachten Sie den Kommentar auf Folie 37, der sich auf die Methode von Satz 1.3 in der Arbeit von BY 2001 [method = 'BY' mit p.adjust ()] dass: "Leider ist dies typischerweise sehr konservativ, manchmal sogar mehr als Bonferroni."
Zahlenbeispiel:
method='BY'
vsmethod='BH'
Das Folgende vergleicht method = 'BY' mit method = 'BH' unter Verwendung der Funktion p.adjust () von R für die p-Werte aus Spalte 2 von Tabelle 2 in der Arbeit von Benjamini und Hochberg (2000):
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0
quelle