Benjamini und Hochberg entwickelten die erste (und meines Erachtens immer noch am weitesten verbreitete) Methode zur Kontrolle der Falschentdeckungsrate (FDR).
Ich möchte mit einer Reihe von P-Werten beginnen, von denen jeder für einen anderen Vergleich dient, und entscheiden, welche niedrig genug sind, um als "Entdeckung" bezeichnet zu werden, und den FDR auf einen bestimmten Wert (z. B. 10%) steuern. Eine Annahme der üblichen Methode ist, dass die Vergleichssätze entweder unabhängig sind oder eine "positive Abhängigkeit" aufweisen, aber ich kann nicht genau herausfinden, was dieser Ausdruck im Zusammenhang mit der Analyse eines Satzes von P-Werten bedeutet.
multiple-comparisons
non-independent
false-discovery-rate
Harvey Motulsky
quelle
quelle
Antworten:
Aus Ihrer Frage und insbesondere Ihren Kommentaren zu anderen Antworten scheint mir, dass Sie hier hauptsächlich verwirrt sind über das "große Ganze": Was bedeutet "positive Abhängigkeit" in diesem Zusammenhang überhaupt - im Gegensatz zu was? ist die technische Bedeutung der PRDS-Bedingung. Also werde ich über das große Ganze sprechen.
Das große Bild
Stellen Sie sich vor, Sie testen Nullhypothesen und stellen sich vor, dass alle von ihnen wahr sind. Jeder der -Werte ist eine Zufallsvariable; Wiederholtes Experimentieren würde jedes Mal einen anderen Wert ergeben , so dass man von einer Verteilung der Werte (unter der Null) sprechen kann . Es ist bekannt, dass für jeden Test eine Verteilung von Werten unter der Null gleich sein muss; Im Falle des Multiplettests sind daher alle Grenzverteilungen der Werte gleichmäßig.N p p p p N pN N p p p p N p
Wenn alle Daten und alle Tests unabhängig voneinander sind, ist auch die gemeinsame dimensionale Verteilung der Werte gleichmäßig. Dies wird z. B. in einer klassischen "Gummibärchen" -Situation der Fall sein, wenn eine Reihe unabhängiger Dinge getestet werden:N pN N p
Das muss aber nicht so sein. Jedes Paar von Werten kann im Prinzip entweder positiv oder negativ korreliert oder auf kompliziertere Weise abhängig sein. Erwägen Sie, alle paarweisen Mittelwertunterschiede zwischen vier Gruppen zu testen. das sind Tests. Jeder der sechs Werte ist gleichmäßig verteilt. Aber sie sind alle positiv korreliert: Wenn (bei einem gegebenen Versuch) Gruppe A zufällig einen besonders niedrigen Mittelwert hat, könnte ein Vergleich von A zu B einen niedrigen Wert ergeben (dies wäre ein falsch positiver Wert). In dieser Situation ist es jedoch wahrscheinlich, dass A-gegen-C sowie A-gegen-D ebenfalls niedrige Werte ergeben. Also derN = 4 ⋅ 3 / 2 = 6 p p p pp N=4⋅3/2=6 p p p p -Werte sind offensichtlich nicht unabhängig und außerdem positiv miteinander korreliert.
Dies ist informell, worauf sich "positive Abhängigkeit" bezieht.
Dies scheint eine häufige Situation bei mehreren Tests zu sein. Ein weiteres Beispiel wäre das Testen auf Unterschiede in mehreren Variablen, die miteinander korreliert sind. Das Erreichen eines signifikanten Unterschieds bei einem von ihnen erhöht die Wahrscheinlichkeit, einen signifikanten Unterschied bei einem anderen zu erzielen.
Es ist schwierig, ein natürliches Beispiel zu finden, bei dem Werte "negativ abhängig" wären. @ user43849 bemerkte in den obigen Kommentaren, dass es für einseitige Tests einfach ist:p
Aber ich konnte bisher kein natürliches Beispiel mit Punkt-Nullen finden.
Nun ist die genaue mathematische Formulierung der "positiven Abhängigkeit", die die Gültigkeit des Benjamini-Hochberg-Verfahrens garantiert, ziemlich schwierig. Wie in anderen Antworten erwähnt, ist die Hauptreferenz Benjamini & Yekutieli 2001 ; sie zeigen, dass die PRDS-Eigenschaft ("positive Regressionsabhängigkeit von jeder aus einer Teilmenge") das Benjamini-Hochberg-Verfahren umfasst. Es ist eine entspannte Form der PRD-Eigenschaft ("Positive Regression Dependency"), was bedeutet, dass PRD PRDS impliziert und daher auch das Benjamini-Hochberg-Verfahren umfasst.
Die Definitionen von PRD / PRDS finden Sie in der Antwort (+1) von @ user43849 und in der Arbeit von Benjamini & Yekutieli. Die Definitionen sind eher technisch und ich verstehe sie nicht gut. Tatsächlich erwähnt B & Y auch mehrere andere verwandte Konzepte: multivariate Gesamtpositivität der zweiten Ordnung (MTP2) und positive Assoziation. Laut B & Y hängen sie wie folgt zusammen (das Diagramm ist meins):
MTP2 impliziert PRD, dh PRDS, das die Richtigkeit des BH-Verfahrens garantiert. PRD bedeutet auch PA, aber PA PRDS.≠
quelle
Gute Frage! Lassen Sie uns einen Schritt zurücktreten und verstehen, was Bonferroni getan hat und warum Benjamini und Hochberg eine Alternative entwickeln mussten.
In den letzten Jahren ist es notwendig und obligatorisch geworden, ein Verfahren durchzuführen, das als Mehrfachtestkorrektur bezeichnet wird. Dies ist auf die zunehmende Anzahl von Tests zurückzuführen, die gleichzeitig mit Hochdurchsatz-Wissenschaften durchgeführt werden, insbesondere im Bereich der Genetik mit dem Aufkommen von Assoziationsstudien für das gesamte Genom (GWAS). Entschuldigen Sie meinen Hinweis auf die Genetik, da dies mein Arbeitsgebiet ist. Wenn wir 1.000.000 Tests gleichzeitig bei , würden wir falsch-positive Ergebnisse erwarten . Das ist lächerlich groß, und deshalb müssen wir das Niveau kontrollieren, auf dem die Signifikanz bewertet wird. Die bonferroni-Korrektur, dh die Division der Akzeptanzschwelle (0,05) durch die Anzahl unabhängiger Tests korrigiert die familienweise Fehlerrate ( ).50 , 000 ( 0,05 / M ) F W E RP=0.05 50,000 (0.05/M) FWER
Dies ist wahr, weil die FWER durch die Gleichung mit der testweisen Fehlerrate ( ) in . Das heißt, 100 Prozent minus 1 subtrahieren die testweise Fehlerrate, die sich aus der Anzahl der durchgeführten unabhängigen Tests ergibt. dass ergibt. ist der für M angepasste Akzeptanz-P-Wert, der völlig unabhängig ist Tests.F W E R = 1 - ( 1 - T W E R ) M ( 1 - 0,05 ) 1 / M = 1 - 0,05TWER FWER=1−(1−TWER)M TWER≤0,05(1−0.05)1/M=1−0.05M TWER≈0.05M
Das Problem, auf das wir jetzt wie auch Benjamini und Hochberg stoßen, ist, dass nicht alle Tests völlig unabhängig sind. Somit ist die Bonferroni-Korrektur, obwohl robust und flexibel, eine Überkorrektur . Betrachten Sie den Fall in der Genetik, in dem zwei Gene in einem Fall verknüpft sind, der als Verknüpfungsungleichgewicht bezeichnet wird. Das heißt, wenn ein Gen eine Mutation aufweist, ist es wahrscheinlicher, dass ein anderes Gen exprimiert wird. Dies sind offensichtlich keine unabhängigen Tests, obwohl bei der Bonferroni-Korrektur angenommen wird, dass dies der Fall ist . Hier stellen wir fest, dass die Division des P-Werts durch M zu einer künstlich niedrigen Schwelle führt, da angenommen wird, dass unabhängige Tests sich gegenseitig beeinflussen. Daher entsteht ein M, das für unsere reale Situation zu groß ist, wo die Dinge nicht stimmen nicht unabhängig.
Das von Benjamini und Hochberg vorgeschlagene und von Yekutieli (und vielen anderen) erweiterte Verfahren ist liberaler als das von Bonferroni, und tatsächlich wird die Bonferroni-Korrektur derzeit nur in den allermeisten Studien angewendet. Dies liegt daran, dass wir beim FDR eine gewisse gegenseitige Abhängigkeit der Tests und damit ein zu großes und unrealistisches M annehmen und die Ergebnisse loswerden, die uns in Wirklichkeit am Herzen liegen. Daher wäre im Fall von 1000 Tests, die nicht unabhängig sind, das wahre M nicht 1000, sondern aufgrund von Abhängigkeiten etwas kleiner. Wenn wir also 0,05 durch 1000 teilen, ist der Schwellenwert zu streng und vermeidet einige Tests, die von Interesse sein könnten.
Ich bin mir nicht sicher, ob Sie sich für die Mechanismen interessieren, die hinter dem Kontrollieren von Abhängigkeiten stehen, aber wenn ja, habe ich das Yekutieli-Papier als Referenz verlinkt. Ich werde auch ein paar andere Dinge für Ihre Information und Neugier anhängen.
Hoffe, das hat irgendwie geholfen. Wenn ich etwas falsch dargestellt habe, lass es mich bitte wissen.
~ ~ ~
Verweise
Yekutieli-Artikel zu positiven Abhängigkeiten - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(Siehe 1.3 - Das Problem.)
Erklärung von Bonferroni und anderen interessanten Dingen - Nature Genetics Bewertungen. Statistische Leistungs- und Signifikanztests in groß angelegten genetischen Studien - Pak C Sham und Shaun M Purcell
(siehe Kasten 3.)
http://en.wikipedia.org/wiki/Familywise_error_rate
BEARBEITEN:
In meiner vorherigen Antwort habe ich die positive Abhängigkeit nicht direkt definiert, was gefragt wurde. Im Yekutieli-Artikel
2.2
heißt der Abschnitt Positive Abhängigkeit, und ich schlage dies vor, da es sehr detailliert ist. Ich glaube jedoch, dass wir es ein bisschen prägnanter machen können.Das Papier spricht zunächst von positiver Abhängigkeit und verwendet sie als vagen Begriff, der interpretierbar, aber nicht spezifisch ist. Wenn Sie die Beweise lesen, wird das, was als positive Abhängigkeit bezeichnet wird, PRSD genannt, was früher als "Positive Regressionsabhängigkeit von jedem aus einer Teilmenge " definiert wurde. ist die Teilmenge von Tests, die die Nullhypothese (0) korrekt unterstützen. PRDS ist dann wie folgt definiert.I 0I0 I0
Zusammenfassend ist die Eigenschaft der positiven Abhängigkeit die Eigenschaft der positiven Regressionsabhängigkeit unseres gesamten Satzes von Teststatistiken von unserem Satz von echten Nullteststatistiken, und wir steuern für einen FDR von 0,05; Wenn also P-Werte von unten nach oben gehen (die Aufwärtsprozedur), steigt die Wahrscheinlichkeit, dass sie Teil der Nullmenge sind.
Meine frühere Antwort in den Kommentaren zur Kovarianzmatrix war nicht falsch, nur ein bisschen vage. Ich hoffe das hilft ein bisschen mehr.
quelle
Ich fand diesen Vordruck hilfreich, um die Bedeutung zu verstehen. Es sollte gesagt werden, dass ich diese Antwort nicht als Experte für das Thema anbiete, sondern als Versuch zu verstehen, von der Community überprüft und validiert zu werden.
Vielen Dank an Amoeba für sehr hilfreiche Beobachtungen zum Unterschied zwischen PRD und PRDS, siehe Kommentare
Bearbeitet, um hinzuzufügen:
Hier ist ein mutmaßliches Beispiel für ein System, das nicht PRDS ist (R-Code unten). Die Logik ist, dass wenn die Proben a und b sehr ähnlich sind, es wahrscheinlicher ist, dass ihr Produkt atypisch ist. Ich vermute, dass dieser Effekt (und nicht die Ungleichmäßigkeit der p-Werte unter der Null für den
(a*b), (c*d)
Vergleich) die negative Korrelation in den p-Werten verursacht, aber ich kann nicht sicher sein. Der gleiche Effekt tritt auf, wenn wir einen t-Test für den zweiten Vergleich durchführen (anstelle eines Wilcoxon), aber die Verteilung der p-Werte ist immer noch nicht einheitlich, vermutlich aufgrund von Verstößen gegen die Normalitätsannahme.quelle
Benjamini und Yekutieli geben in ihrer Arbeit einige Beispiele dafür, wie positiv die Regressionsabhängigkeit (PRD) anders ist, als nur positiv assoziiert zu werden. Die FDR-Steuerprozedur beruht auf einer schwächeren Form von PRD, die sie PRDS nennen (dh PRD für jede einzelne aus einer Teilmenge von Variablen).
Positive Abhängigkeit wurde ursprünglich von Lehmann in der bivariaten Einstellung vorgeschlagen , aber die multivariate Version dieses Konzepts, die als positive Regressionsabhängigkeit bezeichnet wird, ist für mehrere Tests relevant.
Hier ist ein relevanter Auszug aus S. 6
quelle
Positive Abhängigkeit bedeutet in diesem Fall, dass die Testsätze positiv korreliert sind. Die Idee ist dann, dass, wenn die Variablen in der Gruppe von Tests, für die Sie P-Werte haben, positiv korreliert sind, jede der Variablen nicht unabhängig ist .
Wenn Sie zum Beispiel an eine Bonferroni-p-Wert-Korrektur zurückdenken, können Sie sicherstellen, dass die Typ-1-Fehlerrate weniger als 10% über beispielsweise 100 statistisch unabhängigen Tests liegt, indem Sie die Signifikanzschwelle auf 0,1 / 100 = 0,001 setzen. Aber was ist, wenn jeder dieser 100 Tests in irgendeiner Weise korreliert? Dann haben Sie nicht wirklich 100 separate Tests durchgeführt.
In FDR unterscheidet sich die Idee geringfügig von der Bonferroni-Korrektur. Damit soll sichergestellt werden, dass nur ein bestimmter Prozentsatz (z. B. 10%) der von Ihnen als signifikant deklarierten Dinge fälschlicherweise als signifikant deklariert wird. Wenn Sie in Ihrem Datensatz korrelierte Marker (positive Abhängigkeit) haben, wird der FDR-Wert basierend auf der Gesamtzahl der von Ihnen durchgeführten Tests ausgewählt (die tatsächliche Anzahl der statistisch unabhängigen Tests ist jedoch geringer). Auf diese Weise ist es sicherer zu schließen, dass die Rate falscher Entdeckungen fälschlicherweise signifikante 10% oder weniger der Tests in Ihrem Satz von P-Werten angibt.
In diesem Buchkapitel finden Sie Informationen zur positiven Abhängigkeit.
quelle