Dies ist ein aktuelles Thema in Genomwide Analysis Studies (GWAS)! Ich bin mir nicht sicher, ob die Methode, an die Sie denken, in diesem Zusammenhang am besten geeignet ist. Das Poolen von p-Werten wurde von einigen Autoren beschrieben, jedoch in einem anderen Kontext (Replikationsstudien oder Metaanalyse, siehe z. B. (1) für eine aktuelle Übersicht). Das Kombinieren von SNP-p-Werten nach der Fisher-Methode wird im Allgemeinen verwendet, um einen eindeutigen p-Wert für ein bestimmtes Gen abzuleiten. Dies ermöglicht es, auf Genebene zu arbeiten und das Ausmaß der Dimensionalität nachfolgender Tests zu reduzieren, aber wie Sie sagten, führt die Nichtunabhängigkeit zwischen Markern (die sich aus räumlicher Colokation oder Bindungsdisiquilibrium, LD, ergibt) zu einer Verzerrung. Stärkere Alternativen basieren auf Resampling-Verfahren.
Mein Hauptanliegen beim Bootstraping (mit Ersatz) wäre, dass Sie eine künstliche Form der Verwandtschaft einführen oder mit anderen Worten virtuelle Zwillinge erzeugen, wodurch das Hardy-Weinberg-Gleichgewicht (aber auch die minimale Allelfrequenz und Anrufrate) verändert wird. Dies wäre bei einem Permutationsansatz nicht der Fall, bei dem Sie einzelne Labels permutieren und die Genotypisierungsdaten unverändert lassen. Normalerweise kann die Plink- Software rohe und permutierte p-Werte liefern, obwohl sie (standardmäßig) eine adaptive Teststrategie mit einem Schiebefenster verwendet, mit der die Ausführung aller Permutationen (z. B. 1000 pro SNP) gestoppt werden kann, wenn sich das SNP darunter befindet Überlegung ist nicht "interessant"; Es gibt auch die Möglichkeit, maxT zu berechnen. Weitere Informationen finden Sie in der Online-Hilfe .
Aber angesichts der geringen Zahl von SNPs Sie erwägen, würde ich auf FDR-basierten oder MAXT Tests wie in der Umsetzung empfiehlt unter Berufung multtest R - Paket (siehe mt.maxT
), aber die definitive Leitfaden für Strategien Resampling für genomische Anwendung ist Multiple Testverfahren mit Anwendungen zu Genomics von Dudoit & van der Laan (Springer, 2008). Siehe auch Andrea Foulkes 'Buch über Genetik mit R , das in der JSS besprochen wird. Sie hat großartiges Material zu verschiedenen Testverfahren.
Weitere Hinweise
Viele Autoren haben darauf hingewiesen, dass einfache Mehrfachtest-Korrekturmethoden wie Bonferroni oder Sidak zu streng sind, um die Ergebnisse für die einzelnen SNPs anzupassen. Darüber hinaus berücksichtigt keine dieser Methoden die Korrelation zwischen SNPs aufgrund von LD, die die genetische Variation über Genregionen hinweg markiert. Andere Alternativen wurden vorgeschlagen, wie eine Ableitung der Holmschen Methode für Mehrfachvergleiche (3), das Hidden-Markov-Modell (4), das bedingte oder positive FDR (5) oder eine Ableitung davon (6), um nur einige zu nennen. Sogenannte Gap Statistics oder Sliding Window haben sich in einigen Fällen als erfolgreich erwiesen, aber in (7) und (8) finden Sie eine gute Übersicht.
Ich habe auch von Methoden gehört, die die Haplotypstruktur oder LD effektiv nutzen, zB (9), aber ich habe sie nie verwendet. Sie scheinen jedoch eher mit der Schätzung der Korrelation zwischen Markern zu tun zu haben, nicht mit dem von Ihnen gemeintem p-Wert. Tatsächlich sollten Sie jedoch besser an die Abhängigkeitsstruktur zwischen aufeinanderfolgenden Teststatistiken als zwischen korrelierten p-Werten denken.
Verweise
- Cantor, RM, Lange, K und Sinsheimer, JS. Priorisierung der GWAS-Ergebnisse: Ein Überblick über statistische Methoden und Empfehlungen für deren Anwendung . Bin J Hum Genet. 2010 86 (1): 6–22.
- RP Corley, JS Zeiger, T Crowley et al. Assoziation von Kandidatengenen mit antisozialer Drogenabhängigkeit bei Jugendlichen . Drogen- und Alkoholabhängigkeit 2008 96: 90–98.
- Dalmasso, C, Génin, E und Trégouet DA. Ein Weighted-Holm-Verfahren, das Allelfrequenzen in genomweiten Assoziationsstudien berücksichtigt . Genetics 2008 180 (1): 697–702.
- Wei, Z, Sun, W, Wang, K und Hakonarson, H. Multiple Tests in genomweiten Assoziationsstudien mit Hidden-Markov-Modellen . Bioinformatics 2009 25 (21): 2802 & ndash; 2808.
- Broberg, P. Eine vergleichende Übersicht über Schätzungen des Anteils unveränderter Gene und der Rate falscher Entdeckungen . BMC Bioinformatics 2005 6: 199.
- Need, AC, Ge, D, Weale, ME, et al. Eine genomweite Untersuchung von SNPs und CNVs bei Schizophrenie . PLoS Genet. 2009 5 (2): e1000373.
- Han, B, Kang, HM und Eskin, E. Schnelle und genaue Mehrfachprüfkorrektur und Leistungsschätzung für Millionen korrelierter Marker . PLoS Genetics 2009
- Liang, Y und Kelemen, A. Statistische Fortschritte und Herausforderungen bei der Analyse korrelierter hochdimensionaler snp-Daten in Genomstudien für komplexe Krankheiten . Statistische Erhebungen 2008 2: 43–60. - Die beste Rezension aller Zeiten
- Nyholt, DR. Eine einfache Korrektur für mehrere Tests auf Einzelnukleotidpolymorphismen im Bindungsungleichgewicht . Bin J Hum Genet. 2004 74 (4): 765–769.
- Nikodemus, KK, Liu, W, Chase, GA, Tsai, YY und Fallin, MD. Vergleich von Typ I-Fehlern für mehrere Testkorrekturen in großen Einzelnukleotid-Polymorphismusstudien unter Verwendung von Hauptkomponenten im Vergleich zu Haplotyp-Blockierungsalgorithmen . BMC Genetics 2005; 6 (Suppl 1): S78.
- Peng, Q, Zhao, J und Xue, F. PCA-basierte Bootstrap-Konfidenzintervalltests für Gen-Krankheits-Assoziationen mit mehreren SNPs . BMC Genetics 2010, 11: 6
- Li, M, Romero, R, Fu, WJ und Cui, Y (2010). Abbildung von Haplotyp-Haplotyp-Wechselwirkungen mit adaptivem LASSO . BMC Genetics 2010, 11:79 - obwohl nicht direkt mit der Frage verbunden, deckt es die Haplotyp-basierte Analyse / den epistatischen Effekt ab
snpMatrix
oderglm()
es ist in diesem Punkt einfach besser, aber Sie können nicht viele SNPs inglm()
... einbetten ). Das Problem ist, dass es ziemlich schwierig ist, den korrigierten p-Wert am Ende Ihrer zweiten Analyse zu erhalten (weil Sie die bereits geschätzten Parameter berücksichtigen müssen).Die Verwendung einer Methode wie bonferroni ist in Ordnung. Das Problem ist, dass Sie bei vielen Tests wahrscheinlich nicht viele "Entdeckungen" finden.
Sie können sich für abhängige Tests an den FDR-Ansatz halten ( Einzelheiten finden Sie hier ). Das Problem ist, dass ich nicht sicher bin, ob Sie im Voraus sagen können, ob Ihre Korrelationen alle positiv sind.
In R können Sie mit p.adjust einen einfachen FDR durchführen. Für komplexere Dinge würde ich mir multcomp anschauen , aber ich habe es nicht durchgesehen, um nach Lösungen für Fälle von Abhängigkeiten zu suchen .
Viel Glück.
quelle
Ich denke, dass multivariate Normalmodelle verwendet werden, um die korrelierten p-Werte zu modellieren und die richtige Art von mehrfachen Testkorrekturen zu erhalten. Schnelle und genaue Korrektur mehrerer Tests und Leistungsschätzung für Millionen von korrelierten Markern. PLoS Genet 2009 spricht darüber und gibt auch andere Hinweise. Es klingt ähnlich wie das, worüber Sie gesprochen haben, aber ich denke, abgesehen von einer genaueren globalen p-Wert-Korrektur sollte das Wissen über die LD-Struktur auch verwendet werden, um falsche Positive zu entfernen, die von Markern herrühren, die mit kausalen Markern korrelieren.
quelle
Ich suche eine funktionierende Lösung für genau das gleiche Problem. Das Beste, was ich gefunden habe, ist das Null Unrestricted Bootstrap, das Foulkes Andrea in seinem Buch Applied Statistical Genetics with R (2009) vorgestellt hat . Im Gegensatz zu allen anderen Artikeln und Büchern berücksichtigt er speziell die Regressionen. Neben anderen Methoden empfiehlt er den Bootstrap Null Unrestricted, der geeignet ist, wenn man Residuen nicht einfach berechnen kann (wie in meinem Fall, wenn ich viele unabhängige Regressionen (im Grunde einfache Korrelationen) modelliere , die jeweils dieselbe Antwortvariable und einen unterschiedlichen Snip aufweisen). Ich fand, dass diese Methode auch die maxT- Methode genannt wird.
TestStatBoot
Der letzte Schritt kann mit diesem Code durchgeführt werden
quelle