Ich mache GWAS-SNP-Assoziationsstudien zu Krankheiten mit einer Software namens plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).
Mit den Assoziationsergebnissen erhalte ich p-Werte für alle analysierten SNPs. Nun benutze ich ein QQ-Diagramm dieser p-Werte, um zu zeigen, ob ein sehr niedriger p-Wert von der erwarteten Verteilung der p-Werte abweicht (eine gleichmäßige Verteilung). Wenn ein p-Wert von der erwarteten Verteilung abweicht, kann man diesen p-Wert als statistisch signifikant bezeichnen.
Wie Sie im QQ-Plot am oberen Ende sehen können, sind die letzten 4 Punkte etwas schwer zu interpretieren. Zwei der letzten grauen Punkte deuten darauf hin, dass sich diese p-Werte in der erwarteten Verteilung der p-Werte befinden, während dies bei den anderen beiden nicht der Fall ist.
Wie man das interpretiert, haben die letzten beiden Punkte niedrigere p-Werte, sind aber laut QQ-Diagramm nicht "signifikant", während die anderen beiden Punkte mit höheren p-Werten "signifikant" sind? Wie kann das wahr sein?
Antworten:
Eine gute Referenz zur Analyse von p-Wert-Plots ist [1].
Das Ergebnis, das Sie sehen, kann durch die Tatsache bestimmt werden, dass das Signal / die Effekte nur bei einigen Teilmengen von Tests vorhanden sind. Diese werden über die Akzeptanzbänder gefahren. Es kann zwar gerechtfertigt sein, nur den p-Wert außerhalb der Bänder abzulehnen, aber was noch wichtiger ist, Sie sollten entscheiden, welches Fehlerkriterium Sie bei der Auswahl Ihres Auswahlverfahrens (FWER, FDR) steuern möchten. Sie können [2] für diese Auswahl und die darin enthaltenen Referenzen zur Auswahl des geeigneten Mehrfachtestverfahrens konsultieren.
[1] Schweder, T. und E. Spjotvoll. „Diagramme von P-Werten zur gleichzeitigen Auswertung vieler Tests.“ Biometrika 69, No. 3 (Dezember 1982): 493–502. doi: 10.2307 / 2335984.
[2] Rosenblatt, Jonathan. "Ein Leitfaden für Praktiker zum Testen mehrerer Fehlerraten." ArXiv e-print. Universität Tel Aviv, 17. April 2013. http://arxiv.org/abs/1304.4920 .
quelle
Dies ist eine ältere Frage, aber ich fand sie hilfreich, als ich versuchte, QQPlots zum ersten Mal zu interpretieren. Ich dachte, ich würde diese Antworten ergänzen, falls in Zukunft mehr Menschen darüber stolpern.
Was ich etwas schwierig zu verstehen fand, ist, was genau sind diese Punkte? Ich fand es einfach herauszufinden, ob ich zum Code ging.
Hier ist ein von mir angepasster R-Code, der
GWASTools::qqPlot
ein QQPlot in drei Zeilen implementiert:Hier ist ein Beispiel. Sie haben 5 p-Werte. simpleQQPlot generiert 5 entsprechende p-Werte aus einer gleichmäßigen Verteilung zwischen 0 und 1. Diese sind: .2 .4 .6 .8 und 1. Deshalb erwartet simpleQQPlot, dass Ihr niedrigster p-Wert bei .2 liegt und Ihr höchster Wert bei ungefähr .2 liegt 1. simpleQQPlot sortiert Ihre p-Werte und koppelt sie mit dem entsprechenden generierten Wert. Also wird .2 mit Ihrem niedrigsten p-Wert gepaart, 1 mit Ihrem höchsten und so weiter. Dann werden diese gepaarten Werte aufgezeichnet (nachdem die negativen Protokolle aufgenommen wurden), wobei X der erzeugte p-Wert und Y der gepaarte beobachtete Wert ist. Wenn Ihre beobachteten Werte auch aus einer Normalverteilung gezogen wurden, sollten die Punkte ungefähr auf der geraden Linie liegen. Aufgrund der Sortierung werden die Punkte immer monoton erhöht. Jeder nachfolgende Punkt hat also ein größeres X und ein größeres oder gleiches Y.
Im obigen ursprünglichen Beispiel lag der 9.997. Sortierte p-Wert bei 5,2, wurde aber bei einer Normalverteilung mit 4,1 gerechnet. (Hinweis: Ich bin mir nicht sicher, wie viele p-Werte oben aufgezeichnet wurden - ich habe gerade 10k erraten).
quelle