Haben Sie diese Site vor dem Stellen dieser Fragen nach "PCA" durchsucht oder das Tag "PCA" untersucht? Die meisten Ihrer Fragen sind dort bereits beantwortet.
whuber
1
@whuber Ich denke, dass das OP nach der Verwendung von PCA sucht, um die Populationsschichtung bei der Modellierung eines bestimmten Ergebnisses (kontinuierlicher Phänotyp oder Fall- / Kontrollstudien) und von DNA-Markern (SNP) zu berücksichtigen und anzupassen. Ich habe hier eine Referenz angegeben: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
Chl
1
GWAS kann ohne Hauptkomponenten durchgeführt werden. Wenn keine Bevölkerungsschichtung vorliegt , brauchen Sie nur Tausende von Tests oder Tausende von Chi-Quadrat-Tests. t
am
@onestop (+1) Ich gehe davon aus, dass Sie die zweite Frage beantwortet haben, die ich in meiner eigenen Antwort nicht berücksichtigt habe.
Chl
@onestop, was ist, wenn nur nach Geschlecht / Rasse geschichtet? Können Sie bitte Ihre Antwort erläutern?
28.
Antworten:
27
In diesem speziellen Kontext wird PCA hauptsächlich verwendet, um populationsspezifische Variationen der Allelverteilung auf den SNPs (oder anderen DNA-Markern, obwohl ich nur mit dem SNP-Fall vertraut bin), die untersucht werden, zu berücksichtigen. Eine solche "Populations-Substruktur" entsteht hauptsächlich als Folge unterschiedlicher Häufigkeiten von geringfügigen Allelen in genetisch entfernten Abstammungen (z. B. Japaner und Schwarzafrikaner oder Europäer-Amerikaner). Die allgemeine Idee wird in Populationsstruktur und Eigenanalyse von Patterson et al. ( PLoS Genetics 2006, 2 (12)) oder die Sonderausgabe des Lancet zur genetischen Epidemiologie (2005, 366; die meisten Artikel sind im Internet zu finden, beginnend mit Cordell & Clayton, Genetic Association Studies ).
Die Konstruktion der Hauptachsen folgt aus der klassischen Herangehensweise an PCA, die auf die skalierte Matrix (Individuen durch SNPs) der beobachteten Genotypen (AA, AB, BB; sagen wir, B ist in allen Fällen das Nebenallel) angewendet wird, mit der Ausnahme, dass Eine zusätzliche Normalisierung zur Berücksichtigung der Bevölkerungsdrift könnte angewendet werden. Es wird davon ausgegangen, dass die Häufigkeit des Nebenallels (mit einem Wert in {0,1,2}) als numerisch betrachtet werden kann. Das heißt, wir arbeiten nach einem additiven Modell (auch Alleldosis genannt) oder einem entsprechenden Modell , das Sinn macht . Da die aufeinanderfolgenden orthogonalen PCs die maximale Varianz ausmachen, können auf diese Weise Gruppen von Individuen hervorgehoben werden, die sich auf der Ebene der geringen Allelhäufigkeit unterscheiden. Die dafür verwendete Software heißt Eigenstrat . Es ist auch im erhältlichegscore()Funktion aus dem GenABEL R-Paket (siehe auch GenABEL.org ). Es ist anzumerken, dass andere Methoden zum Nachweis der Populationsunterstruktur vorgeschlagen wurden, insbesondere die modellbasierte Clusterrekonstruktion (siehe Referenzen am Ende). Weitere Informationen finden Sie im Hapmap- Projekt und im verfügbaren Tutorial des Bioconductor- Projekts. (Suchen Sie bei Google nach den netten Tutorials von Vince J Carey oder David Clayton).
In Anbetracht der Tatsache, dass die Eigenanalyse es ermöglicht, bestimmte Strukturen auf der Ebene der Individuen aufzudecken, können wir diese Informationen verwenden, um beobachtete Variationen eines bestimmten Phänotyps (oder eine Verteilung, die nach einem binären Kriterium definiert werden kann, z. B. Krankheit oder Fallkontrolle) zu erklären Lage). Insbesondere können wir unsere Analyse mit diesen PCs (dh den Faktor-Scores von Individuen) anpassen, wie in der Analyse der Hauptkomponenten zur Korrektur der Stratifizierung in genomweiten Assoziationsstudien von Price et al. ( Nature Genetics 2006, 38 (8)) und spätere Arbeiten (es gab ein schönes Bild, das die Achsen der genetischen Variation in Europa in der Geographie der Gene innerhalb Europas zeigt; Nature 2008); Abb. 1A unten wiedergegeben). Beachten Sie auch, dass eine andere Lösung darin besteht, eine geschichtete Analyse durchzuführen (indem die ethnische Zugehörigkeit in ein GLM einbezogen wird ) - dies ist beispielsweise im snpMatrix- Paket verfügbar .
Vielen Dank. Dann folgen natürlich weitere Fragen: 1) Was passiert, wenn ich die PCA ignoriere und meine GWAS-Stichprobe nur nach GENDER / RACE / AGE schichte und die PCA ignoriere. Wie wird es die Analyse meiner Assoziation und deren Ergebnis widerspiegeln? 2) Wenn ich tatsächlich PCA verwenden möchte, wie viele SNPS muss ich mindestens genotypisiert haben, um wahrheitsgemäße PCA zu haben? Ist 200 genug? Müssen sie gleichmäßig über alle Chromosomen verteilt sein? 3) Welche SNPs werden in PCA verwendet? Ist diese vordefinierte Gruppe oder eine?
28.
@suprvisr Ich kann genau dort antworten oder meine Antwort aktualisieren, aber ich denke, es ist besser, eine neue Frage zu stellen (etw im Sinne von "Für und Wider von Anpassung mit PCA vs. Schichtung") und auf diese zu verlinken, damit die Leute kann eindeutig die notwendigen Verbindungen herstellen.
Chl
@AndyFrost schlug vor, dass die folgenden möglicherweise die angegebenen Zahlen haben: goo.gl/jNXx0x und das Bild, auf das Sie möglicherweise verweisen, möglicherweise in goo.gl/TcK3g8 .
gung - Reinstate Monica
@chl Könnten Sie bitte erläutern, was Sie damit meinen: "In diesem Fall wird in der Regel iterativ PCA angewendet und Personen entfernt, deren Punktzahl bei mindestens einem der ersten 20 Principal unter ± 6 ± 6 SD liegt Achsen ". Ich suchte nach einer Antwort auf meinen Beitrag hier: biostars.org/p/180336
Antworten:
In diesem speziellen Kontext wird PCA hauptsächlich verwendet, um populationsspezifische Variationen der Allelverteilung auf den SNPs (oder anderen DNA-Markern, obwohl ich nur mit dem SNP-Fall vertraut bin), die untersucht werden, zu berücksichtigen. Eine solche "Populations-Substruktur" entsteht hauptsächlich als Folge unterschiedlicher Häufigkeiten von geringfügigen Allelen in genetisch entfernten Abstammungen (z. B. Japaner und Schwarzafrikaner oder Europäer-Amerikaner). Die allgemeine Idee wird in Populationsstruktur und Eigenanalyse von Patterson et al. ( PLoS Genetics 2006, 2 (12)) oder die Sonderausgabe des Lancet zur genetischen Epidemiologie (2005, 366; die meisten Artikel sind im Internet zu finden, beginnend mit Cordell & Clayton, Genetic Association Studies ).
Die Konstruktion der Hauptachsen folgt aus der klassischen Herangehensweise an PCA, die auf die skalierte Matrix (Individuen durch SNPs) der beobachteten Genotypen (AA, AB, BB; sagen wir, B ist in allen Fällen das Nebenallel) angewendet wird, mit der Ausnahme, dass Eine zusätzliche Normalisierung zur Berücksichtigung der Bevölkerungsdrift könnte angewendet werden. Es wird davon ausgegangen, dass die Häufigkeit des Nebenallels (mit einem Wert in {0,1,2}) als numerisch betrachtet werden kann. Das heißt, wir arbeiten nach einem additiven Modell (auch Alleldosis genannt) oder einem entsprechenden Modell , das Sinn macht . Da die aufeinanderfolgenden orthogonalen PCs die maximale Varianz ausmachen, können auf diese Weise Gruppen von Individuen hervorgehoben werden, die sich auf der Ebene der geringen Allelhäufigkeit unterscheiden. Die dafür verwendete Software heißt Eigenstrat . Es ist auch im erhältlich
egscore()
Funktion aus dem GenABEL R-Paket (siehe auch GenABEL.org ). Es ist anzumerken, dass andere Methoden zum Nachweis der Populationsunterstruktur vorgeschlagen wurden, insbesondere die modellbasierte Clusterrekonstruktion (siehe Referenzen am Ende). Weitere Informationen finden Sie im Hapmap- Projekt und im verfügbaren Tutorial des Bioconductor- Projekts. (Suchen Sie bei Google nach den netten Tutorials von Vince J Carey oder David Clayton).In Anbetracht der Tatsache, dass die Eigenanalyse es ermöglicht, bestimmte Strukturen auf der Ebene der Individuen aufzudecken, können wir diese Informationen verwenden, um beobachtete Variationen eines bestimmten Phänotyps (oder eine Verteilung, die nach einem binären Kriterium definiert werden kann, z. B. Krankheit oder Fallkontrolle) zu erklären Lage). Insbesondere können wir unsere Analyse mit diesen PCs (dh den Faktor-Scores von Individuen) anpassen, wie in der Analyse der Hauptkomponenten zur Korrektur der Stratifizierung in genomweiten Assoziationsstudien von Price et al. ( Nature Genetics 2006, 38 (8)) und spätere Arbeiten (es gab ein schönes Bild, das die Achsen der genetischen Variation in Europa in der Geographie der Gene innerhalb Europas zeigt; Nature 2008); Abb. 1A unten wiedergegeben). Beachten Sie auch, dass eine andere Lösung darin besteht, eine geschichtete Analyse durchzuführen (indem die ethnische Zugehörigkeit in ein GLM einbezogen wird ) - dies ist beispielsweise im snpMatrix- Paket verfügbar .
Verweise
quelle