In einem Artikel, den ich kürzlich gelesen habe, bin ich in der Datenanalyse auf Folgendes gestoßen:
Die Datentabelle wurde dann in Gewebe und Zelllinien aufgeteilt, und die beiden Untertabellen wurden getrennt median poliert (die Zeilen und Spalten wurden iterativ angepasst, um den Median 0 zu haben), bevor sie wieder zu einer einzigen Tabelle zusammengefügt wurden. Wir haben dann schließlich für die Untergruppe von Genen ausgewählt, deren Expression in mindestens drei der getesteten Proben um mindestens das Vierfache vom Median in diesem Probensatz abweicht
Ich muss sagen, dass ich den Überlegungen hier nicht wirklich folge. Ich habe mich gefragt, ob Sie mir bei der Beantwortung der folgenden zwei Fragen helfen könnten:
Warum ist es wünschenswert / hilfreich, den Median in den Datensätzen anzupassen? Warum sollte es für verschiedene Arten von Proben separat durchgeführt werden?
Wie verändert dies nicht die experimentellen Daten? Ist dies eine bekannte Methode, um eine Reihe von Genen / Variablen aus einem großen Datensatz auszuwählen, oder ist es eher adhoc?
Vielen Dank,
quelle
Antworten:
Tukey Median Polish, Algorithmus wird bei der RMA- Normalisierung von Microarrays verwendet. Wie Sie vielleicht wissen, sind Microarray-Daten ziemlich verrauscht, daher benötigen sie eine robustere Methode zur Schätzung der Sondenintensität unter Berücksichtigung der Beobachtungen für alle Sonden und Microarrays. Dies ist ein typisches Modell zur Normalisierung der Intensität von Sonden über Arrays hinweg.
i=1,…,I.
Wobei die l o g transformierte PM-Intensität für die i t h -Sonde auf dem j t h -Array ist. ϵ i jY.i j l o g icht h jt h ϵi j sind Hintergrundgeräusche und es kann angenommen werden, dass sie dem Rauschen bei normaler linearer Regression entsprechen. Eine Verteilungsannahme für kann jedoch restriktiv sein, daher verwenden wir Tukey Median Polish, um die Schätzungen für ^ μ i und ^ α j zu erhalten . Dies ist eine robuste Methode zur Normalisierung über Arrays hinweg, da wir das Signal, die Intensität aufgrund der Sonde, vom Array-Effekt trennen möchten.ϵ μich^ αj^ . Wir können das Signal erhalten, indem wir für den Array-Effekt ^ α j für alle Arraysnormalisieren. Somit bleiben uns nur die Sondeneffekte plus zufälliges Rauschen.α αj^
Der Link, den ich zuvor zitiert habe, verwendet Tukey-Medianpolitur, um die differentiell exprimierten Gene oder "interessanten" Gene durch Rangfolge nach dem Sondeneffekt abzuschätzen. Das Papier ist jedoch ziemlich alt, und wahrscheinlich haben die Leute damals noch versucht, herauszufinden, wie man Microarray-Daten analysiert. Efrons nichtparametrisches empirisches Bayes'sches Methodenpapier erschien 2001, wurde aber wahrscheinlich nicht weit verbreitet.
Jetzt verstehen wir jedoch viel über Microarrays (statistisch) und sind uns ihrer statistischen Analyse ziemlich sicher.
Microarray-Daten sind ziemlich verrauscht und RMA (das Median Polish verwendet) ist eine der beliebtesten Normalisierungsmethoden, möglicherweise aufgrund seiner Einfachheit. Andere beliebte und ausgefeilte Methoden sind: GCRMA, VSN. Es ist wichtig zu normalisieren, da das Interesse der Sondeneffekt und nicht der Array-Effekt ist.
Wie zu erwarten, könnte die Analyse von einigen Methoden profitiert haben, die die Ausleihe von Informationen über Gene hinweg nutzen. Dies können Bayes'sche oder empirische Bayes'sche Methoden sein. Möglicherweise ist das Papier, das Sie lesen, alt und diese Techniken waren bis dahin nicht verfügbar.
In Bezug auf Ihren zweiten Punkt ändern sie wahrscheinlich die experimentellen Daten. Aber ich denke, diese Änderung ist für einen besseren Zweck und daher gerechtfertigt. Der Grund dafür ist
a) Microarray-Daten sind ziemlich verrauscht. Wenn das Interesse am Sondeneffekt liegt, ist eine Normalisierung der Daten durch RMA, GCRMA, VSN usw. erforderlich und es kann gut sein, eine spezielle Struktur in den Daten auszunutzen. Aber ich würde es vermeiden, den zweiten Teil zu machen. Dies liegt hauptsächlich daran, dass es besser ist, nicht viele Annahmen zu treffen, wenn wir die Struktur nicht im Voraus kennen.
b) Die meisten Microarray-Experimente sind explorativer Natur, dh die Forscher versuchen, einige weitere "interessante" Gene für weitere Analysen oder Experimente einzugrenzen. Wenn diese Gene ein starkes Signal haben, sollten Modifikationen wie Normalisierungen die Endergebnisse nicht (wesentlich) beeinflussen.
Daher können die Änderungen gerechtfertigt sein. Aber ich muss bemerken, dass eine Übertreibung der Normalisierungen zu falschen Ergebnissen führen kann.
quelle
Sie können einige Hinweise auf den Seiten 4 und 5 finden diese
Der Vorteil der Verwendung des Medians ist die Robustheit gegenüber einer kleinen Anzahl von Ausreißern. Der Nachteil ist, dass Sie potenziell nützliche Informationen wegwerfen, wenn keine Ausreißer vorhanden sind.
quelle
Sieht so aus, als würden Sie einen Artikel lesen, in dem eine Analyse der Genexpression durchgeführt wird. Nachdem ich einige Untersuchungen mit Microarray-Chips durchgeführt habe, kann ich mitteilen, wie wenig Wissen (hoffentlich richtig) ich über die Verwendung von Medianpolitur habe.
Die Verwendung von Medianpolitur während des Zusammenfassungsschritts der Microarray-Vorverarbeitung ist eine Standardmethode, um Daten von Ausreißern mit Chips mit perfekter Übereinstimmungssonde (zumindest für RMA) zu entfernen.
Bei der mittleren Politur für Microarray-Daten haben Sie den Chip-Effekt und den Probe-Effekt als Zeilen und Spalten:
für jeden Sondensatz (bestehend aus n Nummern derselben Sonde) auf x Chips:
wobei iv Intensitätswerte sind
Aufgrund der Variabilität der Sondenintensitäten wird fast die gesamte Analyse von Microarray-Daten vor der Zusammenfassung unter Verwendung einer Art Hintergrundkorrektur und Normalisierung vorverarbeitet.
Hier sind einige Links zu den BioC-Mailinglisten-Threads, die über die Verwendung von Median Polish im Vergleich zu anderen Methoden sprechen:
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html
https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html
Daten von Geweben und Zelllinien werden normalerweise getrennt analysiert, da sich ihre Expressionsprofile bei der Kultivierung von Zellen gegenüber gesammelten Gewebeproben dramatisch ändern. Ohne mehr Papier ist es schwierig zu sagen, ob eine getrennte Verarbeitung der Proben angemessen war oder nicht.
Normalisierungs-, Hintergrundkorrektur- und Zusammenfassungsschritte in der Analysepipeline sind alles Modifikationen von experimentellen Daten, aber im unverarbeiteten Zustand würden die Chip-Effekte, Batch-Effekte und Verarbeitungseffekte jedes Signal für die Analyse überschatten. Diese Microarray-Experimente erzeugen Listen von Genen, die Kandidaten für Folgeexperimente (qPCR usw.) sind, um die Ergebnisse zu bestätigen.
Wenn Sie ad hoc sind, fragen Sie 5 Personen, welcher Faltungsunterschied erforderlich ist, damit ein Gen als differentiell exprimiert betrachtet werden kann, und Sie erhalten mindestens 3 verschiedene Antworten.
quelle