Korrelation kontinuierlicher klinischer Variablen und Genexpressionsdaten

8

In SVM-Klassifizierungsanalysen (linearer Kernel) eines Datensatzes der Genexpression (~ 400 Variablen / Gene) für jeweils ~ 25 Fälle und Kontrollen stelle ich fest, dass die auf Genexpression basierenden Klassifikatoren sehr gute Leistungsmerkmale aufweisen. Die Fälle und Kontrollen unterscheiden sich nicht signifikant für eine Reihe von kategorialen und kontinuierlichen klinischen / demografischen Variablen (gemäß den genauen oder t-Tests von Fisher), aber sie unterscheiden sich signifikant für das Alter.

Gibt es eine Möglichkeit zu zeigen, dass die Ergebnisse der Klassifizierungsanalyse vom Alter beeinflusst werden oder nicht?

Ich denke darüber nach, die Genexpressionsdaten auf Hauptkomponenten zu reduzieren und eine Spearman-Korrelationsanalyse der Komponenten gegen das Alter durchzuführen.

Ist das ein vernünftiger Ansatz? Alternativ kann ich die Korrelation zwischen dem Alter und den in der SVM-Analyse erhaltenen Wahrscheinlichkeitswerten für die Klassenzugehörigkeit überprüfen.

Vielen Dank.

user4045
quelle
1
Ist das eine Fall-Kontroll-Studie? Oder Kohortenstudie? Warum gibt es einen Altersunterschied (Stichprobenverfahren? Pathomechanismus?)? Ist Alter Alter bei Diagnose? Oder ist dies eine chronische Krankheit und das Alter ist das aktuelle Alter bei der Entnahme einer Gewebeprobe zur Genexpressionsanalyse? Ist bekannt, dass das Alter mit der Krankheit zusammenhängt? Ist der Alterseffekt auf die Genexpression eher der Effekt der Zeit seit der Geburt oder seit der Diagnose? --- Ich würde die Antworten auf diese Fragen benötigen, um Ihre Frage zu sehen, wenn "die Ergebnisse der Klassifizierungsanalyse vom Alter beeinflusst werden oder nicht?" in der richtigen Perspektive.
GaBorgulya
Dies ist eine retrospektive Studie zur Expression von Blut-microRNA und Lungenkrebs. Die Fälle haben Lungenkrebs. Die Kontrollen wurden nicht aus einer Patientenpopulation ausgewählt, die in einer Lungenkrebs-Screening-Klinik auftrat, normalerweise aufgrund einer Rauchanamnese. Bei der Auswahl von Fällen und Kontrollen wurde keine Übereinstimmung nach Alter, Geschlecht usw. vorgenommen. Lungenkrebs wird typischerweise nach 45-50 Jahren diagnostiziert. Es ist nicht bekannt, ob die microRNA-Expression im Blut durch Lungenkrebs beeinflusst wird, aber es ist bekannt, dass einige andere Krankheiten die Expression beeinflussen.
user4045
Die Auswirkung des Alters auf die Expression von Blut-microRNA ist unbekannt. Das mittlere Alter (und die Standardabweichung) der Fälle und Kontrollen der Studie beträgt 71 (7) bzw. 60 (9) Jahre.
user4045
Was genau meinst du mit "vom Alter beeinflusst"? Hier sind zwei Möglichkeiten. Eine Möglichkeit besteht darin, dass Ihre Microarrays keinerlei Krankheitsmarker enthalten. Sie enthalten jedoch Informationen zum Alter, und da in Ihrem Fall die Kranken- und Kontrollpopulationen unterschiedlich alt sind, entsteht die Illusion einer guten Klassifizierungsleistung. Eine andere Möglichkeit besteht darin, dass die Microarrays Krankheitsmarker enthalten, und darüber hinaus konzentriert sich SVM genau auf diese Marker. Da in Ihren Daten das Alter jedoch unterschiedlich ist, besteht immer noch eine Korrelation zwischen Alter und Kategorie.
SheldonCooper
@SheldonCooper: Richtig, und ich möchte wissen, ob wir herausfinden können oder nicht, welche der beiden Möglichkeiten dies ist. Wenn nicht, können wir den zusätzlichen Wert, den die Genmarker über das Alter bieten, grob abschätzen? Der SVM-Klassifikator weist gute Leistungseigenschaften auf (Genauigkeit bei internen Kreuzvalidierungen> 90% und AUC> 0,95). Die AUC in der ROC-Analyse des Alters beträgt 0,82.
user4045

Antworten:

2

Für diese Daten gibt es mindestens zwei Möglichkeiten. Eine Möglichkeit besteht darin, dass Ihre Microarrays keinerlei Krankheitsmarker enthalten. Sie enthalten jedoch Informationen zum Alter, und da in Ihrem Fall die Kranken- und Kontrollpopulationen unterschiedlich alt sind, entsteht die Illusion einer guten Klassifizierungsleistung. Eine andere Möglichkeit besteht darin, dass die Microarrays Krankheitsmarker enthalten, und darüber hinaus konzentriert sich SVM genau auf diese Marker.

Es scheint, dass die Hauptkomponenten der Daten bei beiden Möglichkeiten mit dem Alter korrelieren können. Im ersten Fall liegt es daran, dass das Alter das ist, was die Daten ausdrücken. Im zweiten Fall liegt es daran, dass die Daten die Krankheit ausdrücken und diese Krankheit selbst mit dem Alter korreliert (für Ihren Datensatz). Ich glaube nicht, dass es eine einfache Möglichkeit gibt, den Korrelationswert zu betrachten und daraus zu schließen, um welchen Fall es sich handelt.

Ich könnte mir verschiedene Möglichkeiten vorstellen, um den Effekt unterschiedlich zu bewerten. Eine Möglichkeit besteht darin, Ihr Trainingsset in gleichaltrige Gruppen aufzuteilen. In diesem Fall hat die normale Klasse für "junge" Altersgruppen mehr Trainingsbeispiele als die Krankheitsklasse und umgekehrt für die älteren Altersgruppen. Solange es jedoch genügend Beispiele gibt, sollte dies kein Problem sein. Eine andere Möglichkeit besteht darin, dasselbe mit den Testsätzen zu tun, dh festzustellen, ob der Klassifikator bei älteren Patienten häufiger „krank“ sagt. Beide Optionen können schwierig sein, da Sie nicht so viele Beispiele haben.

Eine weitere Möglichkeit besteht darin, zwei Klassifikatoren zu trainieren. Im ersten Fall ist das Alter das einzige Merkmal. Es scheint, dass dies eine AUC von 0,82 hat. Im zweiten Fall werden das Alter und die Microarray-Daten angezeigt. (Es scheint, dass Sie derzeit einen anderen Klassifikator trainieren, der nur die Microarray-Daten verwendet, und Sie erhalten AUC 0,95. Das explizite Hinzufügen der Altersfunktion verbessert wahrscheinlich die Leistung, sodass die AUC sogar noch höher ist.) Wenn der zweite Klassifikator eine bessere Leistung als erzielt Erstens weist dies darauf hin, dass das Alter nicht das einzige ist, was für diese Daten von Interesse ist. Basierend auf Ihrem Kommentar beträgt die Verbesserung der AUC 0,13 oder mehr, was fair erscheint.

Sheldon Cooper
quelle
Vielen Dank für die verschiedenen Vorschläge. Ich denke, Sie haben Recht, dass die Überprüfung der Korrelation des Alters mit den Hauptkomponenten keine Antwort liefert. Ich habe diese Analyse durchgeführt und es gibt gute Korrelationen (Spearman r> 0,5) für jeden der ersten drei PCs (sie tragen zusammen zu ~ 55% der Varianz bei). Es gibt auch eine gute Korrelation des Alters mit den Wahrscheinlichkeitswerten aus der SVM-Analyse. Für die ersten beiden von Ihnen vorgeschlagenen Optionen muss ich prüfen, ob genügend Beispiele vorhanden sind und wie ich vorgehen muss (ich verwende LOOCV und Monte-Carlo-CV mit 1000 Iterationen und 4: 1-Aufteilung für Training und Test).
user4045
In Bezug auf ROC, die sowohl Alters- als auch Microarray-Daten verwenden, werde ich es versuchen. Ein Anstieg der AUC von 0,95 (nur Microarray-Daten) deutet darauf hin, dass die Expressionsdaten krankheitsspezifische Informationen enthalten, die unabhängig vom Alter sind. Das Fehlen eines Anstiegs bedeutet jedoch nichts, da die Expressionsdaten vom Alter beeinflusst werden. Recht?
user4045
Sie haben bereits einen Anstieg der AUC von 0,82 für das Alter auf 0,95 für das Microarray. Das ist wichtig, denke ich. Wenn Sie weiter zunehmen, großartig. Wenn Sie nicht weiter zunehmen, haben Sie Recht, dass es nichts bedeutet. Der wichtige Teil ist, dass Sie den Anstieg von 0,82 auf 0,95 haben.
SheldonCooper
In einer neuen Analyse, bei der das Alter als Variable zum Ausdrucksdatensatz hinzugefügt wird, erhöht sich die AUC um ~ 0,04. Daraus kann man wohl nichts schließen.
user4045
Ist die neue AUC (für Alter + Microarray) 0,99 oder 0,86?
SheldonCooper