Stichprobengröße und Kreuzvalidierungsmethoden für Cox-Regressionsvorhersagemodelle

8

Ich habe eine Frage, die ich der Community stellen möchte. Ich wurde kürzlich gebeten, statistische Analysen für eine Tumormarker-Prognosestudie bereitzustellen . Ich habe hauptsächlich diese beiden Referenzen verwendet, um meine Analyse zu leiten:

  1. McShane LM et al. Berichtsempfehlungen für prognostische Tumormarker-Studien (BEMERKUNG). J Natl Cancer Inst. 2005 Aug 17; 97 (16): 1180 & ndash; 4.

  2. Simon RM et al. Verwendung der Kreuzvalidierung zur Bewertung der Vorhersagegenauigkeit von Überlebensrisikoklassifikatoren auf der Grundlage hochdimensionaler Daten. Kurze Bioinform. 2011 Mai; 12 (3): 203 & ndash; 14. Epub 2011 15. Februar.

Ich habe die Studie und meine Analysen unten zusammengefasst. Ich würde mich über Kommentare, Vorschläge oder Kritik freuen.

Studienhintergrund:

Einige Patienten mit Krebs X erleiden nach der Behandlung einen frühen Rückfall. Der derzeit von Ärzten verwendete klinische Prognosewert kann das klinische Ergebnis bei diesen Patienten nicht gut vorhersagen. Es wäre daher nützlich, biologische Prognosemarker zu identifizieren, die über diesen Standardwert hinaus einen Mehrwert bieten. Das Ziel dieser Studie ist es, einen solchen Biomarker zu entdecken.

Studienmethoden:

Vorauswahl von Kandidaten-Biomarkern

In einer früheren Studie wurden zwölf mit Krebs X assoziierte Biomarker identifiziert. Wir haben versucht, die Assoziation zwischen diesen 12 Kandidaten und Krebs X in einer unabhängigen Stichprobe von Patienten / Tumoren zu validieren, die unten beschrieben wird.

Univariate Validierung von ausgewählten Kandidaten-Biomarkern

Die Spiegel dieser Biomarker wurden an 220 Patienten / Tumoren gemessen.

[Hinweis: Ich habe die Daten maskiert und als * .csv-Datei zum öffentlichen Download bereitgestellt . Die Datei enthält die folgenden Spalten: "ID", eine eindeutige Kennung für jeden Patienten; "PS", der prognostische Score für jeden Patienten, wobei 1 eine gute Prognose und 2 eine schlechte Prognose anzeigt; "M1" bis "m12", Spiegel jedes Tumormarkers; "Zeit" in Monaten; und "Ereignis", wobei 0 anzeigt, dass die Beobachtung zensiert ist und 1 anzeigt, dass ein Behandlungsversagen aufgetreten ist.]

Für jeden der 12 Biomarker wurden univariable Cox-Regressionsmodelle mit der Zeit bis zum Tod als abhängige Variable erstellt (n = 220 Beobachtungen, Anzahl der Ereignisse = 91).

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

Bei Verwendung eines p-Schwellenwerts von 0,05 / 12 = 0,004 war keines der Ergebnisse signifikant.

Multivariable Analysen

Es wurde beschlossen, ein Modell an die Daten anzupassen, indem alle 12 Biomarker gleichzeitig in einen schrittweisen Cox-Regressionsalgorithmus unter Verwendung einer zehnfachen Kreuzvalidierung eingegeben wurden. Nach dem Erstellen von zehn Modellen auf den zehn verschiedenen Trainingssätzen wurden zeitabhängige ROC-Kurven erstellt, um die Auswahl optimaler Grenzpunkte zu ermöglichen, um zwei Gruppen von Patienten zu identifizieren, das „hohe“ und das „niedrige“ Risiko. Schnittpunkte, die "1 - TP + FP" minimierten, wurden ausgewählt. Diese zehn Modelle wurden dann gebeten, Vorhersagen über die entsprechenden Patienten in den Validierungsgruppen zu treffen. Diese Patienten wurden dann in „hohe“ und „niedrige“ Risikogruppen eingeteilt und auf einer einzelnen, kreuzvalidierten Kaplan-Meier-Kurve aufgetragen.

Schlussfolgerungen

Die Konfidenzintervalle der Hoch- und Niedrigrisikokurven überlappten sich signifikant, was darauf hindeutet, dass die identifizierten Biomarker keine nützlichen Prognosemarker waren. Unsere Studie hat daher keine signifikanten univariaten oder multivariaten Assoziationen zwischen diesen Markern und der Patientenprognose identifiziert.

Fragen an die Community

Habe ich meine Daten richtig analysiert?

Wenn Sie der Statistiker dieser Studie gewesen wären, hätten Sie etwas anderes gemacht?

Vor der Durchführung der Validierungsanalysen wurden keine Probengrößen- und Leistungsberechnungen durchgeführt, um die Anzahl der einzuschließenden Proben und die nachweisbare Effektgröße zu bestimmen. Ich möchte diese Analysen jetzt durchführen, um zukünftige Studien zu leiten. Kann mir jemand sagen, wie das geht?

Was mich wirklich interessiert, ist, ob diese Biomarker prädiktive Informationen liefern, die über den klinischen Prognosewert hinausgehen. Soweit ich weiß, würde dies die Erstellung von drei verschiedenen Modellen beinhalten: (1) ein Modell nur mit klinischen Kovariaten, (2) ein Biomarker-Modell nur mit Biomarker-Kovariaten und (3) ein Biomarker / klinisches Modell, das auf beiden Arten von Kovariaten basiert. Bisher habe ich Modelle 1 (oben nicht gezeigt; es war auch nicht möglich, zwischen Patienten mit hohem und niedrigem Risiko in unserer Stichprobe zu unterscheiden) und 2 (oben gezeigt) hergestellt. Da 1 und 2 nicht signifikant waren, habe ich Modell 3 nicht hergestellt. Sollte ich das auf irgendeine Weise tun?

Alle zusätzlichen Kommentare zu analytischen Bedenken wären sehr dankbar! Bitte laden Sie die maskierten Daten herunter und schauen Sie selbst.

Alexander
quelle

Antworten:

5

Sie haben das Problem gut beschrieben und in vielerlei Hinsicht gut eingerichtet. Die Definition des "prognostischen Scores" war mir nicht klar, aber es ist sehr unwahrscheinlich, dass ein 2-Level-Score klinisch hilfreich ist. Es ist wichtig, alle relevanten verfügbaren klinischen Variablen basierend auf der Expertenmeinung bei der Auswahl anzupassen. Hier einige Verbesserungsmöglichkeiten:

  1. Die 10-fache Kreuzvalidierung ist instabil und muss 100 Mal wiederholt werden, um eine angemessene Präzision zu erzielen (oder verwenden Sie den Efron-Gong-Optimismus-Bootstrap mit 400 Resamples; beide sind im R- rmsPaket verfügbar ).
  2. Die Aufteilung des Signals in "gut" und "schlecht", angetrieben durch ROC-Kurven, ist eine beliebte Technik, basierte jedoch nicht auf guten statistischen Prinzipien. Jeder Biomarker, der sein Salz wert ist, sollte eine Dosis-Wirkungs-Beziehung haben, und eine Unterteilung in zwei sehr willkürliche Gruppen ist unnötig, irreführend und führt zu Informations- und Stromausfällen.
  3. ROC-Kurven haben in diesem Zusammenhang absolut nichts zu bieten
  4. Die Auswahl von Grenzwerten für die Biomarker ist eine statistische Katastrophe. Unter anderem wird nicht erkannt, dass Schnittpunkte mathematisch gesehen nur am hinteren Ende und nicht am kovariaten Ende liegen können, da der Schnittpunkt für jeden Marker vom absoluten Wert aller anderen Markerwerte für einen Patienten abhängt.
  5. Eine schrittweise Regression ohne Bestrafung ist nicht zuverlässig. In Ihrem Setup gibt es keinen Grund , nicht alle Marker in ein Modell zu setzen und ein Wahrscheinlichkeitsverhältnis zu tun - Test zum Testen des Wertes , der sie in den klinischen Variablen.χ2
  6. Eine gute Alternative zu 5. besteht darin, eine Redundanzanalyse oder eine variable Clusterbildung der Biomarker durchzuführen, um deren Anzahl zu verringern, bevor sie mit dem Ergebnis in Beziehung gesetzt werden.
  7. Wenn Ihre Stichprobe größer wäre, könnten Sie zulassen, dass alle Variablen mithilfe von Regressionssplines nichtlinear in das Modell eingegeben werden. Wenn ein Biomarker gelegentlich glatt und nichtlinear ist, verdoppelt sich sein Wert gegenüber dem Erzwingen der Linearität.
  8. Lassen Sie die Protokollwahrscheinlichkeit, die eine optimale Bewertungsregel darstellt (die bestrafte Wahrscheinlichkeit wäre sogar noch besser), ihren Job machen. Verbringen Sie keine Zeit mit falschen Regeln für die Genauigkeitsbewertung.
  9. Erwägen Sie die Verwendung des auf der Log-Wahrscheinlichkeit basierenden "Angemessenheitsindex" zur Beschreibung des Nutzens der Biomarker, wie in meinem Buch " Regressionsmodellierungsstrategien" beschrieben .
Frank Harrell
quelle