Welche Vor- und Nachteile hat die Verwendung der Logrank-Methode im Vergleich zur Mantel-Haenszel-Methode für die Berechnung des Hazard Ratio in der Überlebensanalyse?

17

Eine Möglichkeit, den Vergleich zweier Überlebenskurven zusammenzufassen, ist die Berechnung der Hazard Ratio (HR). Es gibt (mindestens) zwei Methoden, um diesen Wert zu berechnen.

  • Logrank-Methode. Berechnen Sie im Rahmen der Kaplan-Meier-Berechnungen die Anzahl der beobachteten Ereignisse (normalerweise Todesfälle) in jeder Gruppe ( und ) und die Anzahl der erwarteten Ereignisse unter der Annahme einer Nullhypothese ohne Überlebensunterschied ( und ). . Das Gefährdungsverhältnis ist dann: ÖeinE a E b H R = ( O a / E a )ÖbEeinEb
    HR=(Öein/Eein)(Öb/Eb)
  • Mantel-Haenszel-Methode. Berechnen Sie zunächst V, dh die Summe der hypergeometrischen Varianzen zu jedem Zeitpunkt. Dann berechnen Sie die Hazard Ratio als: Ich habe diese beiden Gleichungen aus Kapitel 3 von Machin, Cheung und Parmar, Survival Analysis . In diesem Buch heißt es, dass die beiden Methoden in der Regel sehr ähnliche Methoden ergeben, und in der Tat ist dies beim Beispiel im Buch der Fall.
    HR=exp((Öein-Eein)V)

Jemand hat mir ein Beispiel geschickt, bei dem sich die beiden Methoden um den Faktor drei unterscheiden. In diesem speziellen Beispiel ist es offensichtlich, dass die Logrank-Schätzung sinnvoll ist und die Mantel-Haenszel-Schätzung weit entfernt ist. Meine Frage ist, ob jemand einen allgemeinen Rat hat, wann es am besten ist, die logarithmische Schätzung des Gefährdungsgrads zu wählen, und wann es am besten ist, die Mantel-Haenszel-Schätzung zu wählen. Hat es mit dem Stichprobenumfang zu tun? Anzahl der Krawatten? Verhältnis der Stichprobengrößen?

Harvey Motulsky
quelle
In welcher Beziehung stehen diese Schätzungen zu den Schätzungen der Cox-Regression? Das muss der Goldstandard für die Schätzung der HR sein.
Aniko
Das Cox-Modell enthält Kovariaten. Die Kaplan-Meier-, Nelson-Aalen- und Mantel-Haenszel-Methoden modellieren die Gefährdung als Funktion nur des Alters.
Shabbychef
@shabbychef: Verwenden Sie mit Cox PH eine einzelne binäre Kovariate, dh 0/1 für Referenz- / Vergleichsgruppen, dann exp (beta) = HR.
ars
Der logarithmische Rang ist ein leistungsfähigerer Test als Cox PH, wenn die Proportional-Hazards-Annahme erfüllt ist. Bei einer einzelnen 2-stufigen Kovariate ist daher ein Log-Rank- oder Mantel-Haenszel-Test vorzuziehen.
Thylacoleo
siehe unten für die Antwort ...
Thylacoleo

Antworten:

11

Ich denke, ich habe die Antwort herausgefunden (auf meine eigene Frage). Wenn die Annahme proportionaler Gefährdungen zutrifft, geben die beiden Methoden ähnliche Schätzungen der Gefährdungsquote. Die Diskrepanz, die ich in einem bestimmten Beispiel gefunden habe, liegt meiner Meinung nach an der Tatsache, dass diese Annahme zweifelhaft ist.

Wenn die Annahme proportionaler Gefahren wahr ist, sollte ein Diagramm von log (Zeit) vs. log (-log (St)) (wobei St das proportionale Überleben zum Zeitpunkt t ist) zwei parallele Linien zeigen. Unten sehen Sie das Diagramm, das aus dem Problemdatensatz erstellt wurde. Es scheint alles andere als linear zu sein. Wenn die Annahme proportionaler Gefährdungen nicht gültig ist, ist das Konzept einer Gefährdungsquote bedeutungslos und es spielt keine Rolle, mit welcher Methode die Gefährdungsquote berechnet wird.

Alt-Text

Ich frage mich, ob die Diskrepanz zwischen den Schätzungen von Logrank und Mantel-Haenszel zur Gefährdungsquote als Methode zur Prüfung der Annahme proportionaler Gefährdungen herangezogen werden kann.

Harvey Motulsky
quelle
7

Wenn ich mich nicht irre, wird der Log-Rank-Schätzer, auf den Sie verweisen, auch als Pike-Schätzer bezeichnet. Ich glaube, es wird allgemein für HR <3 empfohlen, da es in diesem Bereich weniger Verzerrungen aufweist. Das folgende Papier ist möglicherweise von Interesse (beachten Sie, dass das Papier als O / E bezeichnet wird):

[...] Die O / E-Methode ist voreingenommen, aber innerhalb des Wertebereichs des Verhältnisses der in klinischen Studien interessierenden Gefährdungsraten ist sie hinsichtlich des mittleren quadratischen Fehlers effizienter als die CML oder die Mantel-Haenszel-Methode Methode für alle außer den größten Studien. Die Mantel-Haenszel-Methode ist minimal verzerrt, gibt Antworten, die denen von CML sehr nahe kommen, und kann verwendet werden, um zufriedenstellende ungefähre Konfidenzintervalle bereitzustellen.

ars
quelle
Nach einem kurzen Blick auf dieses Papier bin ich mir nicht sicher, ob die Schätzungen, die sie berücksichtigen, mit denen in den Gleichungen des Fragestellers übereinstimmen. Ich stimme den Kommentaren unter der Frage zu - vielleicht waren 1981 ungefähre Methoden nützlich, aber heutzutage gibt es keinen offensichtlichen Grund, keine Cox-Regression zu verwenden.
Uhr
@onestop: hmm, denkst du Definition von O / E == LR mit dem Log oben vergessen? Ich stimme Ihrer Meinung zu Cox PH zu - das ist nicht die Frage, die ich beantworten wollte, aber Ihr Rat ist im weiteren Kontext besser.
ars
Bernstein et. al. Zeigen Sie einige Gründe (kleines n, Bindungen), die dazu führen, dass die beiden Methoden ungenau oder unterschiedlich sind. Aber alle Unstimmigkeiten, die sie zeigten, sind gering. Ich glaube nicht, dass irgendetwas in diesem Artikel die dreifache Diskrepanz erklärt, die mich zu dieser Frage veranlasst hat. Siehe unten für die Antwort, die ich mir ausgedacht habe.
Harvey Motulsky
7

Tatsächlich gibt es mehrere weitere Methoden, und die Wahl hängt häufig davon ab, ob Sie am meisten daran interessiert sind, nach frühen oder späteren Unterschieden zu suchen, oder - wie beim Log-Rank-Test und beim Mantel-Haenszel-Test - allen Zeitpunkten das gleiche Gewicht zu geben.

Zur Frage zur Hand. Der Log-Rank-Test ist in der Tat eine Form des Mantel-Haenszel-Tests, der auf Überlebensdaten angewendet wird. Der Mantel-Haenszel-Test wird normalerweise verwendet, um die Unabhängigkeit in geschichteten Kontingenztabellen zu testen.

Wenn wir versuchen, den MH-Test auf Überlebensdaten anzuwenden, können wir davon ausgehen, dass die Ereignisse zu jeder Ausfallzeit unabhängig sind. Wir schichten dann nach Ausfallzeit. Wir verwenden die MH-Methoden, um jede Ausfallzeit zu einer Schicht zu machen. Es überrascht nicht, dass sie oft das gleiche Ergebnis liefern.

Die Ausnahme tritt auf, wenn mehr als ein Ereignis gleichzeitig eintritt - mehrere Todesfälle zum exakt gleichen Zeitpunkt. Ich kann mich nicht erinnern, wie sich die Behandlung dann unterscheidet. Ich denke, der Log-Rank-Test ergibt einen Durchschnitt über die möglichen Ordnungen der gebundenen Ausfallzeiten.

Der Log-Rank-Test ist also der MH-Test für Überlebensdaten und kann sich mit Bindungen befassen. Ich habe den MH-Test nie für Überlebensdaten verwendet.

Thylacoleo
quelle
3

Ich dachte, ich wäre über eine Website und einen Verweis gestolpert, die genau diese Frage behandeln:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 Beginnen Sie mit "Die beiden Methoden im Vergleich".

Die Seite verweist auf das Berstein-Papier, auf das oben verwiesen wird:

http://www.jstor.org/stable/2530564?seq=1

Die Seite fasst die Ergebnisse von Berstein et al. Gut zusammen, also zitiere ich sie:

Die beiden ergeben normalerweise identische (oder nahezu identische) Ergebnisse. Die Ergebnisse können sich jedoch unterscheiden, wenn mehrere Probanden gleichzeitig sterben oder wenn das Gefährdungsverhältnis weit von 1,0 entfernt ist.

Bernsetin und Kollegen analysierten simulierte Daten mit beiden Methoden (1). In all ihren Simulationen stimmte die Annahme proportionaler Gefahren. Die beiden Methoden ergaben sehr ähnliche Werte. Die Logrank-Methode (die sie als O / E-Methode bezeichnen) gibt Werte an, die näher an 1,0 liegen als das wahre Gefährdungsverhältnis, insbesondere wenn das Gefährdungsverhältnis groß oder die Stichprobengröße groß ist.

Bei Gleichstand sind beide Methoden weniger genau. Die logrank-Methoden tendieren dazu, Gefahrenquoten zu melden, die noch näher an 1,0 liegen (daher ist die gemeldete Gefahrenquote zu klein, wenn die Gefahrenquote größer als 1,0 ist, und zu groß, wenn die Gefahrenquote kleiner als 1,0 ist). Im Gegensatz dazu gibt die Mantel-Haenszel-Methode Gefahrenquoten an, die weiter von 1,0 entfernt sind (daher ist die gemeldete Gefahrenquote zu groß, wenn die Gefahrenquote größer als 1,0 ist, und zu klein, wenn die Gefahrenquote kleiner als 1,0 ist).

Sie haben die beiden Methoden nicht mit simulierten Daten getestet, bei denen die Annahme proportionaler Gefahren nicht zutrifft. Ich habe einen Datensatz gesehen, bei dem die beiden HR-Schätzungen sehr unterschiedlich waren (um den Faktor drei), und die Annahme proportionaler Gefährdungen war für diese Daten zweifelhaft. Es scheint, dass die Mantel-Haenszel-Methode Unterschiede in der Gefährdung zu späten Zeitpunkten stärker berücksichtigt, während die Logrank-Methode überall das gleiche Gewicht verleiht (aber ich habe dies nicht im Detail untersucht). Wenn Sie bei beiden Methoden sehr unterschiedliche HR-Werte sehen, überlegen Sie, ob die Annahme proportionaler Gefahren angemessen ist. Wenn diese Annahme nicht vernünftig ist, ist natürlich das gesamte Konzept einer einzelnen Gefahrenquote, die die gesamte Kurve beschreibt, nicht aussagekräftig

Die Site verweist auch auf den Datensatz, in dem "die beiden HR-Schätzungen sehr unterschiedlich waren (um den Faktor drei)", und legt nahe, dass die PH-Annahme eine Schlüsselüberlegung darstellt.

Dann dachte ich: "Wer hat die Seite verfasst?" Nach einigem Suchen stellte ich fest, dass es Harvey Motulsky war. Ich habe es also geschafft, Sie bei der Beantwortung Ihrer eigenen Frage zu referenzieren. Du bist die Autorität geworden!

Ist der "Problem-Datensatz" ein öffentlich verfügbarer Datensatz?

Thylacoleo
quelle
Ich habe die Antwort vor zwei Tagen herausgefunden und sie hier als neue Antwort gepostet. Ich habe dann auch die Webseite bei graphpad.com, die Sie gefunden haben, erweitert und aktualisiert. Ich habe diese Seite soeben erneut bearbeitet und einen Link zu einer Excel-Datei mit den Problemdaten eingefügt ( graphpad.com/faq/file/1226.xls ). Ich konnte das nicht tun, bis ich die Erlaubnis von dem Typ erhalten habe, der die Daten generiert hat (er möchte anonym sein und die Daten sind vage beschriftet).
Harvey Motulsky