Poisson-Regression zur Abschätzung des relativen Risikos für binäre Ergebnisse

42

Kurze Zusammenfassung

Warum wird logistische Regression (mit Odds Ratios) in Kohortenstudien mit binären Ergebnissen häufiger verwendet als Poisson-Regression (mit relativen Risiken)?

Hintergrund

Meiner Erfahrung nach lehren Statistik- und Epidemiologiekurse für Studierende und Absolventen im Allgemeinen, dass die logistische Regression zur Modellierung von Daten mit binären Ergebnissen verwendet werden sollte, wobei die Risikoschätzungen als Odds Ratios angegeben werden.

Die Poisson-Regression (und verwandte: Quasi-Poisson, negatives Binomial usw.) kann jedoch auch zur Modellierung von Daten mit binären Ergebnissen verwendet werden und liefert mit geeigneten Methoden (z. B. robuster Sandwich-Varianzschätzer) gültige Risikoschätzungen und Konfidenzniveaus. Z.B,

Aus der Poisson-Regression können relative Risiken gemeldet werden, von denen einige argumentiert haben, dass sie im Vergleich zu Odds Ratios leichter zu interpretieren sind, insbesondere für häufige Outcomes und insbesondere für Personen ohne starken statistischen Hintergrund. Siehe Zhang J. und Yu KF, Was ist das relative Risiko? Eine Methode zur Korrektur der Odds Ratio in Kohortenstudien zu gemeinsamen Ergebnissen , JAMA. 18.11.1998; 280 (19): 1690-1.

Aus der medizinischen Literatur geht hervor, dass es in Kohortenstudien mit binären Ergebnissen nach wie vor weitaus häufiger vorkommt, Odds Ratios aus logistischen Regressionen zu melden, als relative Risiken aus Poisson-Regressionen.

Fragen

Für Kohortenstudien mit binären Ergebnissen:

  1. Gibt es einen guten Grund, Quotenquoten aus logistischen Regressionen und keine relativen Risiken aus Poisson-Regressionen zu melden?
  2. Wenn nicht, kann die Unregelmäßigkeit von Poisson-Regressionen mit relativen Risiken in der medizinischen Literatur hauptsächlich auf eine Verzögerung zwischen Methodentheorie und -praxis bei Wissenschaftlern, Klinikern, Statistikern und Epidemiologen zurückgeführt werden?
  3. Sollten Fortgeschrittenenkurse in Statistik und Epidemiologie eine stärkere Diskussion der Poisson-Regression für binäre Ergebnisse beinhalten?
  4. Sollte ich Studenten und Kollegen ermutigen, Poisson-Regression statt logistische Regression in Betracht zu ziehen, wenn dies angebracht ist?
jthetzel
quelle
Wenn Sie ein relatives Risiko wünschen, warum sollten Sie dann nicht einfach die binomische Regression mit logarithmischem (anstatt logarithmischem) Link verwenden? Die Mittelwert-Varianz-Beziehung der Poisson-Familie ist wenig sinnvoll, wenn Sie von der Anzahl der möglichen Ereignisse pro Beobachtung abhängig sind.
Andrew M
@AndrewM Wie würden Sie eine binomische Regression mit Protokollverknüpfung anwenden? Positive Werte des Regressors würden Wahrscheinlichkeitswerte größer als 1 implizieren.
Rufo
[0,1]
@ AndrewM Ja, ich erwähne Linear Predictor, danke :). Aber selbst wenn Sie es schaffen, das Modell umzusetzen, bin ich mir nicht sicher, ob es angemessen ist. Wie ich in einem Kommentar in der ersten Antwort anmerke, unterscheiden sich die Schätzungen der relativen Risiken ( exp(beta_M1) =/= 1/exp(beta_M2)) , wenn Sie für die Antwortvariable 0s gegen 1s und umgekehrt tauschen, da die Protokollverknüpfung nicht symmetrisch um 0,5 ist . Das stört mich ziemlich.
Rufo
1
P(Y.|X)/P(Y.|Xc)P(Y.|X)/P(Y.|Xc)P(Y.c|X)/P(Y.c|Xc)

Antworten:

28

Eine Antwort auf alle vier Ihrer Fragen, gefolgt von einer Notiz:

Tatsächlich ist es in modernen epidemiologischen Studien nicht allzu häufig , ein Odds Ratio aus einer logistischen Regression für eine Kohortenstudie anzugeben. Es bleibt die Regressionstechnik der Wahl für Fall-Kontroll-Studien, aber ausgefeiltere Techniken sind heute der De-facto-Standard für die Analyse in wichtigen epidemiologischen Fachzeitschriften wie Epidemiology , AJE oder IJE. Es wird eine größere Tendenz geben, dass sie in klinischen Journalen auftauchen, die die Ergebnisse von Beobachtungsstudien berichten. Es wird auch einige Probleme geben, da die Poisson-Regression in zwei Kontexten verwendet werden kann: Was Sie meinen, wobei es ein Ersatz für ein binomiales Regressionsmodell ist, und in einem Zeit-bis-Ereignis-Kontext, der für Kohorten extrem häufig ist Studien. Weitere Details in der jeweiligen Frage beantwortet:

  1. Für eine Kohortenstudie nicht wirklich nein. Es gibt einige äußerst spezifische Fälle, in denen möglicherweise ein stückweises Logistikmodell verwendet wurde, bei denen es sich jedoch um Ausreißer handelt. Der springende Punkt einer Kohortenstudie ist, dass Sie das relative Risiko oder viele verwandte Maßnahmen direkt messen können und sich nicht auf ein Odds Ratio verlassen müssen. Ich werde jedoch zwei Anmerkungen machen: Eine Poisson-Regression schätzt oft eine Rate, kein Risiko, und daher wird die daraus resultierende Effektschätzung häufig als Ratenverhältnis (hauptsächlich, wie ich meine, immer noch als RR abgekürzt) oder als Inzidenzdichteverhältnis (IRR oder IDR) angegeben. Stellen Sie also sicher, dass Sie bei Ihrer Suche tatsächlich nach den richtigen Begriffen suchen: Es gibt viele Kohortenstudien, die Überlebensanalysemethoden verwenden. Für diese Studien nimmt die Poisson-Regression einige problematische Annahmen an, insbesondere, dass die Gefahr konstant ist. Daher ist es weitaus üblicher, eine Kohortenstudie mit Cox-Proportional-Hazards-Modellen anstelle von Poisson-Modellen zu analysieren und die sich daraus ergebende Hazard Ratio (HR) anzugeben. Wenn man eine "Standard" -Methode zur Analyse einer Kohorte nennt, würde ich sagen, dass die Epidemiologie tatsächlich vom Cox-Modell dominiert wird. Dies hat seine eigenen Probleme, und einige sehr gute Epidemiologen möchten es ändern,

  2. Es gibt zwei Dinge, auf die ich die Seltenheit zurückführen könnte - eine Seltenheit, die meines Erachtens nicht unbedingt in dem von Ihnen vorgeschlagenen Ausmaß existiert. Eins ist, dass ja - "Epidemiologie" als Fachgebiet ist nicht genau geschlossen, und Sie erhalten eine große Anzahl von Beiträgen von Klinikern, Sozialwissenschaftlern usw. sowie Epidemiologen mit unterschiedlichem statistischen Hintergrund. Das logistische Modell wird allgemein gelehrt, und meiner Erfahrung nach werden viele Forscher das vertraute Werkzeug dem besseren Werkzeug vorziehen.

    Das zweite ist eigentlich eine Frage dessen, was Sie mit "Kohorten" -Studie meinen. So etwas wie das Cox-Modell oder ein Poisson-Modell benötigt eine tatsächliche Schätzung der Personenzeit. Es ist möglich, eine Kohortenstudie zu erhalten, die einer etwas geschlossenen Population für einen bestimmten Zeitraum folgt - insbesondere in frühen "Intro to Epi" -Beispielen, in denen Überlebensmethoden wie Poisson- oder Cox-Modelle nicht so nützlich sind. Das Logistikmodell kannverwendet werden, um eine Wahrscheinlichkeitsquote zu schätzen, die bei einer ausreichend niedrigen Krankheitsprävalenz ein relatives Risiko annähert. Andere Regressionstechniken wie die binomiale Regression haben Konvergenzprobleme, die einen neuen Schüler leicht aus dem Gleichgewicht bringen können. Denken Sie daran, dass die von Ihnen genannten Zou-Artikel beide eine Poisson-Regressionstechnik verwenden, um die Konvergenzprobleme der binomialen Regression zu umgehen. Aber binomial-passende Kohortenstudien sind eigentlich ein kleiner Ausschnitt aus dem "Kohortenstudienkuchen".

  3. Ja. Offen gesagt, sollten Überlebensanalysemethoden früher als oft angewendet werden. Meine Haustier Theorie ist, dass der Grund dafür nicht ist, dass Methoden wie die logistische Regression einfacher zu programmieren sind . Techniken, die einfacher zu codieren sind, aber viel größere Einschränkungen hinsichtlich der Gültigkeit ihrer Effektschätzungen aufweisen, werden als "grundlegender" Standard gelehrt, der ein Problem darstellt.

  4. Sie sollten Studenten und Kollegen ermutigen, das entsprechende Tool zu verwenden. Generell denke ich, dass Sie besser dran sind, eine Überlegung des Cox-Modells über eine Poisson-Regression vorzuschlagen, da die meisten Prüfer schnell Bedenken hinsichtlich der Annahme einer konstanten Gefahr äußern würden (und sollten). Aber ja, je eher Sie sie von "Wie kann ich meine Frage in ein logistisches Regressionsmodell umwandeln?" Je besser dran wir alle sein werden. Aber ja, wenn Sie eine Studie ohne Zeitaufwand betrachten, sollten die Schüler sowohl mit der binomialen Regression als auch mit alternativen Ansätzen wie der Poisson-Regression vertraut gemacht werden, die bei Konvergenzproblemen eingesetzt werden können.

Fomite
quelle
Wenn Sie sagen, dass andere Regressionstechniken wie die binomiale Regression, die das relative Risiko direkt schätzen, Konvergenzprobleme haben, [...] wie würden Sie eine binomiale Regression anwenden, um ein relatives Risiko zu erzielen? @AndrewM schlägt einen Protokolllink vor, aber ich verstehe nicht, wie Sie das Problem vermeiden könnten, Schätzungen der Erfolgswahrscheinlichkeit höher als 1 zu haben.
Rufo,
@Rufo Ein Binomialmodell mit einer Protokollverknüpfung schätzt das relative Risiko, wenn es in einer Kohorte ausgeführt wird. Dass diese Modelle manchmal Wahrscheinlichkeiten größer als 1 schätzen, ist in der Tat einer der Gründe, warum Binomialmodelle schwieriger zu implementieren sind als ideal. Ich habe sie jedoch erfolgreich eingesetzt. Es ist hilfreich, dass Ihre Daten häufig Wahrscheinlichkeiten von deutlich unter 1 aufweisen, sodass das Modell möglicherweise nie das Problem aufweist, über das Sie sich Sorgen machen.
Fomite
p
9

Ich spekuliere auch über die Verbreitung logistischer Modelle in der Literatur, wenn ein relatives Risikomodell angemessener wäre. Wir als Statistiker sind nur allzu vertraut mit der Einhaltung von Konventionen oder der Einhaltung von "Dropdown-Menü" -Analysen. Diese verursachen weit mehr Probleme als sie lösen. Die logistische Regression wird als "Standardwerkzeug" für die Analyse binärer Ergebnisse gelehrt, bei denen eine Person ein Ja / Nein-Ergebnis wie Tod oder Behinderung hat.

Die Poisson-Regression wird häufig als Methode zur Analyse von Zählungen gelehrt . Es wird etwas unterstrichen, dass ein solches Wahrscheinlichkeitsmodell besonders gut für die Modellierung von 0/1-Ergebnissen geeignet ist, insbesondere wenn sie selten sind. Ein logistisches Modell lässt sich jedoch auch mit seltenen Ergebnissen gut anwenden: Die Odds Ratio entspricht in etwa einem Risikoverhältnis, selbst bei ergebnisabhängiger Stichprobe wie bei Fallkontrollstudien. Dasselbe gilt nicht für relative Risiken oder Poisson-Modelle.

Ein Poisson-Modell ist auch dann nützlich, wenn einzelne Personen mehr als einmal ein "Ergebnis" haben und Sie möglicherweise an einer kumulativen Inzidenz interessiert sind, z. B. an Ausbrüchen von Herpes, Krankenhausaufenthalten oder Brustkrebs. Aus diesem Grund können potenzierte Koeffizienten als relative Raten interpretiert werden . Um den Unterschied zwischen Raten und Risiken herauszustellen: Wenn es 100 Fälle pro 1000 Personenjahre gibt, aber alle 100 Fälle bei einer Person aufgetreten sind, beträgt die Inzidenz (Rate) immer noch 1 Fall pro 10 Personenjahre. In der Gesundheitsfürsorge müssen immer noch 100 Fälle behandelt werden, und die Impfung von 80% der Patienten führt zu einer Verringerung der Inzidenzrate um 80% (a priori). Das Risiko von mindestens einem Ergebnis beträgt jedoch 1/1000. Die Art des Ergebnisses und die Frage bestimmen zusammen, welches Modell angemessen ist.

var(y)=E(y)(1-E(y))

Log(E[Y.|X])=β0+β1Xvar(Y.)=E[Y.](1-E[Y.])

Übrigens liefert der Zhang-Artikel eine voreingenommene Schätzung der Inferenz auf der Grundlage der relativen Risikoschätzung, die die Variabilität im Intercept-Term nicht berücksichtigt. Sie können den Schätzer durch Bootstrapping korrigieren.

Um die spezifischen Fragen zu beantworten:

  1. Wenn das Ergebnis selten ist, sind sie ungefähr gleich. Wenn das Ergebnis gemeinsam ist, ist die Varianz des relativen Ratenschätzers vom Poisson möglicherweise zu hoch, und wir bevorzugen das Odds Ratio als voreingenommene, aber effiziente Schätzung der Assoziation zwischen einem binären Ergebnis und mehreren Expositionen. Ich denke auch, dass Fall-Kontroll-Studien die Verwendung der Odds Ratio als Maß rechtfertigen, das mit der ergebnisabhängigen Stichprobe nicht variiert. Scott und Wild 97 diskutieren diesbezügliche Methoden. Natürlich haben andere Zeitschriften möglicherweise keine speziellen statistischen Prüfer.

2.3. Ich denke, Sie machen zu viel dafür verantwortlich und nehmen zu viel davon an, was bei medizinischen Gutachten und Akademikern passiert.

  1. Sie sollten Ihre Schüler immer ermutigen, nach Möglichkeit geeignete Modelle zu verwenden.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

AdamO
quelle
2
"Mein Verständnis ist, dass es ein hybrides Modell gibt, wenn das wissenschaftliche Interesse in der Schätzung der relativen Raten liegt: die relative Risikoregression, bei der es sich um eine GLM handelt, die die logistische Varianzstruktur und die Poisson-Mittelwert-Struktur verwendet."
Andrew M
2
@ AndrewM In der Tat. Tatsächlich denke ich, dass dies die bevorzugte Sprache ist. Vielen Dank für den Hinweis. Ich habe die Frage so bearbeitet, dass sie einen Verweis auf ein Arbeitspapier von Thomas Lumley enthält, in dem betont wird, dass das Poisson-Modell ein "Arbeitsmodell" ist, da es sich um eine inkorrekte angenommene Mittelwert-Varianz-Beziehung handelt.
AdamO
Was meinst du mit "Wenn das Ergebnis selten ist , sind sie ungefähr gleich"? Was ist der maximale Prozentsatz des "seltenen" Ergebnisses, um OR anstelle von RR zur Abschätzung der Prävalenz zu verwenden?
Vasili111
1
@ Vasili111 Dies ist ein heiß diskutiertes Thema ohne klare Antwort. Heutzutage sieht man viele Kritiken von Leuten, die die "seltene" Annahme gemacht haben, als die Inzidenz gar nicht so selten war, wie zum Beispiel mehr als 1/30. Und mit multivariaten Modellen ist alles möglich!
AdamO