Was ist in einem Poisson-Modell der Unterschied zwischen der Verwendung der Zeit als Kovariate oder als Offset?

18

Ich habe kürzlich herausgefunden, wie man Expositionen über die Zeit modelliert, indem man das Protokoll der (z. B.) Zeit als Offset in einer Poisson-Regression verwendet.

Ich habe verstanden, dass der Versatz Zeit als Kovariate mit Koeffizient 1 entspricht.

Ich möchte den Unterschied zwischen der Verwendung der Zeit als Versatz oder als normale Kovariate (daher Schätzung des Koeffizienten) besser verstehen. In welcher Situation sollte ich die eine oder andere Methode anwenden wollen?

UPGRADE: Ich weiß nicht, ob es interessant ist, aber ich habe eine Validierung der beiden Methoden mit zufällig aufgeteilten Daten durchgeführt, die 500 Mal wiederholt wurden, und festgestellt, dass die Verwendung der Offset-Methode zu einem größeren Testfehler führt.

Bakaburg
quelle

Antworten:

25

Offsets können in jedem Regressionsmodell verwendet werden, kommen jedoch viel häufiger vor, wenn Sie mit Zählungsdaten für Ihre Antwortvariable arbeiten. Ein Offset ist nur eine Variable, die im Modell einen Koeffizienten von . (Siehe auch diesen ausgezeichneten CV-Thread: Wann wird ein Offset in einer Poisson-Regression verwendet? ) 1

Bei korrekter Verwendung mit Zählungsdaten können Sie damit Raten anstelle von Zählungen modellieren . Wenn das von Interesse ist, ist es etwas zu tun. Dies ist also der Kontext, in dem Offsets am häufigsten verwendet werden. Betrachten wir einen Poisson-GLiM mit einer Protokollverknüpfung (die die kanonische Verknüpfung ist).

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(Wie Sie sehen können, besteht der Schlüssel zur korrekten Verwendung eines Versatzes darin, den Versatz und nicht .) t i m eln(time)time

Wenn der Koeffizient für nicht , werden keine Raten mehr modelliert. Da jedoch eine viel größere Flexibilität für die Anpassung der Daten bietet, werden Modelle, die als Versatz verwenden, dies normalerweise tun passen besser (obwohl sie auch überpassen können). 1 β 2( - , 1 ) ( 1 , ) ln ( t i m e )ln(time)1β2(,1)(1,)ln(tichme)


Ob Sie Zählungen oder Raten modellieren sollten, hängt wirklich von Ihrer inhaltlichen Frage ab. Sie sollten diejenige modellieren, die dem entspricht, was Sie wissen möchten.

Was es bedeuten könnte, dass nicht , betrachten Sie ein Beispiel, in dem die Zeit nicht die fragliche Variable ist. Stellen Sie sich vor, Sie untersuchen die Anzahl der chirurgischen Komplikationen in verschiedenen Krankenhäusern. In einem Krankenhaus wurden viel mehr chirurgische Komplikationen gemeldet, aber sie könnten behaupten, dass der Vergleich nicht fair ist, weil sie viel mehr Operationen durchführen. Also beschließen Sie, dies zu kontrollieren. Sie können einfach das Protokoll der Anzahl der Operationen als Offset verwenden, um die Komplikationsrate pro Operation zu untersuchen. Sie können auch das Protokoll der Anzahl der Operationen als eine andere Kovariate verwenden. Angenommen, der Koeffizient unterscheidet sich erheblich von . Ifβ211β2>1Dann haben die Krankenhäuser, die mehr Operationen durchführen, eine höhere Komplikationsrate (möglicherweise, weil sie die Arbeit beschleunigen, um mehr zu erledigen). Wenn , haben die Krankenhäuser mit den meisten Komplikationen weniger pro Operation (vielleicht haben sie die besten Ärzte, und deshalb tun sie mehr und verbessern sie). β2<1

Zu sehen, wie dies passieren könnte, wenn die fragliche Variable Zeit wäre, ist etwas komplizierter. Die Poisson-Verteilung ergibt sich aus dem Poisson-Prozess , bei dem die Zeit zwischen Ereignissen exponentiell verteilt ist und daher ein natürlicher Zusammenhang zur Überlebensanalyse besteht. In der Überlebensanalyse ist die Zeit bis zu Ereignissen häufig nicht exponentiell verteilt, aber das Grundrisiko kann mit der Zeit größer oder kleiner werden. Stellen Sie sich daher einen Fall vor, in dem Sie die Anzahl der Ereignisse modellieren, die nach einem natürlichen Ausgangspunkt auftreten. Wenn , bedeutet dies, dass sich die Ereignisrate beschleunigt, während bedeutet, dass sich die Ereignisrate verlangsamt. β2>1β2<1

Stellen Sie sich als konkretes Beispiel ein Scan vor, bei dem die Anzahl der Krebszellen in einem Zeitraum nach der chirurgischen Entfernung des ursprünglichen Tumors gezählt wird. Für einige Patienten ist seit der Operation mehr Zeit vergangen, und Sie wollten dies berücksichtigen. Da ein Krebs, sobald er wieder Fuß gefasst hat, exponentiell zu wachsen beginnt, steigt die Rate im Laufe der Zeit seit der Operation ohne zusätzliche Behandlung.

Betrachten Sie als konkretes Beispiel die Anzahl der Menschen, die an einem Krankheitsausbruch sterben, für den wir keine Behandlung haben. Zuerst sterben viele Menschen, weil sie anfälliger für diese Krankheit waren oder bereits ein geschwächtes Immunsystem hatten. Mit der Zeit wird die Rate sinken, da die verbleibende Bevölkerung weniger anfällig für die Krankheit ist. (Sorry, dieses Beispiel ist so krankhaft.)

gung - Wiedereinsetzung von Monica
quelle
Vielen Dank Gung für Ihre umfassende Antwort! Bitte sag mir, ob ich es richtig verstanden habe. Wenn wir Zeit Verwendung als Offset übernehmen wir eine lineare positive Beziehung zwischen der Zeit und Ereignisse , deren Winkelkoeffizienten , der durch den anderen Prädiktoren gegeben potenziert . Wenn wir stattdessen die Protokollzeit als Kovariate verwenden, schätzen wir den exponentiellen Effekt der Zeit auf Ereignisse, der entweder positiv oder negativ sein kann. . (Forts.)y=tichmeexp(1pβpXp+cOnst)y=tichmeβtichmeexp(1pβpXp+cOnst)
Bakaburg
1
Warum sollte man also davon ausgehen, dass das Verhältnis zwischen Zeit und Ereignissen linear ist und wächst? Wäre es nicht besser, die Form einer solchen Beziehung in jedem Fall einzuschätzen? Ich habe noch zwei Fragen: 1. Was würde es bedeuten, die transformierte Zeit nicht als Kovariate zu protokollieren? 2. (Vielleicht sollte ich die Frage bearbeiten oder eine neue dazu stellen) Ich habe gelesen, dass Poisson-Modelle tatsächlich auch mit nicht ganzzahligem y verwendet werden können. So könnte ich in R schreiben: glm (I (y / Zeit) ~ cov.1 + ... + cov.n, poisson) und die gleichen Ergebnisse haben, die ich mit offset (log (Zeit)) habe. Ich habe es versucht, aber ich bekomme unterschiedliche Koeffizienten.
Bakaburg
Die Poisson-Distanz ist nur für ganze Zahlen. Sie sollten in der LHS keinen Bruch eingeben. Wenn Sie die Protokolltransformation nicht verwenden, bedeutet dies, dass Sie Ereignisraten pro exponentiell Einheitszeit modellieren, was in der realen Welt wahrscheinlich nie sinnvoll sein wird.
gung - Wiedereinsetzung von Monica
1
@Bakaburg, Zeit korreliert wohl mit ihnen. Das unterscheidet sich nicht von jeder anderen Regressionsmodellierungssituation. Ich sehe das Problem hier nicht. Sie sind entweder an der Modellierung von Durchschnittsraten interessiert oder nicht.
gung - Wiedereinsetzung von Monica
1
@tatami, wenn Sie die Zeit als Kovariate (anstatt als Versatz) verwenden, müssen Sie nicht das Protokoll der Zeit nehmen. Wenn Sie jedoch Ihr Ergebnis mit einem Offset vergleichen möchten, müssen Sie das Protokoll verwenden, um sie vergleichbar zu machen.
gung - Wiedereinsetzung von Monica
7

Zeitversätze können normalerweise als Modell angesehen werden, das die Häufigkeit eines Ereignisses pro Zeiteinheit schätzt, wobei der Versatz steuert, wie lange Sie verschiedene Probanden beobachtet haben.

In poisson - Modelle sind Abschätzen Sie immer eine Rate , dass etwas passiert, aber man bekommt nie zu beobachten direkt diese Rate. Sie haben bekommen die Anzahl der Male zu beobachten , dass ein Ereignis eine gewisse Zeit geschieht über. Der Versatz stellt die Verbindung zwischen den beiden Konzepten her.

Sie haben beispielsweise beobachtet, wie Probanden Körbe unterschiedlich lange schossen, und Sie haben die Anzahl der erfolgreichen Körbe für jedes Proband gezählt. Was Sie wirklich interessiert, ist, wie oft jedes Fach einen Korb versenkt, dh wie viele erfolgreiche Körbe jedes Fach pro Minute versenkt, da dies ein eher objektives Maß für sein Können ist. Die Anzahl der Körbe, die Sie tatsächlich beim Sinken beobachtet haben, entspricht dieser geschätzten Rate mal der Zeit, die Sie beim Versuch des Probanden beobachtet haben. Sie können also in Einheiten der Antwort und der Anzahl der Körbe pro Minute denken .

Es ist schwierig, sich eine Situation vorzustellen, in der Sie die beobachtete Zeit als Kovariate in einer Poisson-Regression verwenden würden, da Sie von Natur aus eine Rate schätzen.

Wenn ich zum Beispiel die Auswirkung von Amerikanisch gegen Europäisch (sehr albernes Beispiel) auf die Anzahl der Körbe beurteilen möchte, würde das Hinzufügen von Zeit als Kovariate es mir ermöglichen, diese Auswirkung "unabhängig" von der verstrichenen Aufnahmezeit zu beurteilen es? Außerdem würde es mir eine Schätzung der Auswirkung der Zeit auf das Ergebnis geben.

Hier ist ein Beispiel, das hoffentlich die Gefahr davon hervorhebt. Angenommen, Amerikaner und Europäer versenken in Wahrheit jede Minute die gleiche Anzahl von Körben. Nehmen wir jedoch an, wir haben jeden Europäer doppelt so lange beobachtet wie jeden Amerikaner. Im Durchschnitt haben wir also für jeden Europäer doppelt so viele Körbe beobachtet.

Wenn wir ein Modell mit Parametern für beide beobachteten Zeiten und einem Indikator für "ist europäisch" erstellen, erklären beide Modelle die Daten:

E(Körbe)=2ct+0xEropäisch
E(Körbe)=0t+2cxEropäisch

(wobei eine Konstante ist, was die wahre Rate ist, mit der beide Spielertypen Körbe herstellen).c

Als Statistiker möchten wir in dieser Situation unbedingt, dass unser Modell uns mitteilt, dass es keinen statistischen Unterschied zwischen der Rate, mit der Europäer Körbe herstellen, und der Rate, mit der Amerikaner Körbe herstellen, gibt. Aber unser Modell hat es nicht geschafft und wir sind verwirrt.

Das Problem ist, dass wir etwas wissen, das unser Modell nicht kennt. Das heißt, wir wissen, dass, wenn wir dasselbe Individuum doppelt so lange beobachten, es erwartungsgemäß doppelt so viele Körbe herstellen wird. Da wir das wissen, müssen wir unserem Modell davon erzählen. Dies ist es, was der Offset bewirkt.

Vielleicht ist es angebracht, die Offset-Methode zu verwenden, wenn wir wissen, dass die Ereignisse im Laufe der Zeit gleichmäßig ablaufen!

Ja, aber dies ist eine Annahme des Poisson-Modells . Von der Wikipedia-Seite über die Poisson-Verteilung

Die Poisson-Verteilung, benannt nach dem französischen Mathematiker Siméon Denis Poisson, ist eine diskrete Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit eines Auftretens einer bestimmten Anzahl von Ereignissen in einem festen Zeit- und / oder Raumintervall ausdrückt, wenn diese Ereignisse mit einer bekannten Durchschnittsrate und unabhängig von der Wahrscheinlichkeit auftreten die Zeit seit dem letzten Ereignis .

Matthew Drury
quelle
2
Danke für deine Antwort. Aber mit der Zeit als Kovariate hätte ich nicht die gleiche Antwort erhalten? Wenn ich zum Beispiel die Auswirkung von Amerikanisch gegen Europäisch (sehr albernes Beispiel) auf die Anzahl der Körbe beurteilen möchte, würde das Hinzufügen von Zeit als Kovariate es mir ermöglichen, diese Auswirkung "unabhängig" von der verstrichenen Aufnahmezeit zu beurteilen es? Außerdem würde es mir eine Schätzung der Auswirkung der Zeit auf das Ergebnis geben. Manchmal ist die Zeit für eine Zählvariable nicht immer wichtig, beispielsweise wenn die Ereignisse alle zu Beginn des Beobachtungszeitraums auftreten.
Bakaburg
Vielleicht ist es angebracht, die Offset-Methode zu verwenden, wenn wir wissen, dass die Ereignisse im Laufe der Zeit gleichmäßig ablaufen!
Bakaburg
1
@ Bakaburg Ich habe einen Antwortversuch hinzugefügt. Ich hoffe, es hilft!
Matthew Drury