Offsets können in jedem Regressionsmodell verwendet werden, kommen jedoch viel häufiger vor, wenn Sie mit Zählungsdaten für Ihre Antwortvariable arbeiten. Ein Offset ist nur eine Variable, die im Modell einen Koeffizienten von . (Siehe auch diesen ausgezeichneten CV-Thread: Wann wird ein Offset in einer Poisson-Regression verwendet? ) 1
Bei korrekter Verwendung mit Zählungsdaten können Sie damit Raten anstelle von Zählungen modellieren . Wenn das von Interesse ist, ist es etwas zu tun. Dies ist also der Kontext, in dem Offsets am häufigsten verwendet werden. Betrachten wir einen Poisson-GLiM mit einer Protokollverknüpfung (die die kanonische Verknüpfung ist).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Wie Sie sehen können, besteht der Schlüssel zur korrekten Verwendung eines Versatzes darin, den Versatz und nicht .) t i m eln(time)time
Wenn der Koeffizient für nicht , werden keine Raten mehr modelliert. Da jedoch eine viel größere Flexibilität für die Anpassung der Daten bietet, werden Modelle, die als Versatz verwenden, dies normalerweise tun passen besser (obwohl sie auch überpassen können). 1 β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) ln ( t i m e )ln(time)1β2∈ ( - ∞ , 1 )∪(1,∞)ln( t i m e )
Ob Sie Zählungen oder Raten modellieren sollten, hängt wirklich von Ihrer inhaltlichen Frage ab. Sie sollten diejenige modellieren, die dem entspricht, was Sie wissen möchten.
Was es bedeuten könnte, dass nicht , betrachten Sie ein Beispiel, in dem die Zeit nicht die fragliche Variable ist. Stellen Sie sich vor, Sie untersuchen die Anzahl der chirurgischen Komplikationen in verschiedenen Krankenhäusern. In einem Krankenhaus wurden viel mehr chirurgische Komplikationen gemeldet, aber sie könnten behaupten, dass der Vergleich nicht fair ist, weil sie viel mehr Operationen durchführen. Also beschließen Sie, dies zu kontrollieren. Sie können einfach das Protokoll der Anzahl der Operationen als Offset verwenden, um die Komplikationsrate pro Operation zu untersuchen. Sie können auch das Protokoll der Anzahl der Operationen als eine andere Kovariate verwenden. Angenommen, der Koeffizient unterscheidet sich erheblich von . Ifβ211β2> 1Dann haben die Krankenhäuser, die mehr Operationen durchführen, eine höhere Komplikationsrate (möglicherweise, weil sie die Arbeit beschleunigen, um mehr zu erledigen). Wenn , haben die Krankenhäuser mit den meisten Komplikationen weniger pro Operation (vielleicht haben sie die besten Ärzte, und deshalb tun sie mehr und verbessern sie). β2< 1
Zu sehen, wie dies passieren könnte, wenn die fragliche Variable Zeit wäre, ist etwas komplizierter. Die Poisson-Verteilung ergibt sich aus dem Poisson-Prozess , bei dem die Zeit zwischen Ereignissen exponentiell verteilt ist und daher ein natürlicher Zusammenhang zur Überlebensanalyse besteht. In der Überlebensanalyse ist die Zeit bis zu Ereignissen häufig nicht exponentiell verteilt, aber das Grundrisiko kann mit der Zeit größer oder kleiner werden. Stellen Sie sich daher einen Fall vor, in dem Sie die Anzahl der Ereignisse modellieren, die nach einem natürlichen Ausgangspunkt auftreten. Wenn , bedeutet dies, dass sich die Ereignisrate beschleunigt, während bedeutet, dass sich die Ereignisrate verlangsamt. β2> 1β2< 1
Stellen Sie sich als konkretes Beispiel ein Scan vor, bei dem die Anzahl der Krebszellen in einem Zeitraum nach der chirurgischen Entfernung des ursprünglichen Tumors gezählt wird. Für einige Patienten ist seit der Operation mehr Zeit vergangen, und Sie wollten dies berücksichtigen. Da ein Krebs, sobald er wieder Fuß gefasst hat, exponentiell zu wachsen beginnt, steigt die Rate im Laufe der Zeit seit der Operation ohne zusätzliche Behandlung.
Betrachten Sie als konkretes Beispiel die Anzahl der Menschen, die an einem Krankheitsausbruch sterben, für den wir keine Behandlung haben. Zuerst sterben viele Menschen, weil sie anfälliger für diese Krankheit waren oder bereits ein geschwächtes Immunsystem hatten. Mit der Zeit wird die Rate sinken, da die verbleibende Bevölkerung weniger anfällig für die Krankheit ist. (Sorry, dieses Beispiel ist so krankhaft.)
Zeitversätze können normalerweise als Modell angesehen werden, das die Häufigkeit eines Ereignisses pro Zeiteinheit schätzt, wobei der Versatz steuert, wie lange Sie verschiedene Probanden beobachtet haben.
In poisson - Modelle sind Abschätzen Sie immer eine Rate , dass etwas passiert, aber man bekommt nie zu beobachten direkt diese Rate. Sie haben bekommen die Anzahl der Male zu beobachten , dass ein Ereignis eine gewisse Zeit geschieht über. Der Versatz stellt die Verbindung zwischen den beiden Konzepten her.
Sie haben beispielsweise beobachtet, wie Probanden Körbe unterschiedlich lange schossen, und Sie haben die Anzahl der erfolgreichen Körbe für jedes Proband gezählt. Was Sie wirklich interessiert, ist, wie oft jedes Fach einen Korb versenkt, dh wie viele erfolgreiche Körbe jedes Fach pro Minute versenkt, da dies ein eher objektives Maß für sein Können ist. Die Anzahl der Körbe, die Sie tatsächlich beim Sinken beobachtet haben, entspricht dieser geschätzten Rate mal der Zeit, die Sie beim Versuch des Probanden beobachtet haben. Sie können also in Einheiten der Antwort und der Anzahl der Körbe pro Minute denken .
Es ist schwierig, sich eine Situation vorzustellen, in der Sie die beobachtete Zeit als Kovariate in einer Poisson-Regression verwenden würden, da Sie von Natur aus eine Rate schätzen.
Hier ist ein Beispiel, das hoffentlich die Gefahr davon hervorhebt. Angenommen, Amerikaner und Europäer versenken in Wahrheit jede Minute die gleiche Anzahl von Körben. Nehmen wir jedoch an, wir haben jeden Europäer doppelt so lange beobachtet wie jeden Amerikaner. Im Durchschnitt haben wir also für jeden Europäer doppelt so viele Körbe beobachtet.
Wenn wir ein Modell mit Parametern für beide beobachteten Zeiten und einem Indikator für "ist europäisch" erstellen, erklären beide Modelle die Daten:
(wobei eine Konstante ist, was die wahre Rate ist, mit der beide Spielertypen Körbe herstellen).c
Als Statistiker möchten wir in dieser Situation unbedingt, dass unser Modell uns mitteilt, dass es keinen statistischen Unterschied zwischen der Rate, mit der Europäer Körbe herstellen, und der Rate, mit der Amerikaner Körbe herstellen, gibt. Aber unser Modell hat es nicht geschafft und wir sind verwirrt.
Das Problem ist, dass wir etwas wissen, das unser Modell nicht kennt. Das heißt, wir wissen, dass, wenn wir dasselbe Individuum doppelt so lange beobachten, es erwartungsgemäß doppelt so viele Körbe herstellen wird. Da wir das wissen, müssen wir unserem Modell davon erzählen. Dies ist es, was der Offset bewirkt.
Ja, aber dies ist eine Annahme des Poisson-Modells . Von der Wikipedia-Seite über die Poisson-Verteilung
quelle