Zwei verwandte Fragen von mir. Ich habe einen Datenrahmen, der die Anzahl der Patienten in einer Spalte (Bereich 10 - 17 Patienten) sowie Nullen und Einsen enthält, aus denen hervorgeht, ob an diesem Tag ein Vorfall aufgetreten ist. Ich verwende ein Binomialmodell, um die Wahrscheinlichkeit eines Vorfalls auf die Anzahl der Patienten zu reduzieren. Ich möchte jedoch die Tatsache berücksichtigen, dass es bei mehr Patienten unweigerlich mehr Zwischenfälle geben wird, da die Gesamtdauer der Patienten auf der Station an diesem Tag höher ist.
Also benutze ich ein Offset-Binomialmodell wie dieses (R-Code):
glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata)
Meine Fragen sind:
Ist es in Ordnung, genau dieselben Variablen vorherzusagen und im Offset zu haben? Ich möchte die tonische Zunahme der Eintrittswahrscheinlichkeit ausräumen und herausfinden, ob im Wesentlichen noch etwas übrig ist. Für mich macht es Sinn, aber ich bin ein bisschen vorsichtig, falls ich mich irre.
Ist der Offset korrekt angegeben? Ich weiß, dass es in Poisson-Modellen lesen würde
offset=log(Numbers)
Ich weiß nicht, ob es hier eine Entsprechung gibt, und ich kann bei Google scheinbar keine Binomial-Offsets finden (Hauptproblem ist, dass ich immer negative Binomial-Werte erhalte, was natürlich nicht gut ist).
quelle
Antworten:
Wenn Sie an der Wahrscheinlichkeit eines Vorfalls bei Patienten auf der Station in N Tagen interessiert sind, möchten Sie ein Modell, das entweder wie folgt aussieht:
Der Versatz stellt Versuche dar,
incident
ist entweder 0 oder 1, und die Wahrscheinlichkeit eines Vorfalls ist konstant (keine Heterogenität in der Tendenz, Vorfälle zu verursachen), und die Patienten interagieren nicht, um Vorfälle zu verursachen (keine Ansteckung). Wenn die Wahrscheinlichkeit eines Vorfalls für Sie gering ist (oder Sie die Anzahl der Vorfälle begrenzt haben, ohne uns darauf hinzuweisen), bevorzugen Sie möglicherweise die Poisson-Formulierungwo die gleichen Annahmen gelten. Der Offset wird protokolliert, da die Anzahl der stationären Patienten proportional / multiplikativ wirkt.
Wenn Sie das zweite Modell erweitern, denken Sie vielleicht, dass es mehr Vorfälle gibt, als dies allein aufgrund der höheren Patientenzahlen zu erwarten wäre. Das heißt, vielleicht interagieren die Patienten miteinander oder sind heterogen. Also versuchst du es
Wenn sich der Koeffizient
log.patients.on.ward
von 1, in dem er festgelegt wurdemod2
, erheblich unterscheidet, kann tatsächlich etwas mit Ihren Annahmen über keine Heterogenität und keine Ansteckung falsch sein. Und obwohl Sie diese beiden Variablen natürlich nicht unterscheiden können (und auch keine von anderen fehlenden Variablen), haben Sie jetzt eine Schätzung, um wie viel mehr Patienten auf der Station die Rate / Wahrscheinlichkeit eines Vorfalls erhöht, als Sie möchten Erwarten Sie vom Zufall. Im Bereich der Parameter ist es1-coef(mod3)[2]
mit Intervall ableitbarconfint
.Alternativ können Sie auch direkt mit der Log-Menge und ihrem Koeffizienten arbeiten. Wenn Sie die Wahrscheinlichkeit eines Vorfalls nur anhand der Anzahl der Patienten auf der Station vorhersagen möchten, ist dieses Modell eine einfache Möglichkeit, dies zu tun.
Die Fragen
Ist es in Ordnung, abhängige Variablen in Ihrem Offset zu haben? Es klingt für mich nach einer sehr schlechten Idee, aber ich sehe nicht, dass Sie das müssen.
Der Offset in Poisson-Regressionsmodellen für
exposure
ist in der Tatlog(exposure)
. Vielleicht verwirrend ist die Verwendungoffset
in Rs Binomial-Regressionsmodellen im Grunde genommen ein Hinweis auf die Anzahl der Versuche. Es kann immer durch eine abhängige Variable ersetzt werden, die alscbind(incidents, patients.on.ward-incidents)
und ohne Offset definiert ist. Stellen Sie es sich folgendermaßen vor: Im Poisson-Modell wird es rechts hinter der Protokollverknüpfungsfunktion und im Binomial-Modell links vor der Protokollverknüpfungsfunktion eingegeben.quelle
Offsets in Poisson-Regressionen
Beginnen wir damit, warum wir einen Offset in einer Poisson-Regression verwenden. Oft möchten wir dies auf die Kontrolle der Belichtung zurückführen. Sei die Grundlinienrate pro Belichtungseinheit und t die Belichtungszeit in denselben Einheiten. Die erwartete Anzahl von Ereignissen wird λ × t sein .λ t λ × t
In einem GLM-Modell modellieren wir den erwarteten Wert mit einer Verknüpfungsfunktion , das heißtG
Wir können die Vereinfachung des obigen Ausdrucks vereinfachen
Binomiale Regression
In einer binomialen Regression, die normalerweise einen Logit-Link verwendet, ist dies:
Daher können wir in diesem Fall keinen Offset verwenden.
quelle
Diese Antwort besteht aus zwei Teilen: Der erste Teil enthält eine direkte Antwort auf die Frage und der zweite Teil enthält einen Kommentar zu dem von Ihnen vorgeschlagenen Modell.
Der erste Teil bezieht sich auf die Verwendung von
Numbers
als Offset, zusammen mit der Angabe auf der rechten Seite der Gleichung. Dies bewirkt lediglich, dass 1 vom geschätzten Koeffizienten von subtrahiert wirdNumbers
, wodurch der Effekt des Offsets umgekehrt wird, und die Ergebnisse ansonsten nicht geändert werden. Das folgende Beispiel zeigt dies, wobei einige Zeilen irrelevanter Ausgaben entfernt wurden:Beachten Sie, dass bis auf den Koeffizienten von Numbers und die Nullabweichung (und die T-Statistik, da immer noch gegen 0 statt gegen -1 getestet wird) alles gleich ist.
Man könnte auch vermuten, dass die Wahrscheinlichkeit pro Patient von Patient zu Patient unterschiedlich ist, was zu einem komplexeren, hierarchischen Modell führen würde, aber darauf werde ich hier nicht eingehen.
In jedem Fall ist es angesichts des begrenzten Bereichs der Anzahl der von Ihnen beobachteten Patienten besser, die Beziehung nicht zu parametrisieren und die Anzahl der Patienten in drei oder drei zu gruppieren, als ein Modell zu verwenden, das auf der logit-Skala linear ist In vier Gruppen, z. B. 10-11, 12-13, 14-15 und 16-17, werden Dummy-Variablen für diese Gruppen erstellt und anschließend die logistische Regression mit den Dummy-Variablen auf der rechten Seite ausgeführt. Auf diese Weise können nichtlineare Beziehungen besser erfasst werden, z. B. "Das System ist bei 16 Patienten überlastet, und Vorfälle nehmen erheblich zu." Wenn Sie ein viel größeres Patientenspektrum hätten, würde ich ein verallgemeinertes additive Modell vorschlagen, z. B. 'gam' aus dem 'mgcv'-Paket.
quelle
Scheint am einfachsten, eine Protokollverknüpfung anzugeben und den Versatz wie bei einem Poisson-Modell beizubehalten.
quelle