Wie interpretiere ich Koeffizienten in einer Poisson-Regression?

64

Wie kann ich die Haupteffekte (Koeffizienten für Dummy-codierten Faktor) in einer Poisson-Regression interpretieren?

Nehmen wir das folgende Beispiel an:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

Die Ausgabe ist:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Ich weiß, dass die Vorfallrate für numberofdrugsist exp(-0.023)=0.977. Aber wie interpretiere ich die Haupteffekte für die Dummy-Variablen?

gung - Wiedereinsetzung von Monica
quelle
Eine ähnliche Antwort (aber mathematischer ausgedrückt) finden Sie hier: Interpretieren von Parameterschätzungen in Poisson GLM-Ergebnissen .
gung - Wiedereinsetzung von Monica
Es ist interessant, dass die referenzierte Frage als Off-Topic geschlossen wurde. (Ich hätte nicht zugestimmt, dass es nicht zum Thema gehört, da jede Antwort auch auf die Ausgabe eines Statistikprogramms zutrifft, das dem Benutzer eine Koeffiziententabelle zurückgibt, und stimme Ihnen zu, dass es auf der Grundlage nahe beieinander liegt Es scheint mir, dass die SO-Community bei Fragen, die eine Interpretation der Ausgabe von R erfordern, zu "eng" ist. Sie sind für StackOverflow nicht wirklich themenbezogen, da es keinen Hinweis darauf gibt, dass Codierungshilfe benötigt wird.
DWin
@DWin, ich glaube nicht, dass die Interpretation der statistischen Ausgabe bei Cross Validated vom Thema abweicht . Ich habe dafür gestimmt, diese Frage als Duplikat davon zu schließen. Andere scheinen OT gewählt zu haben, wie ich versichere, weil es ihnen so schien, als ob das OP "ihre Computerausgabe dort abgeladen und [hoffte, dass jemand] die statistische Analyse für [sie] durchführt".
gung - Reinstate Monica
1
@gung: Mir war klar, dass du es nicht OT nennst. Ihre Kommentare waren in diesem Punkt klar. (Ich dachte, ich stimme Ihnen zu.) Der in einer engen Abstimmung aufgeführte "Grund" ist oft eine Mehrheits- oder Mehrheitsentscheidung.
DWin
Relevant: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Antworten:

56

Der potenziert numberofdrugsKoeffizient ist der multiplikative Term zu verwenden , um die geschätzte zu berechnen , healthvaluewenn numberofdrugserhöht sich um 1 Einheit. Bei kategorialen (Faktor-) Variablen ist der potenzierte Koeffizient der multiplikative Term relativ zum Basisniveau (erster Faktor) für diese Variable (da R standardmäßig Behandlungskontraste verwendet). Das exp(Intercept)ist das Basisrate und alle anderen Schätzungen würde es relativ sein.

In Ihrem Beispiel wird dies healthvaluefür jemanden mit 2Drogen geschätzt "placebo"und improvement=="none"wäre (unter Verwendung der Addition inside exp als Äquivalent zur Multiplikation):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

Während jemand auf 4Drogen, "treated"und "some"Verbesserung hätte eine Schätzung healthvaluevon

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

ADDENDUM: Dies ist, was es bedeutet, "additiv auf der Log-Skala" zu sein. "Additiv auf der Log-Odds-Skala" war der Ausdruck, den meine Lehrerin Barbara McKnight verwendete, um die Notwendigkeit hervorzuheben, alle Termkoeffizienten zu verwenden, die in der logistischen Regression bei jeder Art von Vorhersage angewendet wurden. Sie addieren zuerst alle Koeffizienten mal kovariate Werte und potenzieren dann. Die Methode zur Rückgabe von Koeffizienten aus Regressionsobjekten in R besteht im Allgemeinen in der Verwendung der coef()Extraktionsfunktion (mit einer anderen Zufallsrealisierung):

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

So ist die Berechnung der Schätzung für ein Subjekt mit 4Drogen, "treated"mit "some"Verbesserung wäre:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

Und der lineare Prädiktor für diesen Fall sollte die Summe von sein:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

Diese Grundsätze sollten für alle Statistikpakete gelten, die dem Benutzer eine Koeffiziententabelle zurückgeben. Die Methode und die Prinzipien sind allgemeiner, als es aus meiner Verwendung von R hervorgeht.


Ich kopiere ausgewählte Klärungskommentare, da sie in der Standardanzeige "verschwinden":

F: Also interpretieren Sie die Koeffizienten als Verhältnisse! Danke! - MarkDollar

A: Die Koeffizienten sind die natürlichen Logarithmen der Verhältnisse. - DWin

F2: Werden in diesem Fall bei einer Poisson-Regression die potenzierten Koeffizienten auch als "Odds Ratios" bezeichnet? - oort

A2: Nein. Wenn es sich um eine logistische Regression handelt, handelt es sich jedoch um eine Poisson-Regression, bei der die LHS die Anzahl der Ereignisse und der implizite Nenner die Anzahl der gefährdeten Ereignisse ist. Die potenzierten Koeffizienten sind "Ratenverhältnisse" oder "relative Risiken".

DWin
quelle
So können Sie zweimal abstimmen? Wie schön. Ich dachte, das Anbieten einer R-Code-Implementierung der Interpretation könnte sie vor den Kräften der Klassifikationsrichtigkeit retten. Das OP hat ein schönes, in sich geschlossenes Beispiel verfasst. Vielleicht hätte ich eine Extraktorfunktion demonstrieren sollen, also denke ich, dass ich es tun werde.
DW
Ja, ich habe deine Antwort auf SO positiv bewertet, dann ist sie hierher gezogen und ich habe erneut positiv bewertet :)
Brandon Bertelsen
Danke soweit! Ich kenne die Beziehung zwischen den Dummies und Kavariablen, aber ich bin nur daran interessiert, wie man die Haupteffekte interpretiert (ich habe sie markiert). Ist es möglich, die Zufallsrate von einem Haupteffekt zu nehmen, zum Beispiel für den behandelten Dummy 'exp (-0.012) = 0.99' und sie als die Rate zu interpretieren, ab der der Gesundheitswert beim Wechsel von der Referenzkategorie zur behandelten Kategorie abnimmt? Es muss sein, nein?
MarkDollar
Die potenzierten Koeffizienten werden immer als Verhältnisse interpretiert. Das Verhältnis von "Was" zu "Was" hängt von den Analyseeinheiten ab. "Preise" sind unterschiedlich und haben eine implizite Anzahl und einen Zeitwert. Wenn Sie also bereit sind, Ihre Terminologie zu ändern,
lautet die
Ah ok das ist was ich wissen wollte. Sie interpretieren die Koeffizienten also als Verhältnisse! Danke!
MarkDollar