Ich möchte Zähldaten als Kovariaten verwenden, während ich ein logistisches Regressionsmodell anpasse. Meine Frage ist:
- Verstoße ich gegen eine Annahme der logistischen (und allgemeiner der verallgemeinerten linearen) Modelle, indem ich count, nicht negative ganzzahlige Variablen als unabhängige Variablen verwende?
Ich fand in der Literatur viele Hinweise darauf, wie heiß es ist, Zähldaten als Ergebnis zu verwenden, aber nicht als Kovariaten. siehe zum Beispiel das sehr klare Papier: "NE Breslow (1996) Generalized Linear Models: Überprüfung von Annahmen und Festigung von Schlussfolgerungen, Congresso Nazionale Societa Italiana di Biometria, Cortona, Juni 1995", verfügbar unter http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Es scheint, als könnten glm-Annahmen wie folgt ausgedrückt werden:
- iid Residuen;
- Die Verknüpfungsfunktion muss die Beziehung zwischen abhängigen und unabhängigen Variablen korrekt darstellen.
- Fehlen von Ausreißern
Weiß jeder, ob es eine andere Annahme oder ein anderes technisches Problem gibt, das möglicherweise darauf hindeutet, einen anderen Modelltyp für den Umgang mit Count Covariates zu verwenden?
Schließlich ist zu beachten, dass meine Daten relativ wenige Stichproben (<100) enthalten und dass die Bereiche der Zählvariablen in einer Größenordnung von 3 bis 4 variieren können (dh, einige Variablen haben Werte im Bereich von 0 bis 10, während andere Variablen Werte enthalten können 0-10000).
Es folgt ein einfacher R-Beispielcode:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
quelle
Antworten:
Hier spielen einige Nuancen eine Rolle, die möglicherweise Verwirrung stiften.
Sie geben an, dass Sie verstehen, dass die Annahmen einer logistischen Regression " iid- Residuen ..." enthalten. Ich würde argumentieren, dass dies nicht ganz richtig ist. Wir sagen dies im Allgemeinen über das Allgemeine Lineare Modell (dh Regression), aber in diesem Fall bedeutet dies, dass die Residuen unabhängig voneinander sind, wobei die gleiche Verteilung (normalerweise normal) den gleichen Mittelwert (0) und die gleiche Varianz aufweist ( dh konstante Varianz: Homogenität der Varianz / Homoskedastizität). Beachten Sie jedoch, dass für die Bernoulli-Verteilung und die Binomial-VerteilungDie Varianz ist eine Funktion des Mittelwerts. Daher konnte die Varianz nicht konstant sein, es sei denn, die Kovariaten standen in keinerlei Zusammenhang mit der Antwort. Dies wäre eine so restriktive Annahme, dass eine logistische Regression wertlos wäre. Ich stelle fest, dass in der Zusammenfassung des von Ihnen zitierten PDF die Annahmen aufgeführt sind, die mit "der statistischen Unabhängigkeit der Beobachtungen" beginnen, die wir nennen könnten
i-but-not-id
(ohne die Absicht, darüber zu niedlich zu sein).Als nächstes wird, wie @kjetilbhalvorsen im obigen Kommentar feststellt , angenommen, dass kovariate Werte (dh Ihre unabhängigen Variablen) im verallgemeinerten linearen Modell festgelegt sind. Das heißt, es werden keine besonderen Verteilungsannahmen getroffen. Es spielt also keine Rolle, ob es sich um Zählungen handelt oder nicht oder ob sie im Bereich von 0 bis 10, von 1 bis 10000 oder von -3,1415927 bis -2,718281828 liegen.
Eine Sache zu beachten, wie @whuber bemerkt , wenn Sie eine kleine Anzahl von Daten haben, die in einer der kovariaten Dimensionen sehr extrem sind, können diese Punkte einen großen Einfluss auf die Ergebnisse Ihrer Analyse haben. Das heißt, Sie erhalten möglicherweise nur aufgrund dieser Punkte ein bestimmtes Ergebnis. Eine Möglichkeit, darüber nachzudenken, besteht darin, eine Art Sensitivitätsanalyse durchzuführen, indem Sie Ihr Modell mit und ohne die enthaltenen Daten anpassen. Vielleicht halten Sie es für sicherer oder angemessener, diese Beobachtungen fallen zu lassen, eine robuste statistische Analyse durchzuführen oder diese Kovariaten zu transformieren, um die extreme Hebelwirkung zu minimieren, die diese Punkte hätten. Ich würde diese Überlegungen nicht als "Annahmen" bezeichnen, aber sie sind sicherlich wichtige Überlegungen bei der Entwicklung eines geeigneten Modells.
quelle
Eine Sache, die ich auf jeden Fall überprüfen würde, ist die Verteilungseigenschaften Ihrer unabhängigen Variablen. Sehr häufig treten bei Zähldaten mittelschwere bis schwere Rechtsabweichungen auf. In diesem Fall möchten Sie wahrscheinlich Ihre Daten transformieren, da Sie die log-lineare Beziehung verlieren. Aber nein, die Verwendung eines Logistikmodells (oder eines anderen GLM-Modells) ist in Ordnung.
quelle