Verstößt die Verwendung von Zähldaten als unabhängige Variable gegen eine der GLM-Annahmen?

14

Ich möchte Zähldaten als Kovariaten verwenden, während ich ein logistisches Regressionsmodell anpasse. Meine Frage ist:

  • Verstoße ich gegen eine Annahme der logistischen (und allgemeiner der verallgemeinerten linearen) Modelle, indem ich count, nicht negative ganzzahlige Variablen als unabhängige Variablen verwende?

Ich fand in der Literatur viele Hinweise darauf, wie heiß es ist, Zähldaten als Ergebnis zu verwenden, aber nicht als Kovariaten. siehe zum Beispiel das sehr klare Papier: "NE Breslow (1996) Generalized Linear Models: Überprüfung von Annahmen und Festigung von Schlussfolgerungen, Congresso Nazionale Societa Italiana di Biometria, Cortona, Juni 1995", verfügbar unter http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Es scheint, als könnten glm-Annahmen wie folgt ausgedrückt werden:

  • iid Residuen;
  • Die Verknüpfungsfunktion muss die Beziehung zwischen abhängigen und unabhängigen Variablen korrekt darstellen.
  • Fehlen von Ausreißern

Weiß jeder, ob es eine andere Annahme oder ein anderes technisches Problem gibt, das möglicherweise darauf hindeutet, einen anderen Modelltyp für den Umgang mit Count Covariates zu verwenden?

Schließlich ist zu beachten, dass meine Daten relativ wenige Stichproben (<100) enthalten und dass die Bereiche der Zählvariablen in einer Größenordnung von 3 bis 4 variieren können (dh, einige Variablen haben Werte im Bereich von 0 bis 10, während andere Variablen Werte enthalten können 0-10000).

Es folgt ein einfacher R-Beispielcode:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
Vincenzo Lagani
quelle
Willkommen auf der Seite! Eine Bemerkung: Wenn Sie Ihre Beiträge unterschreiben möchten, verwenden Sie Ihr Profil (insbesondere das Feld "Über mich").
11
In GLM-Modellen sind die Prädiktorvariablen ("unabhängige" Variablen) normalerweise nur bekannte Konstanten. Es gibt KEINE Verteilungsannahmen dafür! Es ist also nichts Falsches daran, Zähldaten als Prädiktoren zu verwenden.
kjetil b halvorsen
1
kjetil Das stimmt - und eine gute Antwort auf die Frage. Bei den hier beschriebenen extremen IV-Bereichen ist es jedoch ratsam, den Einfluss der Daten zu bewerten, die Anpassungsgüte zu überprüfen und insbesondere das Potenzial für eine nichtlineare Beziehung zu bewerten. Dies würde in der Hoffnung geschehen , dass die Beziehung tatsächlich ist nicht linear und dass eine erneute Expression der IVs, wie eine Wurzel oder lügt, wird linearisieren es, dabei gleichzeitig einige der Einfluss Probleme zu entlasten. Dies ist wahrscheinlich das, was @ user14583 in seiner Antwort anzeigt.
whuber
@kjetilbhalvorsen - Ich stimme "keinen Verteilungsannahmen" zu, aber ich glaube nicht, dass Sie "bekannt" oder "Konstanten" sagen wollten, da keines dieser Wörter passt.
Rolando2
4
Sie sind "Konstanten" in dem Sinne, dass sie nicht zufällig sind: keine Verteilung. Sie sind "bekannt" in dem Sinne, dass angenommen wird, dass sie fehlerfrei gemessen werden, so dass der gemessene Wert derjenige ist, der tatsächlich in dem Datenerzeugungsmechanismus gearbeitet hat. Das GLM-Modell geht davon aus, dass alle Zufälligkeiten im Reaktionsmechanismus liegen, was oftmals zweifelhaft ist!
kjetil b halvorsen

Antworten:

5

Hier spielen einige Nuancen eine Rolle, die möglicherweise Verwirrung stiften.

Sie geben an, dass Sie verstehen, dass die Annahmen einer logistischen Regression " iid- Residuen ..." enthalten. Ich würde argumentieren, dass dies nicht ganz richtig ist. Wir sagen dies im Allgemeinen über das Allgemeine Lineare Modell (dh Regression), aber in diesem Fall bedeutet dies, dass die Residuen unabhängig voneinander sind, wobei die gleiche Verteilung (normalerweise normal) den gleichen Mittelwert (0) und die gleiche Varianz aufweist ( dh konstante Varianz: Homogenität der Varianz / Homoskedastizität). Beachten Sie jedoch, dass für die Bernoulli-Verteilung und die Binomial-VerteilungDie Varianz ist eine Funktion des Mittelwerts. Daher konnte die Varianz nicht konstant sein, es sei denn, die Kovariaten standen in keinerlei Zusammenhang mit der Antwort. Dies wäre eine so restriktive Annahme, dass eine logistische Regression wertlos wäre. Ich stelle fest, dass in der Zusammenfassung des von Ihnen zitierten PDF die Annahmen aufgeführt sind, die mit "der statistischen Unabhängigkeit der Beobachtungen" beginnen, die wir nennen könnten i-but-not-id(ohne die Absicht, darüber zu niedlich zu sein).

Als nächstes wird, wie @kjetilbhalvorsen im obigen Kommentar feststellt , angenommen, dass kovariate Werte (dh Ihre unabhängigen Variablen) im verallgemeinerten linearen Modell festgelegt sind. Das heißt, es werden keine besonderen Verteilungsannahmen getroffen. Es spielt also keine Rolle, ob es sich um Zählungen handelt oder nicht oder ob sie im Bereich von 0 bis 10, von 1 bis 10000 oder von -3,1415927 bis -2,718281828 liegen.

Eine Sache zu beachten, wie @whuber bemerkt , wenn Sie eine kleine Anzahl von Daten haben, die in einer der kovariaten Dimensionen sehr extrem sind, können diese Punkte einen großen Einfluss auf die Ergebnisse Ihrer Analyse haben. Das heißt, Sie erhalten möglicherweise nur aufgrund dieser Punkte ein bestimmtes Ergebnis. Eine Möglichkeit, darüber nachzudenken, besteht darin, eine Art Sensitivitätsanalyse durchzuführen, indem Sie Ihr Modell mit und ohne die enthaltenen Daten anpassen. Vielleicht halten Sie es für sicherer oder angemessener, diese Beobachtungen fallen zu lassen, eine robuste statistische Analyse durchzuführen oder diese Kovariaten zu transformieren, um die extreme Hebelwirkung zu minimieren, die diese Punkte hätten. Ich würde diese Überlegungen nicht als "Annahmen" bezeichnen, aber sie sind sicherlich wichtige Überlegungen bei der Entwicklung eines geeigneten Modells.

gung - Wiedereinsetzung von Monica
quelle
1

Eine Sache, die ich auf jeden Fall überprüfen würde, ist die Verteilungseigenschaften Ihrer unabhängigen Variablen. Sehr häufig treten bei Zähldaten mittelschwere bis schwere Rechtsabweichungen auf. In diesem Fall möchten Sie wahrscheinlich Ihre Daten transformieren, da Sie die log-lineare Beziehung verlieren. Aber nein, die Verwendung eines Logistikmodells (oder eines anderen GLM-Modells) ist in Ordnung.

user14583
quelle
3
Wie verliert der rechte Versatz die logarithmisch-lineare Beziehung?
Glen_b
3
Dieser Kommentar scheint mir falsch zu sein. Wie bei @Glen_b sehe ich nicht, wie dies notwendigerweise die logarithmisch-lineare Beziehung verlieren würde. In jedem Fall ist es besser, die Beziehung direkt zu untersuchen (z. B. durch Plotten).
Peter Flom - Wiedereinsetzung von Monica
2
Eine nichtlineare Transformation einer IV ändert definitiv die logarithmisch-lineare Beziehung zu etwas anderem, @Peter. Diese Antwort scheint mir im Grunde richtig zu sein.
whuber
1
@whuber Ich bin damit einverstanden, dass eine nichtlineare Transformation einer Variablen die Beziehung zwischen ihr und einer anderen Variablen ändert. Das scheint ziemlich klar zu sein. Aber von welcher Art von Beziehung zu welcher Art? Warum nicht die Beziehung direkt untersuchen, anstatt anzunehmen, wie sie sich ändern wird? Außerdem scheint die Antwort zu sagen, dass die Person die logarithmische lineare Beziehung verlieren möchte .
Peter Flom - Wiedereinsetzung von Monica
2
Das ist ein guter Punkt, @Peter. Doch einige Leute haben wollen , die Beziehung zu ändern; Das ist nicht unbedingt ein Irrtum. Ich stimme zu, dass eine direkte Untersuchung das richtige Verfahren ist: Sie wird vorschlagen, wie die betroffenen IV (s) erneut ausgedrückt werden können, um lineare Beziehungen herzustellen.
Whuber