Annahmen des verallgemeinerten linearen Modells

14

Ich habe ein verallgemeinertes lineares Modell mit einer einzelnen Antwortvariablen (stetig / normalverteilt) und 4 erklärenden Variablen (von denen 3 Faktoren sind und die vierte eine ganze Zahl ist) erstellt. Ich habe eine Gaußsche Fehlerverteilung mit einer Identitätsverknüpfungsfunktion verwendet. Ich überprüfe derzeit, ob das Modell die folgenden Annahmen des verallgemeinerten linearen Modells erfüllt:

  1. Unabhängigkeit von Y
  2. korrekte Verknüpfungsfunktion
  3. Richtige Maßskala für erklärende Variablen
  4. Keine einflussreichen Beobachtungen

Meine Frage ist: Wie kann ich überprüfen, ob das Modell diese Annahmen erfüllt? Der beste Ausgangspunkt scheint das Auftragen der Antwortvariablen gegen jede erklärende Variable zu sein. 3 der erklärenden Variablen sind jedoch kategorial (mit 1-4 Stufen). Worauf sollte ich also in den Plots achten?

Muss ich auch auf Multikollinearität und Wechselwirkungen zwischen erklärenden Variablen prüfen? Wenn ja, wie mache ich das mit kategorialen erklärenden Variablen?

Luciano
quelle

Antworten:

20

Ich denke, dies als verallgemeinertes lineares Modell zu betrachten, ist übertrieben. Was Sie haben, ist ein einfaches altes Regressionsmodell. Genauer gesagt kann dies auch als klassische ANCOVA bezeichnet werden, da Sie einige kategoriale erklärende Variablen und ein kontinuierliches EV haben, aber keine Wechselwirkungen zwischen ihnen.

Ich würde sagen, dass # 3 hier nicht wirklich eine Annahme ist, über die Sie sich Sorgen machen müssen. Sie müssen sich auch nicht wirklich Sorgen um Nummer 2 machen. Stattdessen würde ich diese mit zwei unterschiedlichen Annahmen ersetzen:

2 '. Homogenität der Varianz
3 '. Normalität der Residuen

Außerdem ist # 4 eine wichtige Sache, die überprüft werden muss, aber ich sehe es nicht wirklich als eine Annahme an sich. Denken wir darüber nach, wie Annahmen überprüft werden können.

Die Unabhängigkeit wird häufig zuerst überprüft, indem überlegt wird, wofür die Daten stehen und wie sie erfasst wurden. Darüber hinaus kann es mit Dingen wie einem prüfenden Läufe Test , Durbin-Watson - Test oder Prüfung der Muster von Autokorrelationen --Sie auch betrachten können partielle Autokorrelationen . (Beachten Sie, dass diese nur in Bezug auf Ihre kontinuierliche Kovariate bewertet werden können.)

Fmeinx. (Beachten Sie, dass diese Tests anders als oben auf Ihre kategorialen Kovariaten angewendet werden können.) Für ein kontinuierliches EV zeichne ich meine Residuen gerne nur gegen die kontinuierliche Kovariate und untersuche sie visuell, um festzustellen, ob sie sich weiter auf die eine oder andere Seite ausbreiten.

Die Normalität der Residuen kann über einige Tests wie den Shapiro-Wilk- oder den Kolmogorov-Smirnov-Test beurteilt werden , wird jedoch häufig am besten visuell über einen qq-Plot beurteilt . (Beachten Sie, dass diese Annahme im Allgemeinen die am wenigsten wichtige der Menge ist. Wenn sie nicht erfüllt wird, sind Ihre Beta-Schätzungen weiterhin objektiv , aber Ihre p-Werte sind ungenau.)

Es gibt verschiedene Möglichkeiten, den Einfluss Ihrer individuellen Beobachtungen zu bewerten . Es ist möglich, numerische Werte zu erhalten, die dies indizieren, aber meine Lieblingsmethode ist es, Ihre Daten zu verwerfen, wenn Sie dies tun können. Das heißt, Sie legen jeden Datenpunkt der Reihe nach ab und passen Ihr Modell neu an. Dann können Sie überprüfen, wie viel Ihre Betas herumspringen, wenn diese Beobachtung nicht Teil Ihres Datensatzes wäre. Diese Maßnahme heißt dfbeta . Dies erfordert ein wenig Programmierung, aber es gibt Standardmethoden, die Software häufig automatisch für Sie berechnen kann. Dazu gehören Hebel und Cooks Abstand .

Bezüglich Ihrer ursprünglich gestellten Frage, ob Sie mehr über Link-Funktionen und das verallgemeinerte lineare Modell erfahren möchten, habe ich dies hier ziemlich ausführlich erörtert . Grundsätzlich ist die Art Ihrer Antwortverteilung das Wichtigste, das Sie bei der Auswahl einer geeigneten Link-Funktion berücksichtigen müssen. da glaubst duY. ist Gaußsch, der Identitätslink ist angemessen, und Sie können sich diese Situation anhand von Standardideen zu Regressionsmodellen vorstellen.

In Bezug auf den "richtigen Maßstab für die Messung von erklärenden Variablen" beziehe ich mich auf die Messniveaus von Steven (dh kategorial, ordinal, Intervall und Verhältnis). Das erste , was zu wissen ist , dass Regressionsverfahren (einschließlich GLiM der) keine keine Annahmen über die erklärenden Variablen machen, sondern die Art und Weise Sie Ihre erklärenden Variablen in Ihrem Modell verwenden spiegelt Ihre Überzeugungen über sie. Außerdem denke ich, dass Stevens Levels überbetont sind. Eine theoretischere Behandlung dieses Themas finden Sie hier .

gung - Wiedereinsetzung von Monica
quelle
1
Da die Operation eine Verknüpfungsfunktion enthielt, hat er meiner Meinung nach tatsächlich ein verallgemeinertes lineares Modell gemeint, bei dem eine Verknüpfungsfunktion auf Y angewendet wird. Außerdem würde ich die Unabhängigkeit von Y als Annahme bezeichnen. Die Annahme, die ich für richtig halte, ist, dass die Fehlerkomponenten im Modell unabhängig sind. Angesichts dessen denke ich, dass der Rest dessen, was Gung schrieb, richtig ist.
Michael R. Chernick
@ MichaelChernick, ich stimme dir zu. Ich habe meine Antwort ein wenig überarbeitet, um diese Probleme anzugehen. Sagen Sie mir Bescheid, wenn Sie der Meinung sind, dass noch mehr Arbeit erforderlich ist.
gung - Wiedereinsetzung von Monica