Ich denke, dies als verallgemeinertes lineares Modell zu betrachten, ist übertrieben. Was Sie haben, ist ein einfaches altes Regressionsmodell. Genauer gesagt kann dies auch als klassische ANCOVA bezeichnet werden, da Sie einige kategoriale erklärende Variablen und ein kontinuierliches EV haben, aber keine Wechselwirkungen zwischen ihnen.
Ich würde sagen, dass # 3 hier nicht wirklich eine Annahme ist, über die Sie sich Sorgen machen müssen. Sie müssen sich auch nicht wirklich Sorgen um Nummer 2 machen. Stattdessen würde ich diese mit zwei unterschiedlichen Annahmen ersetzen:
2 '. Homogenität der Varianz
3 '. Normalität der Residuen
Außerdem ist # 4 eine wichtige Sache, die überprüft werden muss, aber ich sehe es nicht wirklich als eine Annahme an sich. Denken wir darüber nach, wie Annahmen überprüft werden können.
Die Unabhängigkeit wird häufig zuerst überprüft, indem überlegt wird, wofür die Daten stehen und wie sie erfasst wurden. Darüber hinaus kann es mit Dingen wie einem prüfenden Läufe Test , Durbin-Watson - Test oder Prüfung der Muster von Autokorrelationen --Sie auch betrachten können partielle Autokorrelationen . (Beachten Sie, dass diese nur in Bezug auf Ihre kontinuierliche Kovariate bewertet werden können.)
Fm a x. (Beachten Sie, dass diese Tests anders als oben auf Ihre kategorialen Kovariaten angewendet werden können.) Für ein kontinuierliches EV zeichne ich meine Residuen gerne nur gegen die kontinuierliche Kovariate und untersuche sie visuell, um festzustellen, ob sie sich weiter auf die eine oder andere Seite ausbreiten.
Die Normalität der Residuen kann über einige Tests wie den Shapiro-Wilk- oder den Kolmogorov-Smirnov-Test beurteilt werden , wird jedoch häufig am besten visuell über einen qq-Plot beurteilt . (Beachten Sie, dass diese Annahme im Allgemeinen die am wenigsten wichtige der Menge ist. Wenn sie nicht erfüllt wird, sind Ihre Beta-Schätzungen weiterhin objektiv , aber Ihre p-Werte sind ungenau.)
Es gibt verschiedene Möglichkeiten, den Einfluss Ihrer individuellen Beobachtungen zu bewerten . Es ist möglich, numerische Werte zu erhalten, die dies indizieren, aber meine Lieblingsmethode ist es, Ihre Daten zu verwerfen, wenn Sie dies tun können. Das heißt, Sie legen jeden Datenpunkt der Reihe nach ab und passen Ihr Modell neu an. Dann können Sie überprüfen, wie viel Ihre Betas herumspringen, wenn diese Beobachtung nicht Teil Ihres Datensatzes wäre. Diese Maßnahme heißt dfbeta . Dies erfordert ein wenig Programmierung, aber es gibt Standardmethoden, die Software häufig automatisch für Sie berechnen kann. Dazu gehören Hebel und Cooks Abstand .
Bezüglich Ihrer ursprünglich gestellten Frage, ob Sie mehr über Link-Funktionen und das verallgemeinerte lineare Modell erfahren möchten, habe ich dies hier ziemlich ausführlich erörtert . Grundsätzlich ist die Art Ihrer Antwortverteilung das Wichtigste, das Sie bei der Auswahl einer geeigneten Link-Funktion berücksichtigen müssen. da glaubst duY. ist Gaußsch, der Identitätslink ist angemessen, und Sie können sich diese Situation anhand von Standardideen zu Regressionsmodellen vorstellen.
In Bezug auf den "richtigen Maßstab für die Messung von erklärenden Variablen" beziehe ich mich auf die Messniveaus von Steven (dh kategorial, ordinal, Intervall und Verhältnis). Das erste , was zu wissen ist , dass Regressionsverfahren (einschließlich GLiM der) keine keine Annahmen über die erklärenden Variablen machen, sondern die Art und Weise Sie Ihre erklärenden Variablen in Ihrem Modell verwenden spiegelt Ihre Überzeugungen über sie. Außerdem denke ich, dass Stevens Levels überbetont sind. Eine theoretischere Behandlung dieses Themas finden Sie hier .