Die GLM-Familie repräsentiert die Verteilung der Antwortvariablen oder der Residuen?

13

Ich habe mit mehreren Labormitgliedern darüber diskutiert, und wir sind zu mehreren Quellen gegangen, haben aber immer noch nicht die richtige Antwort:

Wenn wir sagen, dass ein GLM eine Poisson- Familie hat , sprechen wir dann von der Verteilung der Residuen oder der Antwortvariablen?

Streitpunkte

  1. In diesem Artikel heißt es, dass die Annahmen des GLM die statistische Unabhängigkeit von Beobachtungen, die korrekte Angabe der Verknüpfungs- und Varianzfunktion (die mich über die Residuen nachdenken lässt, nicht über die Antwortvariable) und die korrekte Messskala für die Antwortvariable sind und das Fehlen eines unangemessenen Einflusses einzelner Punkte

  2. Diese Frage hat zwei Antworten mit jeweils zwei Punkten, wobei der erste über die Residuen und der zweite über die Antwortvariable spricht. Was ist das?

  3. Wenn in diesem Blogpost von Annahmen die Rede ist, heißt es: " Die Verteilung der Residuen kann auch anders sein, z. B. binomisch. "

  4. Zu Beginn dieses Kapitels heißt es, dass die Struktur der Fehler Poisson sein muss, aber die Residuen werden sicherlich positive und negative Werte haben. Wie kann das Poisson sein?

  5. Diese Frage, die oft in Fragen wie dieser zitiert wird, um sie zu duplizieren, hat keine akzeptierte Antwort

  6. Bei dieser Frage geht es in den Antworten um Antworten und nicht um Residuen

  7. In dieser Kursbeschreibung der University of Pensilvania geht es um die Antwortvariable in den Annahmen, nicht um die Residuen

Derek Corcoran
quelle

Antworten:

18

Das Familienargument für glm-Modelle bestimmt die Verteilungsfamilie für die bedingte Verteilung der Antwort , nicht der Residuen (mit Ausnahme der Quasi- Modelle).

Blick auf diese Art und Weise: Bei der üblichen linearen Regression wir das Modell als schreiben

YiNormal(β0+xiTβ,σ2).
Dies bedeutet, dass die Antwort Yi eine Normalverteilung (mit konstanter Varianz) aufweist, die Erwartung jedoch für jedes i . Daher ist die bedingte Verteilung der Antwort eine Normalverteilung (jedoch für jedes ich eine andere ). Eine andere Art, dieses Modell zu schreiben, ist
Yi=β0+xiTβ+ϵi
wobei jedesϵiNormal(0,σ2) verteilt ist ( 0 , σ 2 ) .

Für die normale Verbreitungsfamilie sind beide Beschreibungen korrekt (wenn sie richtig interpretiert werden). Dies liegt daran, dass wir für das normale lineare Modell eine saubere Trennung im Modell des systematischen Teils ( β0+xiTβ ) und des Störungsteils ( ϵi ) haben, die einfach addiert werden. Für andere Familienfunktionen ist diese Trennung jedoch nicht möglich ! Es gibt nicht einmal eine klare Definition dessen, was Residuum bedeutet (und aus diesem Grund viele verschiedene Definitionen von "Residuum").

Daher verwenden wir für alle anderen Familien eine Definition im Stil der oben gezeigten ersten Gleichung. Das heißt, die bedingte Verteilung der Antwort. Nein, die Residuen (wie auch immer definiert) in der Poisson-Regression haben keine Poisson-Verteilung.

kjetil b halvorsen
quelle
13

Zusätzlich zu Kjetils hervorragender Antwort wollte ich einige spezifische Beispiele hinzufügen, um die Bedeutung einer bedingten Verteilung zu verdeutlichen , die ein wenig schwer fassbares Konzept sein kann.

Angenommen, Sie haben eine Zufallsstichprobe von 100 Fischen aus einem See gezogen und möchten wissen, wie sich das Alter der Fische auf verschiedene Ergebnisvariablen auswirkt:

  1. Fischgewicht (Gewicht);
  2. Ob die Fische länger als 30 cm sind oder nicht;
  3. Anzahl der Fischschuppen.

Die erste Ergebnisvariable ist stetig, die zweite ist binär (0 = Fisch ist NICHT länger als 30 cm; 1 = Fisch IST länger als 30 cm) und die dritte ist eine Zählvariable.

Einfache lineare Regression

Wie wirkt sich das Alter auf das Gewicht aus? Sie werden ein einfaches lineares Regressionsmodell des Formulars formulieren:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Einfache binäre logistische Regression

Wie beeinflusst das Alter, ob der Fisch länger als 30 cm ist oder nicht? Sie werden ein einfaches binäres logistisches Regressionsmodell des Formulars formulieren:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

Einfache Poisson-Regression

Wie wirkt sich das Alter auf die Anzahl der Fischschuppen aus? Sie werden ein einfaches Poisson-Regressionsmodell des Formulars formulieren:

log(μ)=β0+β1Age

μβ0+β1Age

Zusammenfassend stellt eine bedingte Verteilung die Verteilung der Ergebniswerte für bestimmte Werte der im Modell enthaltenen Prädiktorvariablen dar . Für jeden oben dargestellten Regressionsmodelltyp gelten bestimmte Verteilungsannahmen für die bedingte Verteilung der Ergebnisvariablen bei gegebenem Alter. Basierend auf diesen Verteilungsannahmen geht das Modell dazu über, zu formulieren, wie (1) sich der Mittelwert der bedingten Verteilung als Funktion des Alters ändert (einfache lineare Regression), (2) sich der logittransformierte Mittelwert der bedingten Verteilung als Funktion ändert Alter (einfache binäre logistische Regression) oder (3) der logarithmisch transformierte Mittelwert der bedingten Verteilung variiert in Abhängigkeit vom Alter.

Für jeden Modelltyp kann man zum Zwecke der Modellprüfung entsprechende Residuen definieren. Insbesondere könnten Pearson- und Abweichungsrestwerte für das logistische und das Poisson-Regressionsmodell definiert werden.

Isabella Ghement
quelle
2
AUSGEZEICHNETE Antworten. Danke euch beiden. Ich habe nie bemerkt, dass das "tatsächliche" Residuum im allgemeinen GLM-Framework nie so explizit ist wie im Normalverteilungsfall.
mlofton
1
@mlofton: Danke für deine freundlichen Worte. Eine exzellente Frage lud zu exzellenten Antworten ein. Von diesem Wissensaustausch profitieren wir alle.
Isabella Ghement
4
Ich habe lange Zeit GLM verwendet (ein oder zwei Jahre wie vor 10 Jahren) und das war immer meine Verwirrung, aber ich wusste nie, dass das meine Verwirrung war, bis es so klar gefragt und so klar erklärt wurde. Verwirrung bedeutet also manchmal, nicht einmal die richtige Frage stellen zu können. Danke noch einmal.
mlofton
1
Du liegst absolut richtig! Verwirrung gehört zum Lernen - wenn wir eine Weile mit etwas zu kämpfen haben, sind wir bereit, es besser zu verstehen, wenn wir plötzlich auf eine klare Erklärung stoßen.
Isabella Ghement
1
Ich freue mich und danke Ihnen für Ihre ausgezeichnete Antwort @IsabellaGhement
Patrick