Warum unterscheidet sich GLM von einem LM mit transformierter Variable?

16

Wie in diesem Kurshandbuch (Seite 1) erläutert , kann ein lineares Modell in folgender Form geschrieben werden:

y=β1x1++βpxp+εi,

Dabei ist die Antwortvariable und die erklärende Variable .yxiith

Mit dem Ziel, Testannahmen zu erfüllen, kann man häufig die Antwortvariable transformieren. Beispielsweise wenden wir die Protokollfunktion auf jedesyi . Das Transformieren einer Antwortvariablen entspricht NICHT einem GLM.

Ein GLM kann in der folgenden Form geschrieben werden (erneut aus dem Handout des Kurses (Seite 3) )

g(u)=β1x1++βpxp+εi,

Wobei u nur ein weiteres Symbol für y wie ich auf Seite 2 im Handout verstehe. heißt Link-Funktion.g()

Ich verstehe den Unterschied zwischen einem GLM und einem LM mit transformierter Variable von den Folien im Kurs nicht wirklich. Können Sie mir damit helfen?

Remi.b
quelle
2
Es mag aufschlussreich sein, zu berücksichtigen, dass alle Transformationen eines binären Ergebnisses affin sind, wodurch Sie sich auf die gewöhnliche Regression der kleinsten Quadrate beschränken würden. Dies ist offensichtlich nicht das, was eine logistische Regression (ein Standard-GLM für binäre Antworten) bewirkt. (Beweis: Es sei das Ergebnis sein Werte codiert als und y 1 und lassen φ jede Transformation sein Schreiben. Z 0 = φ ( y 0 ) und z 1 = φ ( y 1 ) finden wir φ einigt sich auf { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ mit y λ y + μ (was eine affine Transformation von y ist ) wobei λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) und μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Antworten:

15

So transformieren Sie die Antwort vor einer linearen Regression:

E(g(Y))β0+β1x1++βpxp

wobei eine gegebene Funktion ist und wir annehmen, dass g ( Y ) eine gegebene Verteilung hat (normalerweise normal).gg(Y)

Ein verallgemeinertes lineares Modell tut dies:

g(E(Y))β0+β1x1++βpxp

Dabei ist dasselbe wie zuvor und wir nehmen an, dass Y eine gegebene Verteilung hat (normalerweise nicht normal).gY

Hong Ooi
quelle
Was ist E in Ihrer Gleichung?
user1406647
1
ist die Standardnotation für den Erwartungswert von X . E(X)X
Marcus PS
Ich fand das auch hilfreich: christoph-scherber.de/content/PDF%20Files/…
Aditya
22

Ich bin mir nicht sicher, ob dies eine vollständige Antwort für Sie sein wird, aber es könnte helfen, den konzeptionellen Stau zu lösen.

Es scheint zwei Missverständnisse in Ihrem Konto zu geben:

  1. Beachten Sie, dass Ordinary Least Squares (OLS - ‚linear‘) Regression ist ein Spezialfall der verallgemeinerten linearen Modells. Wenn Sie also sagen, dass "[t] eine Antwortvariable transformiert, entspricht dies NICHT einer GLM", ist dies falsch. Das Anpassen eines linearen Modells oder das Transformieren der Antwortvariablen und das anschließende Anpassen eines linearen Modells bedeuten beide, eine GLM durchzuführen.

  2. uμXuyY.yichY.ichy

    (Ich habe nicht vor, auf Fehlern herumzuspielen, ich vermute nur, dass diese Ihre Verwirrung stiften könnten.)

  3. Es gibt auch einen anderen Aspekt des verallgemeinerten linearen Modells, den Sie nicht erwähnen. Das heißt, wir geben eine Antwortverteilung an. Im Fall der OLS-Regression ist die Antwortverteilung Gauß (normal) und die Verknüpfungsfunktion ist die Identitätsfunktion. Im Fall von beispielsweise logistischer Regression (woran die Leute zuerst denken, wenn sie an GLMs denken) ist die Antwortverteilung das Bernoulli (/ binomial) und die Verknüpfungsfunktion das Logit. Wenn wir Transformationen verwenden, um sicherzustellen, dass die Annahmen für OLS erfüllt sind, versuchen wir oft, die Verteilung der bedingten Antworten akzeptabel zu machen. Eine solche Transformation macht die Bernoulli-Verteilung jedoch nicht annehmbar normal.

gung - Wiedereinsetzung von Monica
quelle