Warum hat die lineare Regression Annahmen über das Residuum, aber das verallgemeinerte lineare Modell hat Annahmen über die Reaktion?

14

Warum haben lineare Regression und verallgemeinertes Modell inkonsistente Annahmen?

  • Bei der linearen Regression nehmen wir an, dass der Rest von Gauß stammt
  • Bei einer anderen Regression (logistische Regression, Gift-Regression) gehen wir davon aus, dass die Reaktion von einer gewissen Verteilung ausgeht (Binomial, Poission usw.).

Warum nehmen Sie manchmal Rest- und andere Zeit bei Antwort an? Liegt es daran, dass wir unterschiedliche Eigenschaften ableiten wollen?


EDIT: Ich denke, mark999 zeigt, dass zwei Formen gleich sind. Ich habe jedoch noch einen weiteren Zweifel an iid:

Meine andere Frage: Gibt es eine Annahme zur logistischen Regression? zeigt, dass das verallgemeinerte lineare Modell keine iid-Annahme hat (unabhängig, aber nicht identisch)

Stimmt das, dass wir für die lineare Regression, wenn wir die Annahme für Residuen stellen , iid haben, aber wenn wir die Annahme für die Antwort stellen , werden wir unabhängige, aber nicht identische Samples haben (verschiedene Gaußsche mit verschiedenen )?μ

Haitao Du
quelle

Antworten:

12

Einfache lineare Regression mit Gaußschen Fehlern ist ein sehr schönes Attribut, das sich nicht auf verallgemeinerte lineare Modelle verallgemeinern lässt.

In verallgemeinerten linearen Modellen folgt die Antwort einer gegebenen Verteilung unter Angabe des Mittelwerts . Die lineare Regression folgt diesem Muster. wenn wir haben

yi=β0+β1xi+ϵi

mit ϵiN(0,σ)

dann haben wir auch

yiN(β0+β1xi,σ)

Okay, also folgt die Antwort der angegebenen Verteilung für verallgemeinerte lineare Modelle, aber für die lineare Regression haben wir auch , dass die Residuen einer Gaußschen Verteilung folgen. Warum wird betont, dass die Residuen normal sind, wenn dies nicht die verallgemeinerte Regel ist? Nun, weil es die viel nützlichere Regel ist. Das Schöne am Denken über die Normalität der Residuen ist, dass dies viel einfacher zu untersuchen ist. Wenn wir die geschätzten Mittelwerte herausrechnen, sollten alle Residuen ungefähr die gleiche Varianz und den ungefähr gleichen Mittelwert (0) haben und werden ungefähr normalverteilt sein (Anmerkung: Ich sage "ungefähr", denn wenn wir keine perfekten Schätzungen für die haben) Regressionsparameter, uns das natürlich nicht, die Varianz der Schätzungen von ϵiwird unterschiedliche Varianzen basierend auf den Bereichen von . Aber hoffentlich gibt es genug Präzision in den Schätzungen, dass dies ignorierbar ist!).x

Auf der anderen Seite, mit Blick auf das unbereinigte ‚s, wir nicht wirklich sagen kann , ob sie normal sind , wenn sie alle anderen Mitteln haben. Betrachten Sie beispielsweise das folgende Modell:yi

yi=0+2×xi+ϵi

mit und x iBernoulli ( p = 0.5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

yi

Hier ist ein RCode zur Veranschaulichung.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

Histogramme

Cliff AB
quelle
yi=1+2×xi+ϵi
3
@ hxd1011: ja, das ist der Unterschied zwischen der Randverteilung (eindeutig nicht normal) und der bedingten Verteilung bei x (wir wissen, dass es normal ist, da wir es simuliert haben!). Über den Unterschied zwischen bedingter und marginaler Verteilung nicht nachzudenken, ist ein äußerst häufiger Fehler.
Cliff AB
14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

Das übliche multiple lineare Regressionsmodell mit normalen Fehlern ist ein verallgemeinertes lineares Modell mit normaler Antwort und Identitätsverknüpfung.

mark999
quelle