Fehlerverteilung für lineare und logistische Regression

9

Bei kontinuierlichen Daten nimmt eine lineare Regression an, dass der Fehlerterm N (0, ) verteilt ist.σ 2Y=β1+β2X2+uσ2

1) Nehmen wir an, dass Var (Y | x) ebenfalls ~ N (0, ) ist?σ2

2) Wie ist diese Fehlerverteilung bei der logistischen Regression? Wenn die Daten in Form von 1 Datensatz pro Fall vorliegen, wobei "Y" 1 oder 0 ist, ist der Fehlerterm Bernoulli verteilt (dh die Varianz ist p (1-p)) und wenn die Daten in der Form # vorliegen Erfolge aus # von Versuchen, wird Binomial angenommen (dh Varianz ist np (1-p)), wobei p die Wahrscheinlichkeit ist, dass Y 1 ist?

B_Miner
quelle
2
Sie sind nicht präzise. Die Modellannahme ist, dass die Fehlerterme unabhängig und identisch verteilt sind mit einer Verteilung, die N (0, σ ) ist und nicht mit dem COVARIATE zusammenhängt. Was ist Var (Y | x)? Konditionieren Sie auf X = x? Nimmt das Modell an, dass die Kovariate in irgendeiner Weise zufällig ist, oder nehmen wir an, dass die Kovariate gemäß einer Entwurfsmatrix festgelegt ist? Ich denke, es ist das letztere und daher wird Var (Y | X = x) durch die Annahmen impliziert und muss nicht angenommen werden. 2 2222
Michael R. Chernick
@MichaelChernick Warum geht das Modell davon aus, dass fest ist? Es kann sicherlich der Fall sein, dass es behoben ist, aber es kann auch zufällig sein. Nichts in der Frage impliziert eines von beiden für mich. X2
Peter Flom - Monica wieder einsetzen
@PeterFlom Ich habe in die Frage hineingelesen, dass eine lineare Regression mit dieser angenommenen Fehlerverteilung OLS bedeutet, für die X festgelegt und bekannt sein muss. Wenn jemand eine Deming-Regression hat (dh einen Fehler in der Variablenregression), wird dies in der Frage angegeben. Ein Blick auf die Antwort, die Stat gegeben hat, zeigt, dass er die Frage auch so interpretiert hat. 2
Michael R. Chernick
@ Michael, ich nahm festes X an.
B_Miner

Antworten:

10

1) Wenn eine Normalverteilung hat, dh dann ist , da ist keine Zufallsvariable.N ( 0 , σ 2 ) V a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 β 1 + β 2 X 2uN(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) Bei der logistischen Regression wird angenommen, dass die Fehler einer Binomialverteilung folgen, wie hier erwähnt . Es ist besser, es als zu schreiben , da diese Wahrscheinlichkeiten von abhängen , wie hier oder in Applied Logistic Regression angegeben .X jVar(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj

Stat
quelle
Stat, ist also, es richtig , die Varianz für die i - ten individuellen Fehler zu sagen , dass, ist (1- ), die äquivalent ist , was man unter der Annahme gezeigt hat , dass es mehr als 1 Beobachtung in den Daten mit dem gleichen Kovariable ist Muster (dh sonst = 1 für alle j)? p i p i m jeipipimj
B_Miner
2
Ja das ist korrekt. Wenn mit , dann ist mit der Wahrscheinlichkeit oder mit der Wahrscheinlichkeit . Daher hat eine Verteilung mit dem Mittelwert und einer Varianz gleich . Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Stat
Ein weiterer Punkt hier, Stat, MÜSSEN wir annehmen, dass die X fest sind, nicht zufällig für Var (Y | X) = Var (e) für die Fälle der linearen und logistischen Regression korrekt?
B_Miner
NB mit der Wahrscheinlichkeit oder mit der Wahrscheinlichkeit ist keine Binomialverteilung für . p i e i = - p i 1 - p i e iei=1pipiei=pi1piei
Scortchi - Monica wieder einsetzen
B_Miner: bedeutet die Varianz von abhängig ist, dass die Zufallsvariable einen beobachteten Wert annimmt . Es ist also unerheblich, ob Ihre Prädiktoren durch ein Experiment festgelegt oder in einer Stichprobe beobachtet werden: @ Stat sagt, dass sie für Regressionszwecke nicht mehr als Zufallsvariablen betrachtet werden. Y X xVar(Y|X)=Var(Y|X=x)YXx
Scortchi - Monica wieder einsetzen