Sind bei der linearen Regression der Fehler und die Prädiktorvariable unabhängig?

7

Wir haben ein einfaches lineares Regressionsmodell. Unsere Annahmen sind:

Yi=β0+β1X.ich+εich ,ich=1,,n

εichN.(0,σ2)

V.einr(εich|X.ich=x)=σ2

ε1,,εn sind voneinander unabhängig.

Reichen diese Hypothesen aus, um zu behaupten, dass ?εich|X.ich=xN.(0,σ2)

DGRasines
quelle
In hat keinen Index. Ist das beabsichtigt? Auch in der allerletzten Formel hat keinen Index. Ist das wieder beabsichtigt? Sind und Vektoren in beiden Fällen? Var(εich|X.=x)=σ2X.X.X.x
Richard Hardy
@RichardHardy Sie sind Notenvektoren, das OP sagt "einfache" lineare Regression, was neben dem konstanten Term nur eine erklärende Variable bedeutet.
Alecos Papadopoulos
@ RichardHardy Nein, es war ein Fehler.
DGRasines
@AlecosPapadopoulos, ich habe bemerkt, dass dies eine einfache Regression war, aber dann bedeutet einen Spaltenvektor und bedeutet ein Element eines Vektors. Wie der Autor feststellte, war das Schreiben von anstelle von ein Fehler. X.X.ichX.X.ich
Richard Hardy
1
Ihr Titel und Ihre Körperfragen scheinen nicht dasselbe zu fragen.
Glen_b -State Monica

Antworten:

12

Hier ist ein interessantes Gegenbeispiel.

Definieren Sie eine Verteilungsfunktion

G(x)=22πexp(- -x2/.2)ich(- -tx0 oder tx)

für . ( ist die Anzeigefunktion.)t=2Log(2)1,17741ich

Die Darstellung von ist hier blau dargestellt. Wenn wir , erscheint seine Darstellung in rot.Gh(x)=G(- -x)

Zahl

Die direkte Berechnung zeigt, dass jede Variable mit der Verteilung Mittelwert Null und die Einheitsvarianz hat. Konstruktionsbedingt hat eine gleiche Mischung von mit (dessen PDF ) eine Verteilungsfunktion proportional zu sie ist Standardnormal (mit Mittelwert Null und Einheitsvarianz).Y.gY.- -Y.hexp(- -x2/.2)

Lassen Sie eine Bernoulli -Verteilung haben. Angenommen, hat die Verteilung und hat die Verteilung , wobei alle unabhängig sind. Die Annahme über ist irrelevant (oder per Definition von ) und alle anderen Annahmen gelten durch die Konstruktion, jedoch keine der bedingten Verteilungen sind für jeden Wert von Normal .X.ich(1/.2)εich|X.=0Gεich|X.=1h(X.ich,εich)Y.ichY.ichεich|X.ich=xx

whuber
quelle
(+1) Dies ist der wahre Mehrwert von CV. Danke dafür.
Alecos Papadopoulos
Der Spaß in Mathe ... So gut!
Antoni Parellada
4

Die Annahme, dass die bedingte Varianz gleich der bedingungslosen Varianz ist, zusammen mit der Annahme, dass E(εi)=0impliziert einen bedingten Mittelwert von Null, nämlich

(1){Var(εiXi)=Var(εi)}and{E(εi)=0}E(εiXi)=0

Die beiden Annahmen implizieren dies

E(εi2Xi)[E(εiXi]2=E(εi2)
E(εi2Xi)E(εi2)=[E(εiXi]2

Ad absurdum , nimm das anE(εiXi)0[E(εiXi]2>0

Dies impliziert wiederum, dass E(εi2Xi)>E(εi2). Nach dem Gesetz der wiederholten Erwartungen haben wirE(εi2)=E[E(εi2Xi)]. Zur Klarheit einstellenZE(εi2Xi). Dann haben wir das

E(εiXi)0Z>E(Z)

Dies kann jedoch nicht sein, da eine Zufallsvariable nicht streng größer sein kann als ihr eigener erwarteter Wert. Damit(1) muss halten.

Beachten Sie, dass das Gegenteil nicht unbedingt der Fall ist .

Was ein Beispiel angeht, um zu zeigen, dass selbst wenn die obigen Ergebnisse zutreffen und selbst unter der Annahme der marginalen Normalität, die bedingte Verteilung nicht unbedingt mit der marginalen Verteilung identisch ist (was die Unabhängigkeit begründen würde), hat mich das geschlagen.

Alecos Papadopoulos
quelle
1
Fügen wir eine zusätzliche Annahme hinzu, dass das wahre Modell tatsächlich linear ist und E.(εich|X.ich)=0. Wir haben dann 1. bedingungslose Normalität, 2. bedingte mittlere Null und 3. bedingte konstante Varianz. Ich sehe immer noch nicht, ob (und wenn ja, wie) dies zu einer bedingten Normalität führt . (Die Sequenz würde umgekehrt gut funktionieren: bedingte Normalität + bedingte mittlere Null + bedingte konstante Varianz -> {bedingungslose Normalität + mittlere Null + konstante Varianz.})
Richard Hardy
@RichardHardy Wo schreibe ich in meiner Antwort, dass sich die bedingte Normalität aus den von Ihnen angegebenen Annahmen ergibt? Ich schreibe ausdrücklich "bedingte Normalität folgt aus dem Nichts ".
Alecos Papadopoulos
Wahr. Aber Sie "beschuldigen" die Tatsache, dass das wahre Modell nichtlinear sein kann. Wenn ich diese zusätzliche Annahme über das wahre Modell hinzufügen und die Frage wiederholen könnte, würde sich Ihre Antwort ändern?
Richard Hardy
@RichardHardy Wo mache ich das? Die Linearität / Nichtlinearität hat mit der mittleren Unabhängigkeit zu tun, nicht mit der bedingten Normalität.
Alecos Papadopoulos
1
Danke, das dachte ich auch. Ich konnte jedoch kein einfaches Gegenbeispiel finden, bei dem alle Bedingungen (plus die, die besagt, dass das wahre Modell linear ist) erfüllt sind, die bedingte Verteilung jedoch nicht normal ist . Ein Gegenbeispiel ist immer ein guter Weg, um eine Hypothese zu widerlegen, deshalb dachte ich, es wäre schön, eine zu finden. Wie auch immer, deine ist eine nette Antwort.
Richard Hardy