Ist die Linearitätsannahme in der linearen Regression nur eine Definition von ?

10

Ich überarbeite die lineare Regression.

Das Lehrbuch von Greene besagt:

Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Nun wird es natürlich andere Annahmen zum linearen Regressionsmodell geben, wie beispielsweise . Diese Annahme kombiniert mit der Linearitätsannahme (die tatsächlich definiert ) strukturiert das Modell.E(ϵ|X)=0ϵ

Die Linearitätsannahme an sich stellt jedoch keine Struktur auf unser Modell, da völlig willkürlich sein kann. Für alle Variablen , unabhängig von der Beziehung zwischen den beiden, könnten wir ein so definieren, dass die Linearitätsannahme gilt. Daher sollte die Linearitäts- "Annahme" eigentlich eher als Definition von als als Annahme bezeichnet werden.ϵX,yϵ ϵϵ

Deshalb frage ich mich :

  1. Ist Greene schlampig? Sollte er tatsächlich geschrieben haben: ? Dies ist eine "Linearitätsannahme", die dem Modell tatsächlich Struktur verleiht.E(y|X)=Xβ

  2. Oder muss ich akzeptieren, dass die Linearitätsannahme dem Modell keine Struktur , sondern nur ein definiert , wobei die anderen Annahmen diese Definition von , um das Modell zu strukturieren?ϵϵϵ


Bearbeiten : Da die anderen Annahmen verwirrt zu sein scheinen, möchte ich hier die vollständigen Annahmen hinzufügen:

Geben Sie hier die Bildbeschreibung ein

Dies ist von Greene, Econometric Analysis, 7. Ausgabe. p. 16.

user56834
quelle
4
Dies sind Wahrnehmungsbeobachtungen (+1). Um ehrlich zu sein, glaube ich jedoch, dass die meisten (wenn nicht alle) Autoren in einem Rahmen arbeiten, in dem die Bedeutung eines additiven Fehlers wie die Annahme beinhaltet, dass seine Verteilung auf zentriert ist . 0ϵ0
whuber
2
@whuber, ich habe die ganzen Annahmen hinzugefügt. schau dir A3 an. A3 macht deutlich, dass es auf 0 zentriert ist, was bedeuten würde, dass Greene dies in A1 nicht annimmt, was mich fragen lässt, ob A1 überhaupt einen logischen Inhalt hat, abgesehen von der Definition von . ϵ
user56834
2
Die beabsichtigte Bedeutung einer Liste von Annahmen besteht darin, dass sie zusammen und nicht getrennt gelten. Dies zeigt keine "Schlamperei".
whuber
2
@AdamO, das Wort "richtig" scheint mir keine genaue Bedeutung zu haben. Ich versuche das genauer zu verstehen. Es scheint mir, dass die genaueste Formulierung von all dem darin besteht, zu sagen, dass Annahme 1 "Definition von " genannt werden sollte, und dann macht alles Sinn. Oder mir fehlt tatsächlich etwas, weshalb ich diese Frage gestellt habe. Leider habe ich bisher keine direkte Antwort auf diese Frage gesehenϵ
user56834
2
@ Programmer2134 Sie erhalten ungenaue Antworten, weil Sie eine ungenaue Frage stellen. Man "strukturiert kein Modell", wie Sie sagen. Wenn das falsche Mittelwertmodell ( ) verwendet wird, wird die Antwort als charakterisiert . und die Residuen werden als die Summe der Vorspannung und des Fehlers genommen. Y = f ( x ) + Vorspannung + Fehlerf(x)Y=f(x)+bias+error
AdamO

Antworten:

8
  1. Ist Greene schlampig? Sollte er tatsächlich geschrieben haben: ? Dies ist eine "Linearitätsannahme", die dem Modell tatsächlich Struktur verleiht.E(y|X)=Xβ

In gewissem Sinne ja und nein. Einerseits ist er angesichts der aktuellen modernen Kausalitätsforschung schlampig, aber genau wie die meisten ökonometrischen Lehrbücher in dem Sinne, dass sie keine klare Unterscheidung zwischen Kausal- und Beobachtungsgrößen treffen, was zu häufigen Verwirrungen wie dieser Frage führt. Andererseits ist diese Annahme nicht schlampig in dem Sinne, dass sie sich tatsächlich von der einfachen Annahme von .E(y|X)=Xβ

Der Kern der Sache ist hier der Unterschied zwischen der bedingten Erwartung und der strukturellen (kausalen) Gleichung von sowie ihrer strukturellen (kausalen) Erwartungy E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Die Linearitätsannahme in Greene ist eine strukturelle Annahme. Sehen wir uns ein einfaches Beispiel an. Stellen Sie sich vor, die Strukturgleichung lautet:

y=βx+γx2+ϵ

Nun sei . Dann hätten wir:E[ϵ|x]=δxγx2

E[y|x]=βx

Dabei ist . Außerdem können wir schreiben und wir hätten . Dies zeigt, dass wir eine korrekt spezifizierte lineare bedingte Erwartung die per Definition eine orthogonale Störung haben wird, die Strukturgleichung jedoch nichtlinear wäre.y = β ' x + ϵ ' E [ ϵ ' | x ] = 0 E [ y | x ]β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. Oder muss ich akzeptieren, dass die Linearitätsannahme dem Modell keine Struktur , sondern nur ein definiert , wobei die anderen Annahmen diese Definition von , um das Modell zu strukturieren?ϵϵϵ

Die Linearitätsannahme definiert per Definition ein , , wobei die Abweichungen von von seiner Erwartung darstellt, wenn wir experimentell sind setze ( siehe Pearl Abschnitt 5.4 ). Die anderen Annahmen werden entweder zur Identifizierung der Strukturparameter verwendet (zum Beispiel können Sie mit der Annahme der Exogenität von die Strukturerwartung mit der bedingten Erwartung identifizieren ). oder zur Ableitung statistischer Eigenschaften der Schätzerϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X] (Zum Beispiel garantiert die Annahme der Homoskedastizität, dass OLS BLAU ist, die Annahme der Normalität macht es einfach, "endliche Stichproben" -Ergebnisse für Inferenz usw. abzuleiten).

Die Linearitätsannahme an sich stellt jedoch keine Struktur auf unser Modell, da völlig willkürlich sein kann. Für alle Variablen , unabhängig von der Beziehung zwischen den beiden, könnten wir ein so definieren, dass die Linearitätsannahme gilt.ϵX,yϵ

Ihre Aussage hier geht auf das Hauptproblem der kausalen Folgerung im Allgemeinen ein! Wie im obigen einfachen Beispiel gezeigt, können wir strukturelle Störungen aufkochen, die die bedingte Erwartung von bei linear machen könnten . Im Allgemeinen können mehrere verschiedene strukturelle (kausale) Modelle dieselbe Beobachtungsverteilung haben, Sie können sogar eine Kausalität ohne beobachteten Zusammenhang haben. In diesem Sinne sind Sie also richtig - wir brauchen mehr Annahmen zu , um "mehr Struktur" in das Problem zu bringen und die Strukturparameter mit Beobachtungsdaten zu identifizieren .yxϵβ

Randnotiz

Erwähnenswert ist, dass die meisten ökonometrischen Lehrbücher verwirrend sind, wenn es um die Unterscheidung zwischen Regressions- und Strukturgleichungen und deren Bedeutung geht. Dies wurde kürzlich dokumentiert. Sie können hier einen Artikel von Chen und Pearl sowie eine erweiterte Umfrage von Chris Auld lesen . Greene ist eines der untersuchten Bücher.

Carlos Cinelli
quelle
Danke, das ist die Antwort, nach der ich gesucht habe. Wenn Sie also sagen, dass die Linearitätsannahme eine strukturelle Annahme ist, was bedeutet das dann genau für den Kausalzusammenhang zwischen und ? Kann es immer noch einen richtigen Kausalzusammenhang geben? Es ist nur so, dass der direkte Kausalzusammenhang von nach linear ist, oder? Es kann immer noch einen stark nichtlinearen kausalen Effekt von auf durch ? ϵxxyxy ϵ
user56834
1
@ Programmer2134 Das ist ein weiterer Bereich, in dem ökonometrische Lehrbücher schlampig sind. Sie finden kaum Hinweise auf direkte / indirekte Effekte, Mediation usw. Wenn die Gleichung strukturell ist, können wir eine operative Definition der strukturellen Störung als Differenz von mit der erwarteten haben kausale Wirkung von , . In diesem Sinne wird das strukturelle also nicht durch "verursacht" . Dies sagt jedoch nichts über die Assoziation von und , da sie gemeinsame Ursachen haben könnten. X ϵ : = y - E [ Y | d o ( X ) ] = y - X β ϵ X ϵ X.yXϵ:=yE[Y|do(X)]=yXβϵXϵX
Carlos Cinelli
@ Programmer2134 Übrigens, Ihre Bedenken sind auf dem richtigen Weg. Ich denke, Pearl's Primer zur kausalen Folgerung könnte ein interessanter Begleiter für Greene sein!
Carlos Cinelli
Übrigens habe ich vor einiger Zeit angefangen, "Causality: Models, Reasoning and Inference" von Pearl zu lesen. Ich fand es sehr interessant, aber es war etwas abstrakt für mich. Ich bin nicht über Kapitel 2 hinausgekommen. Glauben Sie, dass "Primer on Causal Inference" besser geeignet ist? (dh Konzepte intuitiver einführen).
user56834
1
@ColorStatistics Sie können die Regression natürlich für Prognosen verwenden, aber dann spielt die Exogenitätsannahme überhaupt keine Rolle. Das begann der OP selbst zu vermuten, indem er fragte, warum Greene die Annahme nicht einfach als linear . E(Y|x)
Carlos Cinelli
0

bearbeitet nach Kommentaren von OP und Matthew Drury

Um diese Frage zu beantworten, gehe ich davon aus, dass Greene und OP die folgende Definition der Linearität im Auge haben: Linearität bedeutet, dass für jede Erhöhung dieses Prädiktors um eine Einheit das Ergebnis um Beta ( ) erhöht wird , unabhängig vom Bereich möglicher Prädiktorwerte Diese Erhöhung um eine Einheit erfolgt. Dh die Funktion ist und nicht zB oder . Ferner konzentriert sich diese Annahme auf die Betas und gilt daher für Prädiktoren (auch als unabhängige Variablen bezeichnet).βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

Die Erwartung von Residuen, die vom Modell abhängig sind, ist etwas anderes. Ja, es ist wahr, dass die Mathematik hinter einer linearen Regression definiert / zu definieren versucht . Dies wird jedoch normalerweise über den gesamten Bereich der angepassten / vorhergesagten Werte für . Wenn Sie sich bestimmte Teile des linearen Prädiktors und den vorhergesagten Wert von ansehen , stellen Sie möglicherweise eine Heteroskedastizität (Bereiche, in denen die Variation von größer ist als anderswo) oder Bereiche fest, in denen . Eine nichtlineare Assoziation zwischen und könnte die Ursache dafür sein, ist aber nicht der einzige Grund für Heteroskedastizität oderE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 kann auftreten (siehe zum Beispiel fehlende Prädiktorvorspannung).

Aus den Kommentaren: OP besagt, dass "die Linearitätsannahme das Modell in keiner Weise einschränkt, da epsilon willkürlich ist und eine beliebige Funktion von XX sein kann", dem ich zustimmen würde. Ich denke, dies wird durch lineare Regressionen deutlich, die in der Lage sind, an alle Daten anzupassen, unabhängig davon, ob die Linearitätsannahme verletzt wird oder nicht. Ich spekuliere hier, aber das könnte der Grund sein, warum Greene den Fehler in der Formel beibehalten hat - das für später speichern -, um dies bei der Annahme der Linearität (und nicht der erwarteten) zu bezeichnen ) kann basierend auf definiert werden , behält jedoch einen Fehler , unabhängig davon, welche WerteϵE(ϵ|X)=0yyXϵϵnimmt. Ich kann nur hoffen, dass er später die Relevanz von .E(ϵ|X)=0

Kurz gesagt (zugegebenermaßen, ohne Greenes Buch vollständig zu lesen und seine Argumentation zu überprüfen):

  1. Greene bezieht sich wahrscheinlich darauf, dass die Betas für den gesamten Bereich des Prädiktors konstant sind (der Schwerpunkt sollte in den oder auf dem Beta ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. Die Linearitätsannahme strukturiert das Modell. Sie sollten jedoch beachten, dass Transformationen oder Ergänzungen wie Splines vor der Modellierung dazu führen können, dass nichtlineare Assoziationen dem linearen Regressionsrahmen entsprechen.
IWS
quelle
3
Dies ist hilfreich, aber der Aufruf zur Kontinuität ist in keiner Weise erforderlich. Die Maschinerie funktioniert genauso, wenn nur auf Prädiktoren basiert . X(0,1)
Nick Cox
1
Sie haben aber ich denke, Sie meinten ,. f(y)f(x)
Nick Cox
@ NickCox Ich habe diese Punkte bearbeitet.
IWS
1
Was meinst du mit Normalität? Wenn Sie Normalität meinen, ist dies falsch, da epsilon nicht normal sein muss, um eine bedingte Erwartung von Null zu haben. Aber du meinst etwas anderes? Außerdem wird yes beta für alle Beobachtungen als konstant angenommen. Und was ist Ihrer Meinung nach falsch an meinem Argument, dass die Linearitätsannahme das Modell in keiner Weise einschränkt, da epsilon willkürlich ist und irgendeine Funktion von kann? Beachten Sie, dass ich weiß, was Heteroskedastizität ist und dass Linearität in Parametern linear bedeutet, nicht in Variablen. X
user56834
3
Ich bin damit nicht einverstanden. Die Erwartungsannahme hat nichts mit der Normalität zu tun, ist jedoch unbedingt erforderlich, um die Annahme der strukturellen Linearität zu verstehen. Andernfalls ist die Linearitätsannahme, wie durch die Operation festgestellt, bedeutungslos. Eine Normalitätsannahme ist ein ganz anderes Tier und wird oft nicht benötigt.
Matthew Drury
-1

Ich war ein wenig verwirrt von der obigen Antwort, daher werde ich es noch einmal versuchen. Ich denke, die Frage bezieht sich nicht auf die "klassische" lineare Regression, sondern auf den Stil dieser bestimmten Quelle. Zum klassischen Regressionsteil:

Die Annahme der Linearität an sich gibt unserem Modell jedoch keine Struktur

Das ist absolut richtig. Wie Sie gesagt haben, könnte genauso gut die lineare Beziehung beenden und etwas völlig Unabhängiges von addieren, so dass wir überhaupt kein Modell berechnen können.ϵX

Ist Greene schlampig? Sollte er tatsächlich geschrieben haben:E(y|X)=Xβ

Ich möchte die erste Frage nicht beantworten, aber lassen Sie mich die Annahmen zusammenfassen, die Sie für die übliche lineare Regression benötigen:

Nehmen wir an, Sie beobachten (Sie erhalten) Datenpunkte und für . Sie müssen davon ausgehen, dass die beobachteten Daten von unabhängigen, identisch verteilten Zufallsvariablen so dass ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Es gibt ein festes (unabhängig von ) so dass für alle und die Zufallsvariablen sind, dassβ R d Y i = β X i + ϵ i i ϵ iiβRdYi=βXi+ϵiiϵi

  2. Die sind ebenfalls iid und wird als ( muss ebenfalls unabhängig von ).ϵ i N ( 0 , σ ) σ iϵiϵiN(0,σ)σi

  3. Für und die Variablen eine gemeinsame Dichte, dh die einzelne Zufallsvariable hat eine DichteY = ( Y 1 , . . . , Y n ) , X , Y ( X , Y ) f X , YX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Jetzt können Sie den üblichen Pfad durchlaufen und rechnen

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

so dass Sie durch die übliche 'Dualität' zwischen maschinellem Lernen (Minimierung von Fehlerfunktionen) und Wahrscheinlichkeitstheorie (Maximierung von Wahrscheinlichkeiten) maximieren in , was Ihnen tatsächlich gibt das übliche "RMSE" Zeug.βlogfY|X(y|x)β

Nun wie gesagt: Wenn der Autor des Buches, das Sie zitieren, diesen Punkt ansprechen möchte (was Sie tun müssen, wenn Sie jemals in der Lage sein möchten, die 'bestmögliche' Regressionslinie in der Grundeinstellung zu berechnen), dann muss er ja Nehmen Sie diese Annahme über die Normalität des irgendwo im Buch an.ϵ

Es gibt jetzt verschiedene Möglichkeiten:

  • Er schreibt diese Annahme nicht in das Buch. Dann ist es ein Fehler im Buch.

  • Er schreibt es in Form einer 'globalen' Bemerkung auf wie 'Wenn ich schreibe, werden die normal mit dem Mittelwert Null verteilt, sofern nicht anders angegeben'. Dann ist es meiner Meinung nach ein schlechter Stil, weil es genau die Verwirrung verursacht, die Sie gerade fühlen. Deshalb neige ich dazu, die Annahmen in jedem Satz in verkürzter Form zu schreiben . Nur dann kann jeder Baustein für sich sauber betrachtet werden.ϵ+ϵϵ

    • Er schreibt es genau auf den Teil, den Sie zitieren, und Sie / wir haben es einfach nicht bemerkt (auch eine Möglichkeit :-))

Aber auch im engeren mathematischen Sinne ist der normale Fehler etwas Kanonisches (die Verteilung mit der höchsten Entropie [sobald die Varianz festgelegt ist], wodurch die stärksten Modelle erzeugt werden), so dass einige Autoren dazu neigen, diese Annahme zu überspringen, sie aber dennoch zu verwenden . Formal haben Sie absolut Recht: Sie verwenden Mathematik auf die "falsche Weise". Wann immer sie die oben angegebene Gleichung für die Dichte , müssen sie ziemlich gut kennen, sonst haben Sie nur Eigenschaften davon, die in jeder sinnvollen Gleichung herumfliegen, die Sie aufzuschreiben versuchen . ϵfY|Xϵ

Fabian Werner
quelle
3
Die Fehler müssen nicht normal verteilt werden, um OLS verwenden zu können.
user56834
(-1) Die Fehler müssen nicht normal verteilt werden. Sie müssen nicht einmal unabhängig oder identisch verteilt sein, damit die Parameterschätzung unvoreingenommen und die Tests konsistent sind. Ihre viel strengeren Spezifikationen sind erforderlich, damit OLS ein genauer Test ist.
AdamO
@AdamO: Ah? Wie berechnen Sie dann die Wahrscheinlichkeit? Oder besser gesagt ... wenn Sie aufgefordert werden, eine lineare Regression zu implementieren: Welche Regressionslinie wählen Sie aus, wenn der Fehler nicht normal verteilt ist und die einzelnen nicht unabhängig sind? ϵi
Fabian Werner
1
@FabianWerner meine Wahl des Modells hängt von der Frage ab, die gestellt werden soll. Die lineare Regression schätzt einen Trend erster Ordnung in einem Datensatz, eine "Faustregel", die einen Unterschied in X mit einem Unterschied in Y in Beziehung setzt. Wenn die Fehler nicht normal verteilt sind, garantiert der Lindeberg Feller CLT, dass CIs und PIs ungefähr korrekt sind in auch sehr kleinen Proben. Wenn die Fehler nicht unabhängig sind (und die Abhängigkeitsstruktur unbekannt ist), sind die Schätzungen nicht verzerrt, obwohl die SEs möglicherweise falsch sind. Die Sandwich-Fehlerschätzung verringert dieses Problem.
AdamO