Ich überarbeite die lineare Regression.
Das Lehrbuch von Greene besagt:
Nun wird es natürlich andere Annahmen zum linearen Regressionsmodell geben, wie beispielsweise . Diese Annahme kombiniert mit der Linearitätsannahme (die tatsächlich definiert ) strukturiert das Modell.
Die Linearitätsannahme an sich stellt jedoch keine Struktur auf unser Modell, da völlig willkürlich sein kann. Für alle Variablen , unabhängig von der Beziehung zwischen den beiden, könnten wir ein so definieren, dass die Linearitätsannahme gilt. Daher sollte die Linearitäts- "Annahme" eigentlich eher als Definition von als als Annahme bezeichnet werden. ϵ
Deshalb frage ich mich :
Ist Greene schlampig? Sollte er tatsächlich geschrieben haben: ? Dies ist eine "Linearitätsannahme", die dem Modell tatsächlich Struktur verleiht.
Oder muss ich akzeptieren, dass die Linearitätsannahme dem Modell keine Struktur , sondern nur ein definiert , wobei die anderen Annahmen diese Definition von , um das Modell zu strukturieren?ϵ
Bearbeiten : Da die anderen Annahmen verwirrt zu sein scheinen, möchte ich hier die vollständigen Annahmen hinzufügen:
Dies ist von Greene, Econometric Analysis, 7. Ausgabe. p. 16.
quelle
Antworten:
In gewissem Sinne ja und nein. Einerseits ist er angesichts der aktuellen modernen Kausalitätsforschung schlampig, aber genau wie die meisten ökonometrischen Lehrbücher in dem Sinne, dass sie keine klare Unterscheidung zwischen Kausal- und Beobachtungsgrößen treffen, was zu häufigen Verwirrungen wie dieser Frage führt. Andererseits ist diese Annahme nicht schlampig in dem Sinne, dass sie sich tatsächlich von der einfachen Annahme von .E(y|X)=Xβ
Der Kern der Sache ist hier der Unterschied zwischen der bedingten Erwartung und der strukturellen (kausalen) Gleichung von sowie ihrer strukturellen (kausalen) Erwartungy E [ Y | d o ( X ) ]E(y|X) y E[Y|do(X)] . Die Linearitätsannahme in Greene ist eine strukturelle Annahme. Sehen wir uns ein einfaches Beispiel an. Stellen Sie sich vor, die Strukturgleichung lautet:
Nun sei . Dann hätten wir:E[ϵ|x]=δx−γx2
Dabei ist . Außerdem können wir schreiben und wir hätten . Dies zeigt, dass wir eine korrekt spezifizierte lineare bedingte Erwartung die per Definition eine orthogonale Störung haben wird, die Strukturgleichung jedoch nichtlinear wäre.y = β ' x + ϵ ' E [ ϵ ' | x ] = 0 E [ y | x ]β′=β+δ y=β′x+ϵ′ E[ϵ′|x]=0 E[y|x]
Die Linearitätsannahme definiert per Definition ein , , wobei die Abweichungen von von seiner Erwartung darstellt, wenn wir experimentell sind setze ( siehe Pearl Abschnitt 5.4 ). Die anderen Annahmen werden entweder zur Identifizierung der Strukturparameter verwendet (zum Beispiel können Sie mit der Annahme der Exogenität von die Strukturerwartung mit der bedingten Erwartung identifizieren ). oder zur Ableitung statistischer Eigenschaften der Schätzerϵ ϵ:=y−Xβ=y−E[Y|do(X)] ϵ y X ϵ E[Y|do(X)] E[Y|X] (Zum Beispiel garantiert die Annahme der Homoskedastizität, dass OLS BLAU ist, die Annahme der Normalität macht es einfach, "endliche Stichproben" -Ergebnisse für Inferenz usw. abzuleiten).
Ihre Aussage hier geht auf das Hauptproblem der kausalen Folgerung im Allgemeinen ein! Wie im obigen einfachen Beispiel gezeigt, können wir strukturelle Störungen aufkochen, die die bedingte Erwartung von bei linear machen könnten . Im Allgemeinen können mehrere verschiedene strukturelle (kausale) Modelle dieselbe Beobachtungsverteilung haben, Sie können sogar eine Kausalität ohne beobachteten Zusammenhang haben. In diesem Sinne sind Sie also richtig - wir brauchen mehr Annahmen zu , um "mehr Struktur" in das Problem zu bringen und die Strukturparameter mit Beobachtungsdaten zu identifizieren .y x ϵ β
Randnotiz
Erwähnenswert ist, dass die meisten ökonometrischen Lehrbücher verwirrend sind, wenn es um die Unterscheidung zwischen Regressions- und Strukturgleichungen und deren Bedeutung geht. Dies wurde kürzlich dokumentiert. Sie können hier einen Artikel von Chen und Pearl sowie eine erweiterte Umfrage von Chris Auld lesen . Greene ist eines der untersuchten Bücher.
quelle
bearbeitet nach Kommentaren von OP und Matthew Drury
Um diese Frage zu beantworten, gehe ich davon aus, dass Greene und OP die folgende Definition der Linearität im Auge haben: Linearität bedeutet, dass für jede Erhöhung dieses Prädiktors um eine Einheit das Ergebnis um Beta ( ) erhöht wird , unabhängig vom Bereich möglicher Prädiktorwerte Diese Erhöhung um eine Einheit erfolgt. Dh die Funktion ist und nicht zB oder . Ferner konzentriert sich diese Annahme auf die Betas und gilt daher für Prädiktoren (auch als unabhängige Variablen bezeichnet).β y=f(x) y=a+bx y=a+bx2 y=a+sin(x)
Die Erwartung von Residuen, die vom Modell abhängig sind, ist etwas anderes. Ja, es ist wahr, dass die Mathematik hinter einer linearen Regression definiert / zu definieren versucht . Dies wird jedoch normalerweise über den gesamten Bereich der angepassten / vorhergesagten Werte für . Wenn Sie sich bestimmte Teile des linearen Prädiktors und den vorhergesagten Wert von ansehen , stellen Sie möglicherweise eine Heteroskedastizität (Bereiche, in denen die Variation von größer ist als anderswo) oder Bereiche fest, in denen . Eine nichtlineare Assoziation zwischen und könnte die Ursache dafür sein, ist aber nicht der einzige Grund für Heteroskedastizität oderE(ϵ|X) E(ϵ|X)=0 y y ϵ E(ϵ|X)≠0 x y E(ϵ|X)≠0 kann auftreten (siehe zum Beispiel fehlende Prädiktorvorspannung).
Aus den Kommentaren: OP besagt, dass "die Linearitätsannahme das Modell in keiner Weise einschränkt, da epsilon willkürlich ist und eine beliebige Funktion von XX sein kann", dem ich zustimmen würde. Ich denke, dies wird durch lineare Regressionen deutlich, die in der Lage sind, an alle Daten anzupassen, unabhängig davon, ob die Linearitätsannahme verletzt wird oder nicht. Ich spekuliere hier, aber das könnte der Grund sein, warum Greene den Fehler in der Formel beibehalten hat - das für später speichern -, um dies bei der Annahme der Linearität (und nicht der erwarteten) zu bezeichnen ) kann basierend auf definiert werden , behält jedoch einen Fehler , unabhängig davon, welche Werteϵ E(ϵ|X)=0 y y X ϵ ϵ nimmt. Ich kann nur hoffen, dass er später die Relevanz von .E(ϵ|X)=0
Kurz gesagt (zugegebenermaßen, ohne Greenes Buch vollständig zu lesen und seine Argumentation zu überprüfen):
quelle
Ich war ein wenig verwirrt von der obigen Antwort, daher werde ich es noch einmal versuchen. Ich denke, die Frage bezieht sich nicht auf die "klassische" lineare Regression, sondern auf den Stil dieser bestimmten Quelle. Zum klassischen Regressionsteil:
Das ist absolut richtig. Wie Sie gesagt haben, könnte genauso gut die lineare Beziehung beenden und etwas völlig Unabhängiges von addieren, so dass wir überhaupt kein Modell berechnen können.ϵ X
Ich möchte die erste Frage nicht beantworten, aber lassen Sie mich die Annahmen zusammenfassen, die Sie für die übliche lineare Regression benötigen:
Nehmen wir an, Sie beobachten (Sie erhalten) Datenpunkte und für . Sie müssen davon ausgehen, dass die beobachteten Daten von unabhängigen, identisch verteilten Zufallsvariablen so dass ...xi∈Rd yi∈R i=1,...,n (xi,yi) (Xi,Yi)
Es gibt ein festes (unabhängig von ) so dass für alle und die Zufallsvariablen sind, dassβ ∈ R d Y i = β X i + ϵ i i ϵ ii β∈Rd Yi=βXi+ϵi i ϵi
Die sind ebenfalls iid und wird als ( muss ebenfalls unabhängig von ).ϵ i N ( 0 , σ ) σ iϵi ϵi N(0,σ) σ i
Für und die Variablen eine gemeinsame Dichte, dh die einzelne Zufallsvariable hat eine DichteY = ( Y 1 , . . . , Y n ) , X , Y ( X , Y ) f X , YX=(X1,...,Xn) Y=(Y1,...,Yn) X,Y (X,Y) fX,Y
Jetzt können Sie den üblichen Pfad durchlaufen und rechnen
so dass Sie durch die übliche 'Dualität' zwischen maschinellem Lernen (Minimierung von Fehlerfunktionen) und Wahrscheinlichkeitstheorie (Maximierung von Wahrscheinlichkeiten) maximieren in , was Ihnen tatsächlich gibt das übliche "RMSE" Zeug.β−logfY|X(y|x) β
Nun wie gesagt: Wenn der Autor des Buches, das Sie zitieren, diesen Punkt ansprechen möchte (was Sie tun müssen, wenn Sie jemals in der Lage sein möchten, die 'bestmögliche' Regressionslinie in der Grundeinstellung zu berechnen), dann muss er ja Nehmen Sie diese Annahme über die Normalität des irgendwo im Buch an.ϵ
Es gibt jetzt verschiedene Möglichkeiten:
Er schreibt diese Annahme nicht in das Buch. Dann ist es ein Fehler im Buch.
Er schreibt es in Form einer 'globalen' Bemerkung auf wie 'Wenn ich schreibe, werden die normal mit dem Mittelwert Null verteilt, sofern nicht anders angegeben'. Dann ist es meiner Meinung nach ein schlechter Stil, weil es genau die Verwirrung verursacht, die Sie gerade fühlen. Deshalb neige ich dazu, die Annahmen in jedem Satz in verkürzter Form zu schreiben . Nur dann kann jeder Baustein für sich sauber betrachtet werden.ϵ+ϵ ϵ
Aber auch im engeren mathematischen Sinne ist der normale Fehler etwas Kanonisches (die Verteilung mit der höchsten Entropie [sobald die Varianz festgelegt ist], wodurch die stärksten Modelle erzeugt werden), so dass einige Autoren dazu neigen, diese Annahme zu überspringen, sie aber dennoch zu verwenden . Formal haben Sie absolut Recht: Sie verwenden Mathematik auf die "falsche Weise". Wann immer sie die oben angegebene Gleichung für die Dichte , müssen sie ziemlich gut kennen, sonst haben Sie nur Eigenschaften davon, die in jeder sinnvollen Gleichung herumfliegen, die Sie aufzuschreiben versuchen . ϵfY|X ϵ
quelle