Was ist eine vollständige Liste der üblichen Annahmen für die lineare Regression?

72

Was sind die üblichen Annahmen für eine lineare Regression?

Umfassen sie:

  1. eine lineare Beziehung zwischen der unabhängigen und abhängigen Variablen
  2. unabhängige Fehler
  3. Normalverteilung von Fehlern
  4. Homoskedastizität

Gibt es noch andere?

Tony
quelle
3
Eine ziemlich vollständige Liste finden Sie in William Berrys kleinem Buch "Understanding Regression Assumptions": books.google.com/books/about/…
3
Während die Befragten einige gute Ressourcen aufgelistet haben, ist es schwierig, diese Frage in diesem Format zu beantworten, und (viele) Bücher haben sich ausschließlich diesem Thema gewidmet. Es gibt kein Kochbuch und es sollte auch nicht die potenzielle Vielfalt von Situationen angegeben werden, die die lineare Regression umfassen könnte.
Andy W
3
Technisch (gewöhnliche) lineare Regression ein Modell der Form , Y i iid. Diese einfache mathematische Aussage umfasst alle Annahmen. Dies veranlasst mich zu der Annahme, @Andy W, dass Sie die Frage möglicherweise weiter auslegen, vielleicht im Sinne der Kunst und der Praxis der Regression. Ihre weiteren Gedanken dazu könnten hier hilfreich sein. E[Yi]=XiβYi
Whuber
2
@Andy WI wollte nicht vorschlagen, dass Ihre Interpretation falsch ist. Ihr Kommentar schlug eine Denkweise vor, die über technische Annahmen hinausgeht und möglicherweise auf das verweist, was für eine valide Interpretation von Regressionsergebnissen erforderlich sein könnte. Es wäre nicht notwendig, eine Abhandlung als Antwort zu verfassen, aber selbst eine Liste einiger dieser umfassenderen Themen könnte aufschlussreich sein und den Umfang und das Interesse dieses Themas erweitern.
whuber
1
@whuber, wenn bedeutet dies, dass die Mittelwerte für verschiedene i unterschiedlich sind , daher kann Y i nicht iid sein :)EYi=XiβiYi
mpiktas

Antworten:

78

Die Antwort hängt stark davon ab, wie Sie vollständig und üblich definieren. Angenommen, wir schreiben das lineare Regressionsmodell folgendermaßen:

yi=xiβ+ui

Dabei ist der Vektor der Prädiktorvariablen, der interessierende Parameter, die Antwortvariable und die Störung. Eine der möglichen Schätzungen von ist die Schätzung der kleinsten Quadrate: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

Jetzt praktisch alle der Lehrbücher befassen sich mit den Annahmen , wenn diese Schätzung wünschenswerte Eigenschaften hat, wie Unbefangenheit, Konsistenz, Effizienz, einige verteilungs Eigenschaften usw.β^

Jede dieser Eigenschaften erfordert bestimmte Annahmen, die nicht identisch sind. Die bessere Frage wäre also zu fragen, welche Annahmen für die gewünschten Eigenschaften der LS-Schätzung erforderlich sind.

Die oben genannten Eigenschaften erfordern ein Wahrscheinlichkeitsmodell für die Regression. Und hier haben wir die Situation, in der verschiedene Modelle in verschiedenen Anwendungsbereichen verwendet werden.

Der einfache Fall ist, als unabhängige Zufallsvariable zu behandeln , wobei nicht zufällig ist. Ich mag das übliche Wort nicht, aber wir können sagen, dass dies in den meisten angewandten Bereichen der Fall ist (soweit ich weiß).yixi

Hier ist die Liste einiger der wünschenswerten Eigenschaften statistischer Schätzungen:

  1. Die Schätzung liegt vor.
  2. Unvoreingenommenheit: .Eβ^=β
  3. Konsistenz: als ( hier die Größe eines Datenmusters).β^βnn
  4. Effizienz: ist kleiner als für alternative Schätzungen von .Var(β^)Var(β~)β~β
  5. Die Fähigkeit, die Verteilungsfunktion von zu approximieren oder zu berechnen .β^

Existenz

Existenz-Eigenschaft mag seltsam erscheinen, ist aber sehr wichtig. In der Definition von invertieren wir die Matrix β^xixi.

Es ist nicht garantiert, dass die Inverse dieser Matrix für alle möglichen Varianten von . So bekommen wir sofort unsere erste Annahme:xi

Die Matrix sollte den vollen Rang haben, dh invertierbar sein.xixi

Unvoreingenommenheit

Wir haben wenn

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Wir können es als zweite Annahme nummerieren, aber wir haben es vielleicht direkt angegeben, da dies eine der natürlichen Möglichkeiten ist, eine lineare Beziehung zu definieren.

Beachten Sie, dass bekommen unbiasedness benötigen wir nur , dass für alle und Konstanten sind. Unabhängigkeitseigenschaft ist nicht erforderlich.Eyi=xiβixi

Konsistenz

Um die Konsistenzannahmen zu erhalten, müssen wir klarer angeben, was wir mit meinen . Für Sequenzen von Zufallsvariablen gibt es verschiedene Konvergenzmodi: mit ziemlicher Wahrscheinlichkeit in Bezug auf die Verteilung und den ten Momentensinn. Angenommen, wir wollen die Wahrscheinlichkeitskonvergenz ermitteln. Wir können entweder ein Gesetz mit großen Zahlen oder direkt die multivariate Chebyshev-Ungleichung verwenden (unter Verwendung der Tatsache, dass ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Diese Variante der Ungleichung ergibt sich direkt aus der Anwendung von Markovs Ungleichung auf und stellt fest, dass .)β^β2Eβ^β2=TrVar(β^)

Da Konvergenz der Wahrscheinlichkeit bedeutet, dass der linke Term für jedes als verschwinden muss , benötigen wir das als . Dies ist durchaus sinnvoll, da mit mehr Daten die Genauigkeit, mit der wir schätzen, zunehmen sollte.ε>0nVar(β^)0nβ

Wir haben das

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

Die Unabhängigkeit stellt sicher, dass , daher vereinfacht sich der Ausdruck zu Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Nehmen wir nun an, , dann Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Wenn wir jetzt zusätzlich verlangen, dass für jedes , erhalten wir sofort 1nxixin

Var(β)0 as n.

Um die Konsistenz zu erhalten, haben wir angenommen, dass es keine Autokorrelation gibt ( ), die Varianz ist konstant und die wachsen nicht zu stark. Die erste Annahme ist erfüllt, wenn aus unabhängigen Stichproben stammt.Cov(yi,yj)=0Var(yi)xiyi

Effizienz

Das klassische Ergebnis ist das Gauß-Markov-Theorem . Die Bedingungen dafür sind genau die ersten beiden Bedingungen für Konsistenz und die Bedingung für Unparteilichkeit.

Verteilungseigenschaften

Wenn normal ist, erhalten wir sofort, dass normal ist, da es eine lineare Kombination von normalen Zufallsvariablen ist. Wenn wir frühere Annahmen von Unabhängigkeit, Unkorreliertheit und konstanter Varianz annehmen, erhalten wir das wobei .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Wenn nicht normal, sondern unabhängig ist, können wir dank des zentralen Grenzwertsatzes eine ungefähre Verteilung von . Dazu müssen wir für eine Matrix annehmen . Die konstante Varianz für asymptotische Normalität ist nicht erforderlich, wenn wir annehmen, dass yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Beachten Sie, dass bei konstanter Varianz von , haben wir , dass . Der zentrale Grenzwertsatz ergibt dann folgendes Ergebnis:yB=σ2A

n(β^β)N(0,A1BA1).

Daraus ergibt sich, dass Unabhängigkeit und konstante Varianz für und bestimmte Annahmen für viele nützliche Eigenschaften für die LS-Schätzung .yixiβ^

Die Sache ist, dass diese Annahmen gelockert werden können. Zum Beispiel haben wir gefordert, dass keine Zufallsvariablen sind. Diese Annahme ist in ökonometrischen Anwendungen nicht realisierbar. Wenn wir zufällig sein lassen, können wir ähnliche Ergebnisse , wenn wir bedingte Erwartungen verwenden und die Zufälligkeit von berücksichtigen . Die Annahme der Unabhängigkeit kann ebenfalls gelockert werden. Wir haben bereits gezeigt, dass manchmal nur Unkorrelation erforderlich ist. Auch dies kann weiter gelockert werden und es ist immer noch möglich zu zeigen, dass die LS-Schätzung konsistent und asymptotisch normal ist. Siehe zum Beispiel das Buch von White für mehr Details.xixixi

mpiktas
quelle
Ein Kommentar zum Gauß-Markov-Theorem. Es heißt nur, dass OLS besser ist als andere Schätzer, die lineare Funktionen der Daten sind. Viele häufig verwendete Schätzer, insbesondere die maximale Wahrscheinlichkeit (ML), sind jedoch keine linearen Funktionen der Daten und können unter den Bedingungen des Gauß-Markov-Theorems viel effizienter als OLS sein.
Peter Westfall
@PeterWestfall Bei normalen Gauß-Fehlern ist MLE das OLS :) Und Sie können nicht effizienter als MLE werden. In diesem Beitrag habe ich versucht, mit mathematischen Details klar zu kommen.
mpiktas
1
Mein Punkt war, dass es unter nicht normalen Verteilungen viel effizientere Schätzer als OLS gibt, wenn die GM-Bedingungen gelten. GM ist im Wesentlichen nutzlos als Aussage, dass OLS unter Nicht-Normalität "gut" ist, da die besten Schätzer in nicht-normalen Fällen nichtlineare Funktionen der Daten sind.
Peter Westfall
@mpiktas Also nehmen wir entweder als nicht zufällig und verwenden Estimator oder nehmen wir als zufällig und verwenden Estimator ? xY^xY|x^
Parthiban Rajendran
16

Hier gibt es eine Reihe guter Antworten. Mir fällt auf, dass es eine Annahme gibt, die jedoch nicht (zumindest nicht explizit) angegeben wurde. Insbesondere geht ein Regressionsmodell davon aus, dass (die Werte Ihrer Erklärungs- / Prädiktorvariablen) fest und bekannt ist und dass die gesamte Unsicherheit in der Situation innerhalb der Variablen besteht. Außerdem wird angenommen, dass diese Unsicherheit nur ein Abtastfehler ist . XY

Hier sind zwei Möglichkeiten, um darüber nachzudenken: Wenn Sie ein erklärendes Modell erstellen (experimentelle Ergebnisse modellieren), wissen Sie genau, wie die Ebenen der unabhängigen Variablen lauten, weil Sie sie manipuliert / verwaltet haben. Darüber hinaus haben Sie festgelegt, welche Ebenen verwendet werden sollen, bevor Sie mit der Datenerfassung begonnen haben. Sie konzipieren also die gesamte Unsicherheit in der Beziehung als in der Antwort vorhanden. Wenn Sie dagegen ein Vorhersagemodell erstellen, ist die Situation zwar anders, Sie behandeln die Prädiktoren jedoch weiterhin so, als wären sie feststehend und bekannt, da Sie das Modell in Zukunft zum Erstellen einer Vorhersage verwenden über den wahrscheinlichen Wert von haben Sie einen Vektor,yx, und das Modell behandelt diese Werte so, als ob sie korrekt wären. Das heißt, Sie werden sich die Unsicherheit als den unbekannten Wert von vorstellen . y

Diese Annahmen können in der Gleichung für ein prototypisches Regressionsmodell gesehen werden: Ein Modell mit Unsicherheit (möglicherweise aufgrund eines Messfehlers) in kann den gleichen haben, aber das Modell Das würde so aussehen: wobei einen zufälligen Messfehler darstellt. (Situationen wie diese haben dazu geführt, dass Fehler in Variablenmodellen bearbeitet wurden . Ein grundlegendes Ergebnis ist, dass bei Messfehlern in der naive

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1würde abgeschwächt - näher an 0 als sein wahrer Wert, und wenn es einen Messfehler in gibt, wären statistische Tests der 's unterfordert, aber ansonsten unbefangen.) yβ^

Eine praktische Konsequenz der in der typischen Annahme enthaltenen Asymmetrie besteht darin, dass sich die Regression von auf von der Regression von auf . (Siehe meine Antwort hier: Was ist der Unterschied zwischen der linearen Regression von y mit x und x mit y ?, um diese Tatsache genauer zu diskutieren.)yxxy

gung - Wiedereinsetzung von Monica
quelle
Was bedeutet "fest" | "zufällig" im Klartext? Und wie kann man zwischen festen und zufälligen Effekten (= Faktoren) unterscheiden? Ich denke, dass es in meinem Design einen festen bekannten Faktor mit 5 Stufen gibt. Richtig?
stan
1
@stan, ich erkenne deine Verwirrung. Die Terminologie in Statistiken ist oft verwirrend und wenig hilfreich. In diesem Fall „fixierte“ das gleiche ist nicht ganz wie das Fest in ‚fixed effects & zufälligen Effekten‘ (obwohl sie verwandt sind). Hier geht es nicht um Effekte, sondern um die Daten, dh Ihre Prädiktor- / Erklärungsvariablen. Der einfachste Weg, um die Idee zu verstehen, dass Ihre Daten repariert werden, besteht darin, sich ein geplantes Experiment vorzustellen. Bevor Sie irgendetwas getan haben, entscheiden Sie beim Entwerfen des Experiments, wie die Ebenen Ihrer Erklärung aussehen sollen, und entdecken sie auf dem Weg nicht. XX
gung - Reinstate Monica
W / Predictive Modeling, das ist nicht ganz richtig, aber wir werden unsere Daten in Zukunft so behandeln, wenn wir das Modell verwenden, um Vorhersagen zu treffen. X
gung - Reinstate Monica
Warum haben die βs und die ε in der unteren Gleichung einen Hut, aber nicht in der oberen?
user1205901
2
@ user1205901, das obere Modell ist vom Datenerzeugungsprozess, das untere Modell ist Ihre Schätzung.
gung - Wiedereinsetzung von Monica
8

Die Annahmen des klassischen linearen Regressionsmodells umfassen:

  1. Lineare Parameter und korrekte Modellspezifikation
  2. Voller Rang der X-Matrix
  3. Erklärende Variablen müssen exogen sein
  4. Unabhängige und identisch verteilte Fehlerbedingungen
  5. Normalverteilte Fehlerbegriffe in der Grundgesamtheit

Obwohl die Antworten hier bereits einen guten Überblick über die klassische OLS-Annahme geben, finden Sie hier eine umfassendere Beschreibung der Annahme des klassischen linearen Regressionsmodells:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Außerdem beschreibt der Artikel die Konsequenzen für den Fall, dass man bestimmte Annahmen verletzt.

Tristian Onari
quelle
6

Zur Rechtfertigung von OLS können unterschiedliche Annahmen herangezogen werden

  • In einigen Situationen testet ein Autor die Residuen auf Normalität.
    • Aber in anderen Situationen sind die Residuen nicht normal und der Autor verwendet trotzdem OLS!
  • Sie werden Texte sehen, die besagen, dass Homoskedastizität eine Annahme ist.
    • Sie sehen jedoch Forscher, die OLS verwenden, wenn die Homoskedastizität verletzt wird.

Was gibt?!

Eine Antwort ist, dass etwas andere Annahmen verwendet werden können, um die Verwendung einer gewöhnlichen Schätzung der kleinsten Quadrate (OLS) zu rechtfertigen. OLS ist ein Werkzeug wie ein Hammer: Sie können einen Hammer auf Nägeln verwenden, aber Sie können ihn auch auf Stiften verwenden, um Eis zu zerbrechen usw.

Zwei große Kategorien von Annahmen gelten für kleine Stichproben und für solche, die auf großen Stichproben beruhen, damit der zentrale Grenzwertsatz angewendet werden kann.

1. Kleine Beispielannahmen

Kleine Beispielannahmen, wie sie in Hayashi (2000) diskutiert wurden, sind:

  1. Linearität
  2. Strikte Exogenität
  3. Keine Multikollinearität
  4. Sphärische Fehler (Homoskedastizität)

Unter (1) - (4) gilt das Gauß-Markov-Theorem , und der gewöhnliche Schätzer der kleinsten Quadrate ist der beste lineare unverzerrte Schätzer.

  1. Normalität der Fehlerbedingungen

Die weitere Annahme normaler Fehlerterme ermöglicht das Testen von Hypothesen . Wenn die Fehlerterme bedingt normal sind, ist auch die Verteilung des OLS-Schätzers bedingt normal.

Ein weiterer bemerkenswerter Punkt ist, dass der OLS-Schätzer bei Normalität auch der Maximum-Likelihood-Schätzer ist .

2. Große Stichprobenannahmen

Diese Annahmen können modifiziert / gelockert werden, wenn wir eine ausreichend große Stichprobe haben, so dass wir uns auf das Gesetz der großen Zahlen (für die Konsistenz des OLS-Schätzers) und den zentralen Grenzwertsatz stützen können (so dass die Stichprobenverteilung des OLS-Schätzers gegen konvergiert die Normalverteilung und wir können Hypothesentests durchführen, über p-Werte sprechen etc ...).

Hayashi ist ein Mann aus der Makroökonomie, und seine großen Stichprobenannahmen sind unter Berücksichtigung des Zeitreihenkontexts formuliert:

  1. Linearität
  2. Ergodische Stationarität
  3. vorbestimmte Regressoren: Fehlerterme sind orthogonal zu ihren gleichzeitigen Fehlertermen.
  4. E[xx] hat den vollen Rang
  5. xiϵi ist eine Martingaldifferenzsequenz mit endlichen Sekundenmomenten.
  6. Endliche 4. Momente der Regressoren

Möglicherweise treten stärkere Versionen dieser Annahmen auf, z. B. dass die Fehlerausdrücke unabhängig sind.

Mit den richtigen Annahmen für große Stichproben gelangen Sie zu einer asymptotisch normalen Stichprobenverteilung des OLS-Schätzers .

Verweise

Hayashi, Fumio, 2000, Ökonometrie

Matthew Gunn
quelle
5

Es geht darum, was Sie mit Ihrem Modell machen wollen. Stellen Sie sich vor, Ihre Fehler wären positiv verzerrt / nicht normal. Wenn Sie ein Vorhersageintervall erstellen möchten, können Sie dies besser als mit der t-Verteilung. Wenn Ihre Varianz bei kleineren vorhergesagten Werten kleiner ist, würden Sie wiederum ein zu großes Vorhersageintervall erstellen.

Es ist besser zu verstehen, warum die Annahmen da sind.

Adam
quelle
4

Die folgenden Diagramme zeigen, welche Annahmen erforderlich sind, um welche Auswirkungen in den endlichen und asymptotischen Szenarien zu erzielen.

Endliche OLS-Annahmen

asymptotische OLS-Annahmen

Ich denke, es ist wichtig, nicht nur über die Annahmen nachzudenken, sondern auch über die Auswirkungen dieser Annahmen. Wenn Sie sich zum Beispiel nur für unverzerrte Koeffizienten interessieren, brauchen Sie keine Homoskedastizität.

DVL
quelle
2

Das Folgende sind die Annahmen der linearen Regressionsanalyse.

Richtige Spezifikation . Die lineare Funktionsform ist korrekt angegeben.

Strikte Exogenität . Die Fehler in der Regression sollten den bedingten Mittelwert Null haben.

Keine Multikollinearität . Die Regressoren in X müssen alle linear unabhängig sein.

Homoskedastizität, was bedeutet, dass der Fehlerterm bei jeder Beobachtung die gleiche Varianz aufweist.

Keine Autokorrelation : Die Fehler sind zwischen den Beobachtungen nicht korreliert.

Normalität. Es wird manchmal zusätzlich angenommen, dass die Fehler eine Normalverteilung aufweisen, die von den Regressoren abhängig ist.

Iid-Beobachtungen : ist unabhängig von und hat dieselbe Verteilung wie für alle .(xi,yi)(xj,yj)ij

Weitere Informationen finden Sie auf dieser Seite .

Liebesstatistiken
quelle
4
Anstatt "keine Multicolinearität" würde ich "keine lineare Abhängigkeit" sagen. Die Kollinearität wird häufig als kontinuierliches und nicht als kategorisches Maß verwendet. Es ist nur strikte oder exakte Kollinearität verboten.
Peter Flom
2
Was ist mit der Zeitreihenregression? Was ist mit verallgemeinerten kleinsten Quadraten? Ihre Liste liest sich ein bisschen wie die Liste der Gebote, obwohl die letzten 4 Annahmen zu restriktiv sein können, wenn wir uns nur um die Konsistenz und asymptotische Normalität der Schätzung der kleinsten Quadrate kümmern.
mpiktas
1
Multikollinearität wirft Interpretationsprobleme auf (in Bezug auf die Identifizierbarkeit einiger Parameter), ist jedoch definitiv keine Standardannahme für lineare Regressionsmodelle. Nahezu Multikollinearität ist in erster Linie ein Rechenproblem , wirft jedoch auch ähnliche Interpretationsprobleme auf.
whuber
@whuber & Peter Flom: Wie ich im Buch von Gujarati auf Seite Nr. 65-75. tiny.cc/cwb2g Es zählt die "keine Multikollinearität" als Annahme der Regressionsanalyse.
Liebesstatistiken
@mpiktas: Wenn Sie die angegebene URL in der Antwort besuchen, werden Sie eine Annahme über die Zeitreihenregression finden.
love-stats
2

Es gibt keine einzige Liste von Annahmen, es wird mindestens 2 geben: eine für feste und eine für zufällige Entwurfsmatrix. Außerdem sollten Sie sich die Annahmen für Zeitreihenregressionen ansehen (siehe S.13).

Der Fall , wenn die Designmatrix ist fixiert könnte die häufigste sein und seine Annahmen werden oft als ausgedrückt Gauss-Markov - Theorem . Das feste Design bedeutet, dass Sie die Regressoren wirklich kontrollieren. Zum Beispiel, Sie ein Experiment durchführen und die Parameter wie Temperatur einstellen, Druck usw. Siehe auch S. 13 hier .X

Leider kann man in Sozialwissenschaften wie Wirtschaft selten die Parameter des Experiments kontrollieren. In der Regel beobachten Sie , was in der Wirtschaft passiert, zeichnen die Umweltkennzahlen auf und gehen dann auf sie zurück. Es stellt sich heraus, dass es sich um eine ganz andere und schwierigere Situation handelt, die als zufälliges Design bezeichnet wird. In diesem Fall wird das Gauss-Markov Theorem modifiziert auch S.12 siehe hier . Sie können sehen, wie die Bedingungen jetzt als bedingte Wahrscheinlichkeiten ausgedrückt werden , was keine harmlose Änderung ist.

In der Ökonometrie haben die Annahmen Namen:

  • Linearität
  • strikte Exogenität
  • keine Multikollinearität
  • sphärische Fehlervarianz (beinhaltet Homoskedastizität und keine Korrelation)

Beachten Sie, dass ich die Normalität nie erwähnt habe. Es ist keine Standardannahme. Es wird oft in Regressionskursen verwendet, weil es einige Ableitungen erleichtert, aber es ist nicht erforderlich, damit die Regression funktioniert und gute Eigenschaften hat.

Aksakal
quelle
1

Die Annahme der Linearität ist, dass das Modell in den Parametern linear ist. Es ist in Ordnung, ein Regressionsmodell mit Effekten quadratischer oder höherer Ordnung zu haben, solange die Potenzfunktion der unabhängigen Variablen Teil eines linearen additiven Modells ist. Wenn das Modell zu gegebener Zeit keine Terme höherer Ordnung enthält, wird die fehlende Übereinstimmung in der Darstellung der Residuen deutlich. Standardregressionsmodelle enthalten jedoch keine Modelle, in denen die unabhängige Variable auf die Potenz eines Parameters angehoben wird (obwohl es andere Ansätze gibt, die zur Bewertung solcher Modelle verwendet werden können). Solche Modelle enthalten nichtlineare Parameter.

StatistikDoc Beratung
quelle
1

Der Regressionskoeffizient der kleinsten Quadrate bietet eine Möglichkeit, den Trend erster Ordnung in jeder Art von Daten zusammenzufassen. @mpiktas Antwort ist eine gründliche Behandlung der Bedingungen, unter denen die kleinsten Quadrate immer optimaler werden. Ich würde gerne in die andere Richtung gehen und den allgemeinsten Fall zeigen, wenn die kleinsten Quadrate funktionieren. Sehen wir uns die allgemeinste Formulierung der Gleichung der kleinsten Quadrate an:

E[Y|X]=α+βX

Es ist nur ein lineares Modell für den bedingten Mittelwert der Antwort.

Hinweis: Ich habe die Fehlerbedingung abgebrochen. Wenn Sie die Unsicherheit von zusammenfassen , müssen Sie sich auf den zentralen Grenzwertsatz berufen. Die allgemeinste Klasse von Kleinste-Quadrate-Schätzern konvergiert gegen Normal, wenn die Lindeberg-Bedingung erfüllt ist : Die Lindeberg-Bedingung für Kleinste-Quadrate erfordert, dass der Bruchteil des größten quadratischen Residuums zur Summe der Summe der quadratischen Residuen auf 0 als gehen muss . Wenn Ihr Design immer größere Reste sammelt, ist das Experiment "tot im Wasser".βn

Wenn die Lindeberg-Bedingung erfüllt ist, ist der Regressionsparameter ; gut definiert, und der Schätzer ist ein unverzerrter Schätzer mit einer bekannten Näherungsverteilung. Möglicherweise gibt es effizientere Schätzer. In anderen Fällen von Heteroskedastizität oder korrelierten Daten ist normalerweise ein gewichteter Schätzer effizienter . Deshalb würde ich niemals die Verwendung der naiven Methoden befürworten, wenn bessere verfügbar sind. Aber das tun sie oft nicht!ββ^

AdamO
quelle
1
Für die Ökonomen gilt: Es ist darauf hinzuweisen, dass diese Bedingung eine strenge Exogenität impliziert, so dass eine strenge Exogenität nicht als Annahme im Modell des bedingten Mittelwerts angegeben werden muss. Es ist mathematisch automatisch wahr. (Apropos Theorie hier, keine Schätzungen.)
Peter Westfall