Nehmen Sie die folgende lineare Beziehung an: , wobei die abhängige Variable ist, eine einzelne unabhängige Variable und der Fehlerterm.
Nach Stock & Watson (Einführung in die Ökonometrie; Kapitel 4 ) ist die Annahme der Quadrate, dass die vierten Momente von und ungleich Null und endlich sind .
Ich habe drei Fragen:
Ich verstehe die Rolle dieser Annahme nicht vollständig. Ist OLS voreingenommen und inkonsistent, wenn diese Annahme nicht zutrifft, oder brauchen wir diese Annahme für die Schlussfolgerung?
Stock und Watson schreiben: "Diese Annahme begrenzt die Wahrscheinlichkeit, eine Beobachtung mit extrem großen Werten von oder zeichnen ." Meine Intuition ist jedoch, dass diese Annahme extrem ist. Sind wir in Schwierigkeiten, wenn wir große Ausreißer haben (so dass die vierten Momente groß sind), aber wenn diese Werte immer noch endlich sind? Übrigens: Was ist die zugrunde liegende Definition eines Ausreißers?
Können wir dies wie folgt umformulieren: "Die Kurtosis von und ist ungleich Null und endlich?"u i
quelle
Antworten:
Sie benötigen keine Annahmen zu den 4. Momenten für die Konsistenz des OLS-Schätzers, aber Sie benötigen Annahmen zu höheren Momenten von und für die asymptotische Normalität und um die asymptotische Kovarianzmatrix konsistent abzuschätzen.ϵx ϵ
In gewissem Sinne ist dies jedoch ein mathematischer, technischer Punkt, kein praktischer Punkt. Damit OLS in gewisser Weise in endlichen Proben gut funktioniert, sind mehr als die minimalen Annahmen erforderlich, die erforderlich sind, um eine asymptotische Konsistenz oder Normalität als .n → ∞
Ausreichende Bedingungen für die Konsistenz:
Wenn Sie eine Regressionsgleichung haben:
Der OLS-Schätzer kann wie geschrieben werden: b =β+( X ' Xb^
Aus Gründen der Konsistenz müssen Sie in der Lage sein, das Kolmogorovsche Gesetz der großen Zahlen oder im Fall von Zeitreihen mit serieller Abhängigkeit so etwas wie den Ergodischen Satz von Karlin und Taylor anzuwenden, damit:
Weitere erforderliche Annahmen sind:
Dann und Sie erhalten b p →& bgr;( X.'X.n)- 1( X.'ϵn) →p0 b^→pβ
Wenn Sie der zentrale Grenzwertsatz anwenden möchten , dann müssen Sie Annahmen über höhere Momente, zum Beispiel , wo . Der zentrale Grenzwertsatz gibt Ihnen die asymptotische Normalität von und ermöglicht es Ihnen, über Standardfehler zu sprechen. Damit der zweite Moment existiert, müssen die vierten Momente von und existieren. Sie möchten argumentieren, dass wog i = x i ε i b E [ g i g ' i ] x ε √E [ gichG'ich]] Gich= xichϵich b^ E [ gichG'ich]] x ϵ Σ=E[xix ' i ϵ 2 i ]Σn- -- -√( 1n∑ichx'ichϵich) →dN.( 0 , Σ ) Σ = E [ xichx'ichϵ2ich]] . Damit dies funktioniert, muss endlich sein.Σ
Eine nette Diskussion (die diesen Beitrag motiviert hat) findet sich in Hayashis Ökonometrie . (Siehe auch S. 149 für den 4. Moment und die Schätzung der Kovarianzmatrix.)
Diskussion:
Diese Anforderungen an den 4. Moment sind wahrscheinlich eher ein technischer als ein praktischer Punkt. Sie werden wahrscheinlich nicht auf pathologische Verteilungen stoßen, bei denen dies ein Problem in alltäglichen Daten ist? Es ist für allgemeinere oder andere Annahmen von OLS, schief zu gehen.
Eine andere Frage, die zweifellos an anderer Stelle auf Stackexchange beantwortet wird, ist, wie groß eine Stichprobe ist, die Sie für endliche Stichproben benötigen, um den asymptotischen Ergebnissen nahe zu kommen. In gewisser Weise führen fantastische Ausreißer zu einer langsamen Konvergenz. Versuchen Sie beispielsweise, den Mittelwert einer logarithmischen Normalverteilung mit sehr hoher Varianz zu schätzen. Der Stichprobenmittelwert ist ein konsistenter, unvoreingenommener Schätzer des Populationsmittelwerts, aber in diesem logarithmischen Normalfall mit verrückter überschüssiger Kurtosis usw. (folgen Sie dem Link) sind die Ergebnisse der endlichen Stichproben wirklich ziemlich falsch.
Endlich gegen unendlich ist eine äußerst wichtige Unterscheidung in der Mathematik. Das ist nicht das Problem, auf das Sie in der täglichen Statistik stoßen. Praktische Probleme liegen eher in der Kategorie klein gegen groß. Ist die Varianz, Kurtosis usw. klein genug, um angesichts meiner Stichprobengröße vernünftige Schätzungen zu erzielen?
Pathologisches Beispiel, bei dem der OLS-Schätzer konsistent, aber nicht asymptotisch normal ist
Erwägen:
x i ~ N ( 0 , 1 ) ε i V ein r ( ε i ) = ∞ b b b
Die Verteilung von ist nicht normal, die Schwänze sind zu schwer. Wenn Sie jedoch die Freiheitsgrade auf 3 erhöhen, sodass der zweite Moment von existiert, gilt die zentrale Grenze und Sie erhalten: εib^ ϵich
Code zum Generieren:
quelle
Dies ist eine ausreichende, aber keine minimale Annahme [1]. OLS ist unter diesen Bedingungen nicht voreingenommen, sondern nur inkonsistent. Die asymptotischen Eigenschaften von OLS brechen zusammen, wenn einen extrem großen Einfluss haben kann und / oder wenn Sie extrem große Residuen erhalten können. Sie haben vielleicht keine formale Darstellung des zentralen Grenzwertsatzes von Lindeberg Feller gefunden, aber das ist es, worauf sie hier mit den Bedingungen des vierten Moments eingehen, und die Lindeberg-Bedingung sagt uns im Grunde dasselbe: keine übergroßen Einflusspunkte, keine übergroße hohe Hebelwirkung Punkte [2].X.
Diese theoretischen Grundlagen der Statistik sorgen für große Verwirrung, wenn sie für praktische Anwendungen zusammengefasst werden. Es gibt keine Definition eines Ausreißers, es ist ein intuitives Konzept. Um es grob zu verstehen, müsste die Beobachtung ein Punkt mit hohem Hebel oder hohem Einfluss sein, z. B. einer, für den die Deletionsdiagnose (DF beta) sehr groß ist oder für den der Mahalanobis-Abstand in den Prädiktoren groß ist (in univariaten Statistiken) das ist nur eine Z-Punktzahl). Aber kehren wir zu praktischen Fragen zurück: Wenn ich eine zufällige Umfrage unter Menschen und ihrem Haushaltseinkommen durchführe und von 100 Personen eine der von mir befragten Personen Millionäre ist, gehe ich davon aus, dass Millionäre für 1% der Bevölkerung repräsentativ sind . In einer Vorlesung über Biostatisten werden diese Prinzipien diskutiert und betont, dass jedes diagnostische Instrument im Wesentlichen explorativ ist [3].nicht "die Analyse, die den Ausreißer ausschließt, ist die, von der ich glaube", sondern "das Entfernen eines Punktes hat meine Analyse vollständig verändert".
Kurtosis ist eine skalierte Größe, die vom zweiten Moment einer Verteilung abhängt, aber die Annahme einer endlichen Varianz ungleich Null für diese Werte ist stillschweigend, da es unmöglich ist, dass diese Eigenschaft im vierten Moment, aber nicht im zweiten Moment gilt. Also im Grunde ja, aber insgesamt habe ich weder Kurtosis noch vierte Momente untersucht. Ich finde sie nicht als praktische oder intuitive Maßnahme. An diesem Tag, an dem ein Histogramm oder ein Streudiagramm mit einem Fingerschnipp erstellt wird, müssen wir qualitative grafische Diagnosestatistiken verwenden, indem wir diese Diagramme untersuchen.
[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied
[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818
[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html
quelle