Ich beziehe mich auf diesen Beitrag, der die Bedeutung der Normalverteilung der Residuen in Frage zu stellen scheint, und argumentiere, dass dies zusammen mit der Heteroskedastizität möglicherweise durch die Verwendung robuster Standardfehler vermieden werden könnte.
Ich habe verschiedene Transformationen in Betracht gezogen - Wurzeln, Protokolle usw. - und alles erweist sich als nutzlos, um das Problem vollständig zu lösen.
Hier ist ein QQ-Diagramm meiner Residuen:
Daten
- Abhängige Variable: bereits mit logarithmischer Transformation (behebt Ausreißerprobleme und ein Problem mit der Schiefe in diesen Daten)
- Unabhängige Variablen: Alter der Firma und eine Reihe von binären Variablen (Indikatoren) (Später habe ich einige Zählungen für eine separate Regression als unabhängige Variablen)
Der iqr
Befehl (Hamilton) in Stata bestimmt keine schwerwiegenden Ausreißer, die eine Normalität ausschließen. Die folgende Grafik schlägt jedoch etwas anderes vor, ebenso wie der Shapiro-Wilk-Test.
normal-distribution
stata
least-squares
residuals
assumptions
Cesare Camestre
quelle
quelle
qenv
Pakets Vertrauensgrenzen hinzufügen .Antworten:
Eine Möglichkeit, Ihrem Diagramm einen "testähnlichen Geschmack" hinzuzufügen, besteht darin, Vertrauensgrenzen um sie herum hinzuzufügen. In Stata würde ich das so machen:
quelle
qenv
(vonssc install qenv
) installieren müssen .sd()
. Es ist normal (kein Wortspiel beabsichtigt), dassqenv
mit deroverall
Option sehr lange dauert.qenvnormal
erklärt, dass Sie installieren müssenqplot
. Es wird erwartet, dass Sie die Hilfe lesen. Noch wichtiger ist, ich denke, Sie verwenden eine sehr alte Version vonqplot
. Installieren Sie von Paket gr42_6 von stata-journal.com/software/sj12-1Eine Sache, die bei der Untersuchung dieser qq-Diagramme zu beachten ist, ist, dass die Schwänze dazu neigen, von der Linie abzuweichen, selbst wenn die zugrunde liegende Verteilung wirklich normal ist und egal wie groß das N ist. Dies ist in Maartens Antwort impliziert . Dies liegt daran, dass mit zunehmender Größe von N die Schwänze immer weiter entfernt sind und immer seltenere Ereignisse auftreten. Es werden daher immer sehr wenig Daten in den Schwänzen sein und sie werden immer viel variabler sein. Wenn der Großteil Ihrer Linie dort ist, wo erwartet wird und nur die Schwänze abweichen, können Sie sie im Allgemeinen ignorieren.
Eine Möglichkeit, mit der ich den Schülern helfen kann, zu lernen, wie sie ihre QQ-Diagramme auf Normalität beurteilen, besteht darin, Zufallsstichproben aus einer als normal bekannten Verteilung zu generieren und diese Stichproben zu untersuchen. Es gibt Übungen, in denen sie Stichproben verschiedener Größen generieren, um zu sehen, was passiert, wenn sich N ändert, und solche, bei denen sie eine echte Stichprobenverteilung nehmen und diese mit Zufallsstichproben derselben Größe vergleichen. Das TeachingDemos- Paket von R enthält einen Test auf Normalität, der eine ähnliche Technik verwendet.
quelle
qenv
Ihnen schauen würden, würden Sie sehen, dass diese Simulationstechnik den Kern der Berechnung der Konfidenzbänder bildet.