Funktioniert die Regression bei Daten, die nicht normal verteilt sind?

8

Histogramm meiner Daten

Ich versuche herauszufinden, ob die Variablen x und y zusammen oder getrennt Q_7 signifikant beeinflussen (das Histogramm, für das oben angegeben ist). Ich habe einen Shapiro-Wilk-Normalitätstest durchgeführt und Folgendes erhalten

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

Funktioniert die folgende Regression mit dieser Verteilung? Oder gibt es einen anderen Test, den ich machen sollte?

lm(Q_7 ~ x*y)
kjetil b halvorsen
quelle
7
Überprüfen Sie die Residuen, nicht die Daten
李哲源
Versuchen Sie die Protokolltransformation Q_7. Im Moment ist es stark nach rechts geneigt. Überprüfen Sie auch die Verteilungen der Prädiktoren.
Joe
1
Schlagen Sie den Gauß-Markov-Satz nach.
G. Grothendieck
Versuchen Sie es mit der Quadratwurzel-Transformation. Wenn Sie viele Nullen haben, funktioniert die Protokolltransformation möglicherweise nicht richtig. Da es sich um Zählungen handelt, ist die negative binomiale Poisson-Regression eine natürlichere Wahl.
Utobi
1
Was bedeutet "Nichtdaten"?
Silverfish

Antworten:

17

Bei einer Regressionsanalyse wird davon ausgegangen, dass die Daten normal verteilt sind und von den Variablen im Regressionsmodell abhängig sind . Das heißt, wenn dies das Regressionsmodell ist: wobei X Ihre Matrix von Regressorvariablen ist, y der (Vektor von) zu erklärenden Daten ist, β ein Vektor von Koeffizienten auf den Regressoren ist und ε zufällig ist Variabilität (typischerweise als Rauschen betrachtet), dann gilt die Annahme der Normalität streng für ε , nicht für y (edit: genau genommen gilt sie für die bedingte Verteilung y | X.

y=Xβ+ε
Xyβεεyy|X(was der Verteilung von ), jedoch nicht der Randverteilung von y ). Mit anderen Worten, die Daten sollten normal verteilt werden, sobald die Auswirkungen der Regressoren berücksichtigt wurden, jedoch nicht (unbedingt) zuvor.εy

Was Sie hier testen, ist die Verteilung von , wobei Sie die Verteilung von ε testen möchten . Natürlich kann man nicht wissen , ε , aber man kann es schätzen , indem die Regression ausgeführt wird und die distrbution der Residuen ε = y - X β (wobei β sind die geschätzten coefficents aus der Regression). Diese Residuen e eine Schätzung sind ε , und so ihre Verteilung wird eine Annäherung an die Verteilung der sein ε .yεεε^=yXβ^β^ε^εε

Ruben van Bergen
quelle
Dies ist eine gute, flotte Zusammenfassung von Standardmaterialien, scheint jedoch ein Schlüsselmerkmal dieser Frage zu übersehen, nämlich dass diese funktionale Form bei einer verzerrten Antwort ungleich Null wahrscheinlich keine gute Idee ist. Um negative Vorhersagen und aus anderen Gründen zu vermeiden, scheint die Poisson-Regression ein besserer Ausgangspunkt zu sein.
Nick Cox
8

Die kurze Antwort lautet ja.

yXε

lmYX

  • E[ε|X]=0
  • Var(ε)<

Wenn Sie weiter davon ausgehen, dass Ihre Residuen nicht korreliert sind und dass sie alle dieselbe Varianz haben, gilt das Gauß-Markov-Theorem und der OLS ist der beste lineare unverzerrte Schätzer (BLAU).

Wenn Ihre Residuen korreliert sind oder unterschiedliche Abweichungen aufweisen, funktioniert OLS immer noch, kann jedoch weniger genau sein. Dies muss sich in der Art und Weise widerspiegeln, wie Sie die Konfidenzintervalle Ihrer Schätzungen angeben (z. B. unter Verwendung robuster Standardfehler ).

Wenn Sie auch davon ausgehen, dass Ihre Residuen normal verteilt sind, wird OLS asymptotisch effizient, da dies der maximalen Wahrscheinlichkeit entspricht.

Die Regression funktioniert möglicherweise besser, wenn Ihre Daten normal verteilt sind. Wenn dies nicht der Fall ist, funktioniert sie dennoch.

Thomas
quelle