Ich versuche herauszufinden, ob die Variablen x und y zusammen oder getrennt Q_7 signifikant beeinflussen (das Histogramm, für das oben angegeben ist). Ich habe einen Shapiro-Wilk-Normalitätstest durchgeführt und Folgendes erhalten
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
Funktioniert die folgende Regression mit dieser Verteilung? Oder gibt es einen anderen Test, den ich machen sollte?
lm(Q_7 ~ x*y)
regression
assumptions
kjetil b halvorsen
quelle
quelle
Q_7
. Im Moment ist es stark nach rechts geneigt. Überprüfen Sie auch die Verteilungen der Prädiktoren.Antworten:
Bei einer Regressionsanalyse wird davon ausgegangen, dass die Daten normal verteilt sind und von den Variablen im Regressionsmodell abhängig sind . Das heißt, wenn dies das Regressionsmodell ist: wobei X Ihre Matrix von Regressorvariablen ist, y der (Vektor von) zu erklärenden Daten ist, β ein Vektor von Koeffizienten auf den Regressoren ist und ε zufällig ist Variabilität (typischerweise als Rauschen betrachtet), dann gilt die Annahme der Normalität streng für ε , nicht für y (edit: genau genommen gilt sie für die bedingte Verteilung y | X.
Was Sie hier testen, ist die Verteilung von , wobei Sie die Verteilung von ε testen möchten . Natürlich kann man nicht wissen , ε , aber man kann es schätzen , indem die Regression ausgeführt wird und die distrbution der Residuen ε = y - X β (wobei β sind die geschätzten coefficents aus der Regression). Diese Residuen e eine Schätzung sind ε , und so ihre Verteilung wird eine Annäherung an die Verteilung der sein ε .y ε ε ε^= y- X.β^ β^ ε^ ε ε
quelle
Die kurze Antwort lautet ja.
lm
Wenn Sie weiter davon ausgehen, dass Ihre Residuen nicht korreliert sind und dass sie alle dieselbe Varianz haben, gilt das Gauß-Markov-Theorem und der OLS ist der beste lineare unverzerrte Schätzer (BLAU).
Wenn Ihre Residuen korreliert sind oder unterschiedliche Abweichungen aufweisen, funktioniert OLS immer noch, kann jedoch weniger genau sein. Dies muss sich in der Art und Weise widerspiegeln, wie Sie die Konfidenzintervalle Ihrer Schätzungen angeben (z. B. unter Verwendung robuster Standardfehler ).
Wenn Sie auch davon ausgehen, dass Ihre Residuen normal verteilt sind, wird OLS asymptotisch effizient, da dies der maximalen Wahrscheinlichkeit entspricht.
Die Regression funktioniert möglicherweise besser, wenn Ihre Daten normal verteilt sind. Wenn dies nicht der Fall ist, funktioniert sie dennoch.
quelle