Was passiert beim Anpassen eines Regressionsmodells, wenn die Annahmen der Ausgaben nicht erfüllt werden?
- Was passiert, wenn die Residuen nicht homoskedastisch sind? Wenn die Residuen ein zunehmendes oder abnehmendes Muster im Diagramm Residuen vs.
- Was passiert, wenn die Residuen nicht normal verteilt sind und den Shapiro-Wilk-Test nicht bestehen? Der Shapiro-Wilk-Test auf Normalität ist ein sehr strenger Test, und selbst wenn der Normal-QQ-Plot etwas vernünftig aussieht, bestehen die Daten den Test nicht.
- Was passiert, wenn ein oder mehrere Prädiktoren nicht normal verteilt sind, auf dem Normal-QQ-Plot nicht richtig angezeigt werden oder wenn die Daten den Shapiro-Wilk-Test nicht bestehen?
Ich verstehe, dass es keine harte Schwarz-Weiß-Teilung gibt, dass 0,94 richtig und 0,95 falsch ist, und in der Frage möchte ich wissen:
- Was bedeutet, wenn die Normalität nicht eingehalten wird, bedeutet dies für ein Modell, das gemäß dem R-Quadrat-Wert gut passt. Wird es weniger zuverlässig oder völlig unbrauchbar?
- Inwieweit ist die Abweichung akzeptabel oder überhaupt akzeptabel?
- Wenn Transformationen auf die Daten angewendet werden, um die Normalitätskriterien zu erfüllen, wird das Modell besser, wenn die Daten normaler sind (höherer P-Wert beim Shapiro-Wilk-Test, besserer Blick auf den normalen QQ-Plot) oder nutzlos sind (ebenso gut oder schlecht im Vergleich zum Original), bis die Daten den Normalitätstest bestehen?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
quelle
quelle
Antworten:
Wenn der Fehlerterm nicht homoskedastisch ist (wir verwenden die Residuen als Proxy für den nicht beobachtbaren Fehlerterm), ist der OLS-Schätzer immer noch konsistent und unvoreingenommen, aber nicht mehr der effizienteste in der Klasse der linearen Schätzer. Es ist jetzt der GLS-Schätzer, der diese Eigenschaft genießt.
Das Gauß-Markov-Theorem verlangt keine Normalität. Der OLS-Schätzer ist immer noch BLAU, aber ohne Normalität werden Sie Schwierigkeiten haben, Schlussfolgerungen zu ziehen, dh Hypothesentests und Konfidenzintervalle, zumindest für endliche Stichprobengrößen. Es gibt jedoch immer noch den Bootstrap.
Asymptotisch ist dies weniger problematisch, da der OLS-Schätzer unter milden Regularitätsbedingungen eine begrenzende Normalverteilung aufweist.
Soweit ich weiß, gelten die Prädiktoren entweder als fest oder die Regression ist von ihnen abhängig. Dies begrenzt den Effekt der Nichtnormalität.
Das R-Quadrat ist der Anteil der vom Modell erklärten Varianz. Es erfordert keine Normalitätsannahme und ist unabhängig davon ein Maß für die Anpassungsgüte. Wenn Sie es für einen Teil-F-Test verwenden möchten, ist das eine ganz andere Geschichte.
Abweichung von der Normalität meinst du, oder? Es hängt wirklich von Ihren Zwecken ab, denn wie ich bereits sagte, wird der Rückschluss in Abwesenheit der Normalität schwierig, aber nicht unmöglich (Bootstrap!).
Kurz gesagt, wenn Sie alle Gauß-Markov-Annahmen plus Normalität haben, ist der OLS-Schätzer Best Unbias (BUE), dh der effizienteste unter allen Schätzerklassen - die Cramer-Rao-Untergrenze - erreicht. Dies ist natürlich wünschenswert, aber es ist nicht das Ende der Welt, wenn es nicht geschieht. Die obigen Ausführungen gelten.
Beachten Sie bei Transformationen, dass die Verteilung der Antwort möglicherweise der Normalität näher kommt, die Interpretation danach jedoch möglicherweise nicht ohne Weiteres möglich ist.
Dies sind nur einige kurze Antworten auf Ihre Fragen. Sie scheinen besonders besorgt über die Auswirkungen von Nicht-Normalität zu sein. Insgesamt würde ich sagen, dass es nicht so katastrophal ist, wie man glaubt und es gibt Workarounds. Die zwei Referenzen, die ich beigefügt habe, sind ein guter Ausgangspunkt für die weitere Lektüre, wobei die erste theoretischer Natur ist.
Referenzen :
quelle