Betrachten Sie das Standardmodell für die multiple Regression wobei gilt.ε ∼ N ( 0 , σ 2 I n )
Angenommen, wir führen eine Gratregression durch, indem wir allen Elementen der Diagonale von den gleichen kleinen Betrag hinzufügen :
Es gibt einige Werte von , für den der Grat Koeffizient weniger mittlere quadratische Fehler als die von OLS erhalten, obwohl ein vorgespannter Schätzer von ist . In der Praxis wird durch Kreuzvalidierung erhalten.β r i d g e β k
Hier ist meine Frage: Welche Annahmen liegen dem Firstmodell zugrunde? Konkreter zu sein,
Sind alle Annahmen des gewöhnlichen kleinsten Quadrats (OLS) mit Gratregression gültig?
Wenn ja, wie testen wir Homoskedastizität und fehlende Autokorrelation mit einem voreingenommenen Schätzer von ?
Gibt es Arbeiten zum Testen anderer OLS-Annahmen (Homoskedastizität und fehlende Autokorrelation) unter Kammregression?
Antworten:
Was ist eine Annahme eines statistischen Verfahrens?
Ich bin kein Statistiker und deshalb mag dies falsch sein, aber ich denke, das Wort "Annahme" wird oft recht informell verwendet und kann sich auf verschiedene Dinge beziehen. Für mich ist eine "Annahme" genau genommen etwas, das nur ein theoretisches Ergebnis (Theorem) haben kann.
Wenn von Annahmen der linearen Regression die Rede ist ( siehe hier für eine eingehende Diskussion), beziehen sie sich normalerweise auf das Gauß-Markov-Theorem , das besagt, dass die OLS-Schätzung bei Annahmen von nicht korrelierten Fehlern mit gleicher Varianz und Mittelwert Null BLAU ist , dh ist unvoreingenommen und hat minimale Varianz. Außerhalb des Kontextes des Gauß-Markov-Theorems ist mir nicht klar, was eine "Regressionsannahme" überhaupt bedeuten würde.
In ähnlicher Weise beziehen sich Annahmen eines beispielsweise aus einer Stichprobe bestehenden t-Tests auf die Annahmen, unter denen die Statistik t- verteilt ist und daher die Folgerung gültig ist. Es wird kein "Theorem" genannt, aber es ist ein klares mathematisches Ergebnis: Wenn n Stichproben normalverteilt sind, folgt die t- Statistik der t- Verteilung des Schülers mit n - 1 Freiheitsgraden.t t n t t n - 1
Annahmen der bestraften Regressionstechniken
Betrachten Sie nun eine regulierte Regressionstechnik: Ridge-Regression, Lasso, elastisches Netz, Regression der Hauptkomponenten, partielle Regression der kleinsten Quadrate usw. usw. Der Sinn dieser Methoden besteht darin, eine voreingenommene Schätzung der Regressionsparameter vorzunehmen und die erwarteten zu reduzieren Verlust durch Ausnutzung des Bias-Varianz-Kompromisses.
Alle diese Methoden enthalten einen oder mehrere Regularisierungsparameter, und keiner von ihnen hat eine bestimmte Regel für die Auswahl der Werte dieser Parameter. Der optimale Wert wird normalerweise über eine Art Kreuzvalidierungsverfahren ermittelt. Es gibt jedoch verschiedene Methoden zur Kreuzvalidierung, die zu etwas unterschiedlichen Ergebnissen führen können. Darüber hinaus ist es nicht ungewöhnlich, neben der Kreuzvalidierung einige zusätzliche Faustregeln aufzurufen. Als Ergebnis der tatsächliche Ausgang β ist von jedem dieser bestrafen Regressionsverfahren nicht wirklich vollständig durch das Verfahren festgelegt, kann aber auf dem Analytiker Entscheidungen abhängen.β^
Aber was ist mit dem mathematischen Ergebnis, dass die Gratregression immer besser ist als OLS?
Dieses Ergebnis erfordert eigentlich keine Annahmen und ist immer wahr, aber es wäre seltsam zu behaupten, dass die Kammregression keine Annahmen enthält.
Okay, aber woher weiß ich, ob ich eine Kammregression anwenden kann oder nicht?
Ich würde sagen, auch wenn wir nicht über Annahmen sprechen können, können wir über Faustregeln sprechen . Es ist allgemein bekannt, dass die Kammregression bei multipler Regression mit korrelierten Prädiktoren am nützlichsten ist. Es ist allgemein bekannt, dass es die Leistung von OLS oftmals deutlich übertrifft. Es kann sogar bei Heteroskedastizität, korrelierten Fehlern oder was auch immer zu einer Outperformance führen. Die einfache Faustregel besagt also, dass bei multikollinearen Daten eine Kammregression und eine Kreuzvalidierung eine gute Idee sind.
Es gibt wahrscheinlich andere nützliche Faustregeln und Tricks des Handels (wie z. B. was mit groben Ausreißern zu tun ist). Sie sind jedoch keine Annahmen.
quelle
Ich möchte einen Beitrag aus der Sicht der Statistik leisten. Wenn Y ~ N (Xb, Sigma2 * In), dann ist der mittlere quadratische Fehler von b ^
Wenn XT X ungefähr Null ist, ist inv (XT X) sehr groß. Die Parameterschätzung von b ist also nicht stabil und kann das folgende Problem haben.
Um die ordinale Kleinste-Quadrat-Schätzung von b stabil zu machen, führen wir die Grat-Regression durch Schätzen
b^(k)=inv(X.T*X+kI)*X.T*Y.
von einBeim maschinellen Lernen wird die Gratregression als L2-Regularisierung bezeichnet und dient der Bekämpfung von Überanpassungsproblemen, die durch viele Funktionen verursacht werden.
quelle