Das standardmäßige lineare sklearn-Regressionsklasse findet eine angenäherte lineare Beziehung zwischen Variate und Kovariaten, die den mittleren quadratischen Fehler (MSE) minimiert. Insbesondere lassenSeien Sie die Anzahl der Beobachtungen und lassen Sie uns den Abschnitt der Einfachheit halber ignorieren. Lassen sei der Variationswert des -te Beobachtung und seien die Werte der Kovariaten der -te Beobachtung. Die lineare Beziehung hat die Form
Ich möchte nun die Koeffizienten finden, die die mittlere absolute Abweichung (MAD) anstelle des mittleren quadratischen Fehlers minimieren. Ich möchte nämlich die Koeffizienten von
Ich verstehe, dass im scharfen Gegensatz zum MSE-Fall die mangelnde Differenzierbarkeit der Absolutwertfunktion bei impliziert, dass es keine analytische Lösung für den MAD-Fall gibt. Letzteres ist jedoch immer noch ein konvexes Optimierungsproblem und kann nach dieser Antwort leicht durch lineare Programmierung gelöst werden.
Ist es möglich, diese lineare Regression in sklearn zu implementieren? Was ist mit anderen Statistik-Toolkits?
quelle
Antworten:
Die erwartete MAD wird durch den Median der Verteilung minimiert ( Hanley, 2001, The American Statistician ). Daher suchen Sie nach einem Modell, das den bedingten Median anstelle des bedingten Mittelwerts liefert .
Dies ist ein Sonderfall von Quantil-Regressionspeziell für das 50% Quantil. Roger Koenker ist der Hauptguru für die Quantilregression . siehe insbesondere sein gleichnamiges Buch .
Es gibt Möglichkeiten, in Python eine Quantilregression durchzuführen. Dieses Tutorial kann hilfreich sein. Wenn Sie offen für die Verwendung von R sind, können Sie das
quantreg
Paket verwenden.quelle