Das Modell der linearen Regression geht von einer Reihe von Annahmen aus, die die Quantilregression nicht zulässt. Wenn die Annahmen der linearen Regression erfüllt sind, ist meine Intuition (und einige sehr begrenzte Erfahrungen), dass die mediane Regression nahezu identische Ergebnisse wie die lineare Regression liefert.
Welche Vorteile hat die lineare Regression? Es ist sicherlich vertrauter, aber anders als das?
regression
multiple-regression
quantile-regression
Peter Flom - Wiedereinsetzung von Monica
quelle
quelle
Antworten:
Es wird sehr oft festgestellt, dass die Minimierung der kleinsten Fehlerquadrate der Minimierung der absoluten Fehlerquadrate vorgezogen wird, da dies rechnerisch einfacher ist . Es kann aber auch aus anderen Gründen besser sein. Das heißt, wenn die Annahmen wahr sind (und das ist nicht so selten) , dann bietet es eine Lösung , die (im Durchschnitt) ist genauer.
Maximale Wahrscheinlichkeit
Die Regression der kleinsten Quadrate und die Quantil-Regression (wenn sie durch Minimierung der absoluten Residuen durchgeführt werden) können als Maximierung der Wahrscheinlichkeitsfunktion für verteilte Gauß- / Laplace-Fehler angesehen werden und sind in diesem Sinne sehr verwandt.
Gaußsche Verteilung:
wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der quadratischen Residuen minimiert wird
Laplace-Verteilung:
wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der absoluten Residuen minimiert wird
Hinweis: Die Laplace-Verteilung und die Summe der absoluten Residuen beziehen sich auf den Median, können jedoch auf andere Quantile verallgemeinert werden, indem negativen und positiven Residuen unterschiedliche Gewichte gegeben werden.
Bekannte Fehlerverteilung
Wenn wir die Fehlerverteilung kennen (wenn die Annahmen wahrscheinlich zutreffen), ist es sinnvoll, die zugehörige Wahrscheinlichkeitsfunktion zu wählen. Das Minimieren dieser Funktion ist optimaler.
Sehr oft sind die Fehler (ungefähr) normal verteilt. In diesem Fall ist die Verwendung der kleinsten Quadrate der beste Weg, um den Parameter zu finden (der sich sowohl auf den Mittelwert als auch auf den Median bezieht ). Dies ist der beste Weg, da er die niedrigste Stichprobenvarianz aufweist (der niedrigste aller unverzerrten Schätzer). Oder Sie können stärker sagen: Sie ist stochastisch dominant (siehe Abbildung in dieser Frage , in der die Verteilung des Stichprobenmedians mit dem Stichprobenmittelwert verglichen wird).μ
Wenn die Fehler normalverteilt sind, ist der Stichprobenmittelwert ein besserer Schätzer für den Verteilungsmedian als den Stichprobenmedian . Die Regression der kleinsten Quadrate ist ein optimaler Schätzer der Quantile. Es ist besser, als die geringste Summe absoluter Residuen zu verwenden.
Da so viele Probleme mit normalverteilten Fehlern zu tun haben, ist die Verwendung der Methode der kleinsten Quadrate sehr beliebt. Um mit anderen Arten von Verteilungen zu arbeiten, kann man das generalisierte lineare Modell verwenden . Die Methode der iterativen kleinsten Quadrate, mit der GLMs gelöst werden können, funktioniert auch für die Laplace-Verteilung (dh für absolute Abweichungen ), die dem Finden des Medians (oder in der verallgemeinerten Version anderer Quantile) entspricht.
Unbekannte Fehlerverteilung
Robustheit
Der Median oder andere Quantile haben den Vorteil, dass sie hinsichtlich der Art der Verteilung sehr robust sind. Die tatsächlichen Werte sind unwichtig und die Quantile kümmern sich nur um die Reihenfolge. Unabhängig von der Verteilung funktioniert die Minimierung der absoluten Residuen (was dem Auffinden der Quantile entspricht) sehr gut.
Die Frage wird hier komplex und weit gefasst und hängt davon ab, über welche Art von Wissen wir über die Verteilungsfunktion verfügen oder nicht. Beispielsweise kann eine Verteilung annähernd normalverteilt sein, jedoch nur mit einigen zusätzlichen Ausreißern. Dies kann durch Entfernen der äußeren Werte behoben werden. Diese Entfernung der Extremwerte funktioniert sogar beim Schätzen des Ortsparameters der Cauchy-Verteilung, wobei der abgeschnittene Mittelwert ein besserer Schätzer als der Median sein kann. Nicht nur für die ideale Situation, in der die Annahmen gelten, sondern auch für einige weniger ideale Anwendungen (z. B. zusätzliche Ausreißer) gibt es möglicherweise gute robuste Methoden, die immer noch eine Form einer Summe von quadratischen Residuen anstelle der Summe von absoluten Residuen verwenden.
Ich stelle mir vor, dass die Regression mit verkürzten Residuen viel komplexer sein könnte. Es kann sich also tatsächlich um eine Quantilregression handeln, bei der es sich um die Art der Regression handelt, die ausgeführt wird, weil sie rechnerisch einfacher ist (nicht einfacher als gewöhnliche kleinste Quadrate, sondern einfacher als abgeschnittene kleinste Quadrate).
Voreingenommen / unvoreingenommen
Ein weiteres Problem ist voreingenommen gegenüber unvoreingenommenen Schätzern. Oben habe ich die Maximum-Likelihood-Schätzung für den Mittelwert, dh die Lösung der kleinsten Quadrate, als guten oder bevorzugten Schätzer beschrieben, da sie häufig die niedrigste Varianz aller unverzerrten Schätzer aufweist (wenn die Fehler normalverteilt sind). Aber voreingenommene Schätzer können besser sein (niedrigere erwartete Summe des quadratischen Fehlers).
Dies macht die Frage erneut weit und komplex. Es gibt viele verschiedene Schätzer und viele verschiedene Situationen, um sie anzuwenden. Die Verwendung einer angepassten Funktion zum Reduzieren der Summe der quadratischen Residuenverluste funktioniert häufig gut, um den Fehler zu verringern (z. B. alle Arten von Regularisierungsmethoden), muss jedoch möglicherweise nicht in allen Fällen gut funktionieren. Es ist intuitiv nicht verwunderlich, sich vorzustellen, dass, da die Summe der quadratischen Residuenverluste häufig für alle unverzerrten Schätzer gut funktioniert, die optimal voreingenommenen Schätzer wahrscheinlich einer Summe der quadratischen Residuenverluste nahekommen.
quelle
Die lineare Regression (LR) führt bei der Berechnung der Koeffizienten zu einer Optimierung der kleinsten Quadrate. Dies impliziert eine Symmetrie der Abweichungen vom Regressionsmodell. Eine gute Erklärung für die Quantile Regression (QR) finden Sie unter https://data.library.virginia.edu/getting-started-with-quantile-regression/ .
Wenn die LR-Annahmen (für die Inferenz erforderlich: p-Werte, Konfidenzintervalle usw.) erfüllt sind, sind die QR- und LR-Vorhersagen ähnlich. Wenn die Annahmen jedoch stark verletzt werden, ist Ihre Standard-LR-Schlussfolgerung falsch. Eine 0,5-Quantil-Regression (Median) bietet also einen Vorteil gegenüber LR. Es gibt auch mehr Flexibilität bei der Regression für andere Quantile. Das Äquivalent für lineare Modelle wäre eine aus einem LR berechnete Vertrauensgrenze (obwohl dies falsch wäre, wenn iid stark verletzt wird).
Was ist der Vorteil von LR? Natürlich ist es einfacher zu berechnen, aber wenn Ihr Datensatz eine angemessene Größe hat, ist dies möglicherweise nicht sehr auffällig. Noch wichtiger ist jedoch, dass die LR-Inferenzannahmen Informationen liefern, die die Unsicherheit verringern. Infolgedessen sind die LR-Konfidenzintervalle für Vorhersagen normalerweise enger. Wenn es also eine starke theoretische Unterstützung für die Annahmen gibt, können engere Konfidenzintervalle von Vorteil sein.
quelle
Quantile Regression kann verwendet werden, um JEDES Quantil der bedingten Verteilung einschließlich des Medians zu schätzen. Dies liefert möglicherweise viel mehr Informationen als der Durchschnitt über die bedingte Verteilung. Wenn die bedingte Verteilung nicht symmetrisch ist oder die Schwänze möglicherweise dick sind (z. B. Risikoanalyse), ist die Quantilregression hilfreich, AUCH wenn alle Annahmen der linearen Regression erfüllt sind.
Natürlich ist es numerisch intensiver, eine Quantilschätzung im Verhältnis zur linearen Regression durchzuführen, aber im Allgemeinen ist es viel robuster (z. B. genau so, wie der Median robuster ist als der Mittelwert für Ausreißer). Außerdem ist es angebracht, wenn keine lineare Regression vorliegt - z. B. für zensierte Daten. Inferenz kann schwieriger sein, da die direkte Schätzung der Varianz-Kovarianz-Matrix schwierig oder rechenintensiv sein kann. In diesen Fällen kann man booten.
quelle