Was sind die Vorteile der linearen Regression gegenüber der quantilen Regression?

15

Das Modell der linearen Regression geht von einer Reihe von Annahmen aus, die die Quantilregression nicht zulässt. Wenn die Annahmen der linearen Regression erfüllt sind, ist meine Intuition (und einige sehr begrenzte Erfahrungen), dass die mediane Regression nahezu identische Ergebnisse wie die lineare Regression liefert.

Welche Vorteile hat die lineare Regression? Es ist sicherlich vertrauter, aber anders als das?

Peter Flom - Wiedereinsetzung von Monica
quelle
3
Um es „vertrauter“ zu machen, würde ich „Interpretierbarkeit“ und „Stabilität“ hinzufügen, aber für mich ist einer der Vorteile der linearen Regression, was es Ihnen über den Mittelwert sagt und wie gut dieser Mittelwert die Stichprobenpopulation darstellt (Residuen sind sehr informativ). . Lineare Regression hat einen hohen Wert, wenn ihre Annahmen erfüllt werden, und einen hohen Wert, wenn sie nicht erfüllt werden.
JustGettinStarted
5
Ich würde argumentieren, dass ein wichtiges Thema in diesen beiden Threads diskutiert wurde: stats.stackexchange.com/questions/153348/… und stats.stackexchange.com/questions/146077/… - Effizienz und möglicherweise sogar Optimalität unter bestimmten Umständen Annahmen
Christoph Hanck
1
Als weiteren, aber geringfügigen Punkt könnte man vielleicht die Verfügbarkeit expliziter, geschlossener Lösungen hinzufügen, die beispielsweise für KOP nicht verfügbar sind, was solche Techniken für Praktiker weniger attraktiv machen kann.
Christoph Hanck
1
Eine Antwort könnte so aussehen, als würde man den einfachen Fall der Schätzung eines einzelnen Populationsparameters vergleichen und dann zeigen, dass Fehler im kleinsten Quadrat bei Gaußschen Fehlern besser abschneiden und kleinste absolute Residuen (auch unter Verwendung von Annahmen) bei verschiedenen Fehlertypen besser abschneiden. Aber dann geht es bei dieser Frage um komplexere lineare Modelle, und das Problem wird immer komplexer und umfassender. Die Intuition des einfachen Problems (Schätzung eines einzelnen Mittelwerts / Medians) funktioniert für ein größeres Modell, aber um wie viel sollte es erarbeitet werden? Und wie vergleichen, Robustheit gegen Ausreißer, Verteilungen, Berechnung?
Sextus Empiricus
2
In meinem Fall habe ich festgestellt, dass die Quantil-Regression nicht-technischen Personen viel besser erklärt werden kann, wenn die Antwortvariable verzerrt ist (z. B. Kundenausgaben) und die Einführung eines Transformations- / Verknüpfungsfunktionsschritts die gesamte Analyse verdeckt. In diesem Sinne würde ich die Behauptung, dass eine mediane Regression fast identische Ergebnisse wie eine lineare Regression liefern würde, als etwas übervereinfachend bestreiten. Dies ist insbesondere bei potenziell verzerrten Antwortvariablen nicht der Fall.
usεr11852 sagt Reinstate Monic

Antworten:

10

Es wird sehr oft festgestellt, dass die Minimierung der kleinsten Fehlerquadrate der Minimierung der absoluten Fehlerquadrate vorgezogen wird, da dies rechnerisch einfacher ist . Es kann aber auch aus anderen Gründen besser sein. Das heißt, wenn die Annahmen wahr sind (und das ist nicht so selten) , dann bietet es eine Lösung , die (im Durchschnitt) ist genauer.

Maximale Wahrscheinlichkeit

Die Regression der kleinsten Quadrate und die Quantil-Regression (wenn sie durch Minimierung der absoluten Residuen durchgeführt werden) können als Maximierung der Wahrscheinlichkeitsfunktion für verteilte Gauß- / Laplace-Fehler angesehen werden und sind in diesem Sinne sehr verwandt.

  • Gaußsche Verteilung:

    f(x)=12πσ2e(xμ)22σ2

    wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der quadratischen Residuen minimiert wird

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Laplace-Verteilung:

    f(x)=12be|xμ|b

    wobei die log-Wahrscheinlichkeit maximiert wird, wenn die Summe der absoluten Residuen minimiert wird

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Hinweis: Die Laplace-Verteilung und die Summe der absoluten Residuen beziehen sich auf den Median, können jedoch auf andere Quantile verallgemeinert werden, indem negativen und positiven Residuen unterschiedliche Gewichte gegeben werden.

Bekannte Fehlerverteilung

Wenn wir die Fehlerverteilung kennen (wenn die Annahmen wahrscheinlich zutreffen), ist es sinnvoll, die zugehörige Wahrscheinlichkeitsfunktion zu wählen. Das Minimieren dieser Funktion ist optimaler.

Sehr oft sind die Fehler (ungefähr) normal verteilt. In diesem Fall ist die Verwendung der kleinsten Quadrate der beste Weg, um den Parameter zu finden (der sich sowohl auf den Mittelwert als auch auf den Median bezieht ). Dies ist der beste Weg, da er die niedrigste Stichprobenvarianz aufweist (der niedrigste aller unverzerrten Schätzer). Oder Sie können stärker sagen: Sie ist stochastisch dominant (siehe Abbildung in dieser Frage , in der die Verteilung des Stichprobenmedians mit dem Stichprobenmittelwert verglichen wird).μ

Wenn die Fehler normalverteilt sind, ist der Stichprobenmittelwert ein besserer Schätzer für den Verteilungsmedian als den Stichprobenmedian . Die Regression der kleinsten Quadrate ist ein optimaler Schätzer der Quantile. Es ist besser, als die geringste Summe absoluter Residuen zu verwenden.

Da so viele Probleme mit normalverteilten Fehlern zu tun haben, ist die Verwendung der Methode der kleinsten Quadrate sehr beliebt. Um mit anderen Arten von Verteilungen zu arbeiten, kann man das generalisierte lineare Modell verwenden . Die Methode der iterativen kleinsten Quadrate, mit der GLMs gelöst werden können, funktioniert auch für die Laplace-Verteilung (dh für absolute Abweichungen ), die dem Finden des Medians (oder in der verallgemeinerten Version anderer Quantile) entspricht.

Unbekannte Fehlerverteilung

Robustheit

Der Median oder andere Quantile haben den Vorteil, dass sie hinsichtlich der Art der Verteilung sehr robust sind. Die tatsächlichen Werte sind unwichtig und die Quantile kümmern sich nur um die Reihenfolge. Unabhängig von der Verteilung funktioniert die Minimierung der absoluten Residuen (was dem Auffinden der Quantile entspricht) sehr gut.

Die Frage wird hier komplex und weit gefasst und hängt davon ab, über welche Art von Wissen wir über die Verteilungsfunktion verfügen oder nicht. Beispielsweise kann eine Verteilung annähernd normalverteilt sein, jedoch nur mit einigen zusätzlichen Ausreißern. Dies kann durch Entfernen der äußeren Werte behoben werden. Diese Entfernung der Extremwerte funktioniert sogar beim Schätzen des Ortsparameters der Cauchy-Verteilung, wobei der abgeschnittene Mittelwert ein besserer Schätzer als der Median sein kann. Nicht nur für die ideale Situation, in der die Annahmen gelten, sondern auch für einige weniger ideale Anwendungen (z. B. zusätzliche Ausreißer) gibt es möglicherweise gute robuste Methoden, die immer noch eine Form einer Summe von quadratischen Residuen anstelle der Summe von absoluten Residuen verwenden.

Ich stelle mir vor, dass die Regression mit verkürzten Residuen viel komplexer sein könnte. Es kann sich also tatsächlich um eine Quantilregression handeln, bei der es sich um die Art der Regression handelt, die ausgeführt wird, weil sie rechnerisch einfacher ist (nicht einfacher als gewöhnliche kleinste Quadrate, sondern einfacher als abgeschnittene kleinste Quadrate).

Voreingenommen / unvoreingenommen

Ein weiteres Problem ist voreingenommen gegenüber unvoreingenommenen Schätzern. Oben habe ich die Maximum-Likelihood-Schätzung für den Mittelwert, dh die Lösung der kleinsten Quadrate, als guten oder bevorzugten Schätzer beschrieben, da sie häufig die niedrigste Varianz aller unverzerrten Schätzer aufweist (wenn die Fehler normalverteilt sind). Aber voreingenommene Schätzer können besser sein (niedrigere erwartete Summe des quadratischen Fehlers).

Dies macht die Frage erneut weit und komplex. Es gibt viele verschiedene Schätzer und viele verschiedene Situationen, um sie anzuwenden. Die Verwendung einer angepassten Funktion zum Reduzieren der Summe der quadratischen Residuenverluste funktioniert häufig gut, um den Fehler zu verringern (z. B. alle Arten von Regularisierungsmethoden), muss jedoch möglicherweise nicht in allen Fällen gut funktionieren. Es ist intuitiv nicht verwunderlich, sich vorzustellen, dass, da die Summe der quadratischen Residuenverluste häufig für alle unverzerrten Schätzer gut funktioniert, die optimal voreingenommenen Schätzer wahrscheinlich einer Summe der quadratischen Residuenverluste nahekommen.

Sextus Empiricus
quelle
Wenn wir die Fehlerverteilung kennen, ist es sinnvoll, die zugehörige Wahrscheinlichkeitsfunktion zu wählen. Das Minimieren dieser Funktion ist optimaler. Nicht zu sagen, das ist falsch, sollte aber wahrscheinlich qualifiziert sein. Dies bezieht sich natürlich wieder auf meine Frage (die Sie beantwortet haben) nach optimalen Schätzern unter verschiedenen Verlustfunktionen.
Richard Hardy
Es ist der beste Weg, weil es die niedrigste Stichprobenvarianz hat. Varianz ist im Allgemeinen keine sinnvolle Verlustfunktion, da sie die Vorurteile vernachlässigt. Ein vernünftiges Gegenstück wäre ein quadratischer Fehler (auch als mittlerer quadratischer Fehler bezeichnet), der sowohl Varianz als auch Verzerrung berücksichtigt. Die Regression der kleinsten Quadrate ist ein optimaler Schätzer der Quantile. Median - ja, aber andere? Und wenn ja, warum dann? In jedem Fall ist Ihre Antwort sehr nett!
Richard Hardy
1
@RichardHardy dieses Thema ist so breit. In der Tat ist der Fehler = Varianz + Verzerrung. Ich habe angenommen, dass die Abweichung des Stichprobenmittelwerts mit dem Stichprobenmedian übereinstimmt (oder allgemeiner: Die kleinste Summe der quadratischen Residuen und die kleinste Summe der absoluten Residuen haben dieselbe Abweichung). Dies gilt für verschiedene Fehlerverteilungen (z. B. symmetrische Fehlerverteilungen), aber in der Tat werden die Fragen für andere Fälle komplexer. (Es ging hauptsächlich
Sextus Empiricus
1
Dasselbe (die Komplexität der Frage) gilt, wenn wir nicht den Median, sondern ein anderes Quantil betrachten. Im Fall von normalverteilten Fehlern glaube ich, dass der MLE für jedes Quantil das beste Ergebnis liefert, aber ich stimme zu, dass es Intuition ist. Auch hier ist das Problem sehr breit (Abhängigkeit von der Anzahl der Stichproben, der Art der Fehlerverteilung und der Gewissheit darüber usw.).
Sextus Empiricus
1
Eine kaputte Uhr ist genau richtig, zweimal am Tag würde ich die MLE nicht als kaputte Uhr bezeichnen. Klar, wenn Sie das Problem gut kennen, können Sie eine Abweichungsreduzierung einführen, um den Gesamtfehler zu verbessern. Hierbei handelt es sich nicht unbedingt um eine andere (Quantil-) Regressionsmethode. Sie können auch nur etwas Marmelade oder Honig auf das Butterbrot der kleinsten Quadrate geben. Wenn Sie MLE mit einer kaputten Uhr vergleichen möchten, dann ist es eine Uhr, die ungefähr zu der Zeit stillsteht, die wir am meisten nutzen.
Sextus Empiricus
2

Die lineare Regression (LR) führt bei der Berechnung der Koeffizienten zu einer Optimierung der kleinsten Quadrate. Dies impliziert eine Symmetrie der Abweichungen vom Regressionsmodell. Eine gute Erklärung für die Quantile Regression (QR) finden Sie unter https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Wenn die LR-Annahmen (für die Inferenz erforderlich: p-Werte, Konfidenzintervalle usw.) erfüllt sind, sind die QR- und LR-Vorhersagen ähnlich. Wenn die Annahmen jedoch stark verletzt werden, ist Ihre Standard-LR-Schlussfolgerung falsch. Eine 0,5-Quantil-Regression (Median) bietet also einen Vorteil gegenüber LR. Es gibt auch mehr Flexibilität bei der Regression für andere Quantile. Das Äquivalent für lineare Modelle wäre eine aus einem LR berechnete Vertrauensgrenze (obwohl dies falsch wäre, wenn iid stark verletzt wird).

Was ist der Vorteil von LR? Natürlich ist es einfacher zu berechnen, aber wenn Ihr Datensatz eine angemessene Größe hat, ist dies möglicherweise nicht sehr auffällig. Noch wichtiger ist jedoch, dass die LR-Inferenzannahmen Informationen liefern, die die Unsicherheit verringern. Infolgedessen sind die LR-Konfidenzintervalle für Vorhersagen normalerweise enger. Wenn es also eine starke theoretische Unterstützung für die Annahmen gibt, können engere Konfidenzintervalle von Vorteil sein.

George Ostrouchov
quelle
2

E(Y|X)YXE(Y|X)=Xββ

Quantile Regression kann verwendet werden, um JEDES Quantil der bedingten Verteilung einschließlich des Medians zu schätzen. Dies liefert möglicherweise viel mehr Informationen als der Durchschnitt über die bedingte Verteilung. Wenn die bedingte Verteilung nicht symmetrisch ist oder die Schwänze möglicherweise dick sind (z. B. Risikoanalyse), ist die Quantilregression hilfreich, AUCH wenn alle Annahmen der linearen Regression erfüllt sind.

Natürlich ist es numerisch intensiver, eine Quantilschätzung im Verhältnis zur linearen Regression durchzuführen, aber im Allgemeinen ist es viel robuster (z. B. genau so, wie der Median robuster ist als der Mittelwert für Ausreißer). Außerdem ist es angebracht, wenn keine lineare Regression vorliegt - z. B. für zensierte Daten. Inferenz kann schwieriger sein, da die direkte Schätzung der Varianz-Kovarianz-Matrix schwierig oder rechenintensiv sein kann. In diesen Fällen kann man booten.

Kruggles
quelle