Wie kann eine asymmetrische Verlustfunktion für die Regression entworfen und implementiert werden?

24

Problem

Bei der Regression berechnet man normalerweise den mittleren quadratischen Fehler (MSE) für eine Stichprobe: , um die Qualität eines Prädiktors zu messen.

MSE=1nich=1n(G(xich)-G^(xich))2

Im Moment arbeite ich an einem Regressionsproblem, bei dem das Ziel darin besteht, den Preis vorherzusagen, den Kunden bereit sind, für ein Produkt mit einer Reihe von numerischen Merkmalen zu zahlen. Wenn der vorhergesagte Preis zu hoch ist, kauft kein Kunde das Produkt, aber der Geldverlust ist niedrig, weil der Preis einfach dekrementiert werden kann. Natürlich sollte es nicht zu hoch sein, da das Produkt dann möglicherweise lange nicht mehr gekauft wird. Wenn der vorhergesagte Preis jedoch zu niedrig ist, wird das Produkt schnell gekauft, ohne dass die Möglichkeit besteht, den Preis anzupassen.

Mit anderen Worten, der Lernalgorithmus sollte leicht höhere Preise vorhersagen, die bei Bedarf dekrementiert werden können, anstatt den wahren Preis zu unterschätzen, was zu einem sofortigen Geldverlust führt.

Frage

Wie würden Sie eine Fehlermetrik entwerfen, die diese Kostenasymmetrie berücksichtigt?


Mögliche Lösung

Eine Möglichkeit, eine asymmetrische Verlustfunktion zu definieren, besteht darin, einfach mit einem Gewicht zu multiplizieren: wobei der Parameter ist, den wir anpassen können, um den Grad der Asymmetrie zu ändern. Ich habe es hier gefunden . Dies scheint am einfachsten zu sein, während der quadratische Verlust beibehalten wird.

1nich=1n|α-1(G(xich)-G^(xich))<0|(G(xich)-G^(xich))2
α(0,1)
Kiudee
quelle
1
@MichaelChernick, FTR, ich denke, das ist eine gute Frage, die klar und kohärent formuliert wurde, und gebe zu, dass ich ein bisschen wählerisch bin. Wie Sie wissen, wird das Anpassen einer Regression (dh das Auflösen nach ) (standardmäßig) durch Minimieren der OLS-Verlustfunktion (SSE) durchgeführt. Du hast Recht , dass MSE könnte äquivalent verwendet werden , b / c mit einem konstanten Teilung nicht die Reihenfolge der Kandidaten Betas beeinflussen. β
gung - Wiedereinsetzung von Monica
1
Eine andere Tatsache ist, dass MSE (häufiger RMSE) häufig zur Bewertung der Qualität eines angepassten Modells verwendet wird (obwohl SSE auch gleichwertig verwendet werden könnte). Die Sache ist, diese Frage scheint (für mich jedenfalls) zu sein, wie man über die Verlustfunktion nachdenkt / sie umgestaltet , so dass die angepassten Betas anders sind als sie standardmäßig gewesen wären, anstatt darüber, wie man die Qualität anders beurteilt eines Modells, das bereits gepasst worden ist.
gung - Wiedereinsetzung von Monica
1
@Kiudee, wenn meine Interpretation Ihres Q richtig ist, was halten Sie davon, es zu bearbeiten, um das Loss-Functions- Tag hinzuzufügen und möglicherweise den Titel in etwa zu überarbeiten: "Wie entwerfe und implementiere ich eine asymmetrische Loss-Funktion für die Regression"? Ich werde die Änderungen nicht selbst vornehmen, falls Sie damit nicht einverstanden sind.
gung - Wiedereinsetzung von Monica
2
Als Referenz habe ich gesehen, dass eine Quantil-Regression vorgeschlagen wurde, wenn Sie asymmetrische Verlustfunktionen wünschen, siehe Berk, 2011 , PDF hier .
Andy W
1
Da ich verschiedene Lernalgorithmen verwende, um dieses Problem zu lösen, sollte die Funktion mindestens einmal differenzierbar sein.
Kiudee

Antworten:

7

Wie in den obigen Kommentaren erwähnt, verwendet die Quantilregression eine asymmetrische Verlustfunktion (linear, jedoch mit unterschiedlichen Steigungen für positive und negative Fehler). Das quadratische Analogon (Verlustquadrat) der Quantilregression ist die erwartete Regression.

Sie können die Quantil-Regression für die Referenzen googeln. Informationen zur erwarteten Regression finden Sie im R-Paket expectreg und in den Referenzen im Referenzhandbuch.

Innuo
quelle
2

Diese Art der ungleichen Gewichtung wird häufig bei Klassifizierungsproblemen mit zwei Klassen durchgeführt. Die Bayes-Regel kann mithilfe einer Verlustfunktion geändert werden, mit der der Verlust für einen Fehler höher gewichtet wird als für den anderen. Dies führt zu einer Regel, die zu ungleichen Fehlerraten führt.

In der Regression wäre es sicherlich möglich, eine Gewichtsfunktion wie eine gewichtete Summe von Quadraten zu konstruieren, die den negativen Fehlern ein gewisses Gewicht verleiht und den positiven ein höheres Gewicht verleiht. Dies ähnelt dem gewichteten kleinsten Quadrat, ist jedoch ein wenig anders, da das gewichtete kleinste Quadrat für Probleme gedacht ist, bei denen die Fehlervarianz über den Bereich möglicher Werte für die Prädiktorvariablen nicht konstant ist. In diesem Fall sind die Gewichte für die Punkte höher, bei denen bekannt ist, dass die Fehlervarianz klein ist, und höher, bei denen bekannt ist, dass die Fehlervarianz groß ist. Dies führt natürlich zu Werten für die Regressionsparameter, die sich von dem unterscheiden, was OLS Ihnen geben würde.

Michael R. Chernick
quelle