Problem
Bei der Regression berechnet man normalerweise den mittleren quadratischen Fehler (MSE) für eine Stichprobe: , um die Qualität eines Prädiktors zu messen.
Im Moment arbeite ich an einem Regressionsproblem, bei dem das Ziel darin besteht, den Preis vorherzusagen, den Kunden bereit sind, für ein Produkt mit einer Reihe von numerischen Merkmalen zu zahlen. Wenn der vorhergesagte Preis zu hoch ist, kauft kein Kunde das Produkt, aber der Geldverlust ist niedrig, weil der Preis einfach dekrementiert werden kann. Natürlich sollte es nicht zu hoch sein, da das Produkt dann möglicherweise lange nicht mehr gekauft wird. Wenn der vorhergesagte Preis jedoch zu niedrig ist, wird das Produkt schnell gekauft, ohne dass die Möglichkeit besteht, den Preis anzupassen.
Mit anderen Worten, der Lernalgorithmus sollte leicht höhere Preise vorhersagen, die bei Bedarf dekrementiert werden können, anstatt den wahren Preis zu unterschätzen, was zu einem sofortigen Geldverlust führt.
Frage
Wie würden Sie eine Fehlermetrik entwerfen, die diese Kostenasymmetrie berücksichtigt?
Mögliche Lösung
Eine Möglichkeit, eine asymmetrische Verlustfunktion zu definieren, besteht darin, einfach mit einem Gewicht zu multiplizieren: wobei der Parameter ist, den wir anpassen können, um den Grad der Asymmetrie zu ändern. Ich habe es hier gefunden . Dies scheint am einfachsten zu sein, während der quadratische Verlust beibehalten wird.
quelle
Antworten:
Wie in den obigen Kommentaren erwähnt, verwendet die Quantilregression eine asymmetrische Verlustfunktion (linear, jedoch mit unterschiedlichen Steigungen für positive und negative Fehler). Das quadratische Analogon (Verlustquadrat) der Quantilregression ist die erwartete Regression.
Sie können die Quantil-Regression für die Referenzen googeln. Informationen zur erwarteten Regression finden Sie im R-Paket expectreg und in den Referenzen im Referenzhandbuch.
quelle
Diese Art der ungleichen Gewichtung wird häufig bei Klassifizierungsproblemen mit zwei Klassen durchgeführt. Die Bayes-Regel kann mithilfe einer Verlustfunktion geändert werden, mit der der Verlust für einen Fehler höher gewichtet wird als für den anderen. Dies führt zu einer Regel, die zu ungleichen Fehlerraten führt.
In der Regression wäre es sicherlich möglich, eine Gewichtsfunktion wie eine gewichtete Summe von Quadraten zu konstruieren, die den negativen Fehlern ein gewisses Gewicht verleiht und den positiven ein höheres Gewicht verleiht. Dies ähnelt dem gewichteten kleinsten Quadrat, ist jedoch ein wenig anders, da das gewichtete kleinste Quadrat für Probleme gedacht ist, bei denen die Fehlervarianz über den Bereich möglicher Werte für die Prädiktorvariablen nicht konstant ist. In diesem Fall sind die Gewichte für die Punkte höher, bei denen bekannt ist, dass die Fehlervarianz klein ist, und höher, bei denen bekannt ist, dass die Fehlervarianz groß ist. Dies führt natürlich zu Werten für die Regressionsparameter, die sich von dem unterscheiden, was OLS Ihnen geben würde.
quelle