Quantile Regression: Verlustfunktion

24

Ich versuche, die Quantil-Regression zu verstehen, aber eine Sache, die mich leiden lässt, ist die Wahl der Verlustfunktion.

ρτ(u)=u(τ1{u<0})

Ich weiß, dass das Minimum der Erwartung von gleich dem -Quantil ist, aber was ist der intuitive Grund, mit dieser Funktion zu beginnen? Ich sehe keinen Zusammenhang zwischen der Minimierung dieser Funktion und dem Quantil. Kann mir jemand das erklären?ρτ(yu)τ%

CDO
quelle

Antworten:

28

Ich verstehe diese Frage als die Frage, wie man zu einer Verlustfunktion kommen kann, die ein bestimmtes Quantil als Verlustminimierer liefert, unabhängig von der zugrunde liegenden Verteilung. Es wäre daher unbefriedigend, nur die Analyse in Wikipedia oder anderswo zu wiederholen, die zeigt, dass diese bestimmte Verlustfunktion funktioniert.

Beginnen wir mit etwas Bekanntem und Einfachem.

Sie sprechen davon, einen "Ort" x relativ zu einer Verteilung oder einem Datensatz F . Es ist beispielsweise bekannt, dass der Mittelwert x¯ den erwarteten quadratischen Restwert minimiert; das heißt, es ist ein Wert für den

LF(x¯)=R(xx¯)2dF(x)

ist so klein wie möglich. Ich habe diese Notation verwendet, um uns daran zu erinnern, dass aus einem Verlust abgeleitet ist , dass es durch F bestimmt wird , aber am wichtigsten ist, dass es von der Zahl ˉ x abhängt .LFx¯

Der übliche Weg zu zeigen , dass minimiert jede Funktion beginnt mit der Funktion des Wertes zeigt nicht abnimmt , wenn x * wird durch ein wenig verändert. Ein solcher Wert wird als kritischer Punkt der Funktion bezeichnet.xx

Welche Art von Verlustfunktion würde dazu führen, dass ein Perzentil F - 1 ( α ) ein kritischer Punkt ist? Der Verlust für diesen Wert wäreΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

Damit dies ein kritischer Punkt ist, muss seine Ableitung Null sein. Da wir nur eine Lösung zu finden versuchen, werden wir nicht unterbrechen , um zu sehen , ob die Manipulationen legitim sind: wir werden technische Details ( zum Beispiel, ob wir wirklich unterscheiden können überprüfen planen , usw. ) am Ende. SomitΛ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

Auf der linken Seite ist das Argument von negativ, während es auf der rechten Seite positiv ist. Ansonsten haben wir wenig Kontrolle über die Werte dieser Integrale, da F jede Verteilungsfunktion sein könnte. Folglich besteht unsere einzige Hoffnung darin, Λ ' nur vom Vorzeichen seines Arguments abhängig zu machen , andernfalls muss es konstant sein.ΛFΛ

Dies impliziert, dass stückweise linear ist, möglicherweise mit unterschiedlichen Steigungen links und rechts von Null. Es ist klar, dass es abnehmen sollte, wenn man sich Null nähert - es ist immerhin ein Verlust und kein Gewinn . Darüber hinaus ändert eine erneute Skalierung von Λ durch eine Konstante ihre Eigenschaften nicht, so dass wir uns frei fühlen können, die Neigung der linken Hand auf - 1 zu setzen . Sei τ > 0 die rechte Steigung. Dann vereinfacht sich ( 1 ) zuΛΛ1τ>0(1)

0=ατ(1α),

woher die einzigartige Lösung ist, bis zu einem positiven Vielfachen,

Λ(x)={x, x0α1αx, x0.

Multipliziert man diese (natürliche) Lösung mit , um den Nenner zu löschen, erhält man die in der Frage dargestellte Verlustfunktion.1α

Natürlich sind alle unsere Manipulationen mathematisch legitim, wenn diese Form hat. Λ

whuber
quelle
19

Die Art und Weise, wie diese Verlustfunktion ausgedrückt wird, ist schön und kompakt, aber ich denke, es ist leichter zu verstehen, wenn man sie als

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

If you want to get an intuitive sense of why minimizing this loss function yields the τth quantile, it's helpful to consider a simple example. Let X be a uniform random variable between 0 and 1. Let's also choose a concrete value for τ, say, 0.25.

So now the question is why would this loss function be minimized at m=0.25? Obviously, there's three times as much mass in the uniform distribution to the right of m than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the τth quantile is used as the inflection point for the loss function.

jjet
quelle
1
Shouldn't it be the other way? Under-guessing will cost three times as much?
Edi Bice
Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.
jjet