Der L2-Verlust ist zusammen mit dem L0- und L1-Verlust drei eine sehr häufige "Standard" -Verlustfunktion, die verwendet wird, wenn ein Posterior durch den minimalen posterioren erwarteten Verlust zusammengefasst wird. Ein Grund dafür ist vielleicht, dass sie relativ einfach zu berechnen sind (zumindest für 1d-Verteilungen), L0 ergibt den Modus, L1 im Median und L2 ergibt den Mittelwert. Beim Unterrichten kann ich Szenarien entwickeln, in denen L0 und L1 vernünftige Verlustfunktionen sind (und nicht nur "Standard"), aber ich habe Probleme mit einem Szenario, in dem L2 eine vernünftige Verlustfunktion wäre. Also meine Frage:
Was wäre aus pädagogischen Gründen ein Beispiel dafür, wenn L2 eine gute Verlustfunktion zur Berechnung eines minimalen posterioren Verlusts ist?
Für L0 ist es einfach, Szenarien aus Wetten zu entwickeln. Angenommen, Sie haben einen Posterior über die Gesamtzahl der Tore in einem bevorstehenden Fußballspiel berechnet und werden eine Wette abschließen, bei der Sie $$$ gewinnen, wenn Sie die Anzahl der Tore richtig erraten und ansonsten verlieren. Dann ist L0 eine vernünftige Verlustfunktion.
Mein L1-Beispiel ist etwas erfunden. Sie treffen eine Freundin, die an einem der vielen Flughäfen ankommt und dann mit dem Auto zu Ihnen fährt. Das Problem ist, dass Sie nicht wissen, welcher Flughafen (und Ihre Freundin nicht anrufen können, weil sie in der Luft ist). Wenn man bedenkt, auf welchem Flughafen sie landen könnte, wo kann man sich gut positionieren, damit der Abstand zwischen ihr und Ihnen bei ihrer Ankunft gering ist? Hier erscheint der Punkt, der den erwarteten L1-Verlust minimiert, vernünftig, wenn man die vereinfachenden Annahmen trifft, dass ihr Auto mit konstanter Geschwindigkeit direkt zu Ihrem Standort fährt. Das heißt, eine Wartezeit von einer Stunde ist doppelt so schlecht wie eine Wartezeit von 30 Minuten.
quelle
Antworten:
L2 ist "einfach". Es ist das, was Sie standardmäßig erhalten, wenn Sie Standardmatrixmethoden wie lineare Regression, SVD usw. verwenden. Bis wir Computer hatten, war L2 das einzige Spiel in der Stadt für viele Probleme, weshalb jeder ANOVA, T-Tests usw. Verwendet Es ist auch einfacher, mit L2-Verlust eine genaue Antwort mit vielen ausgefalleneren Methoden wie Gaußschen Prozessen zu erhalten, als mit anderen Verlustfunktionen eine genaue Antwort zu erhalten.
In ähnlicher Weise können Sie den L2-Verlust genau mit einer Taylor-Näherung 2. Ordnung erhalten, was bei den meisten Verlustfunktionen (z. B. Kreuzentropie) nicht der Fall ist. Dies erleichtert die Optimierung mit Methoden 2. Ordnung wie der Newtonschen Methode. Viele Methoden für den Umgang mit anderen Verlustfunktionen verwenden aus demselben Grund immer noch Methoden für den L2-Verlust unter der Haube (z. B. iterativ neu gewichtete kleinste Quadrate, integrierte verschachtelte Laplace-Näherungen).
L2 ist eng mit Gaußschen Verteilungen verwandt, und der zentrale Grenzwertsatz macht Gaußsche Verteilungen üblich. Wenn Ihr Datenerzeugungsprozess (bedingt) Gaußsch ist, ist L2 der effizienteste Schätzer.
Der L2-Verlust zersetzt sich aufgrund des Gesetzes der Gesamtvarianz gut. Dadurch lassen sich bestimmte grafische Modelle mit latenten Variablen besonders einfach anpassen.
L2 bestraft schreckliche Vorhersagen überproportional. Das kann gut oder schlecht sein, ist aber oft ziemlich vernünftig. Eine stundenlange Wartezeit kann im Durchschnitt viermal so schlimm sein wie eine 30-minütige Wartezeit, wenn dadurch viele Personen ihre Termine verpassen.
quelle