Was wäre ein Beispiel dafür, wenn L2 eine gute Verlustfunktion zur Berechnung eines posterioren Verlusts ist?

9

Der L2-Verlust ist zusammen mit dem L0- und L1-Verlust drei eine sehr häufige "Standard" -Verlustfunktion, die verwendet wird, wenn ein Posterior durch den minimalen posterioren erwarteten Verlust zusammengefasst wird. Ein Grund dafür ist vielleicht, dass sie relativ einfach zu berechnen sind (zumindest für 1d-Verteilungen), L0 ergibt den Modus, L1 im Median und L2 ergibt den Mittelwert. Beim Unterrichten kann ich Szenarien entwickeln, in denen L0 und L1 vernünftige Verlustfunktionen sind (und nicht nur "Standard"), aber ich habe Probleme mit einem Szenario, in dem L2 eine vernünftige Verlustfunktion wäre. Also meine Frage:

Was wäre aus pädagogischen Gründen ein Beispiel dafür, wenn L2 eine gute Verlustfunktion zur Berechnung eines minimalen posterioren Verlusts ist?

Für L0 ist es einfach, Szenarien aus Wetten zu entwickeln. Angenommen, Sie haben einen Posterior über die Gesamtzahl der Tore in einem bevorstehenden Fußballspiel berechnet und werden eine Wette abschließen, bei der Sie $$$ gewinnen, wenn Sie die Anzahl der Tore richtig erraten und ansonsten verlieren. Dann ist L0 eine vernünftige Verlustfunktion.

Mein L1-Beispiel ist etwas erfunden. Sie treffen eine Freundin, die an einem der vielen Flughäfen ankommt und dann mit dem Auto zu Ihnen fährt. Das Problem ist, dass Sie nicht wissen, welcher Flughafen (und Ihre Freundin nicht anrufen können, weil sie in der Luft ist). Wenn man bedenkt, auf welchem ​​Flughafen sie landen könnte, wo kann man sich gut positionieren, damit der Abstand zwischen ihr und Ihnen bei ihrer Ankunft gering ist? Hier erscheint der Punkt, der den erwarteten L1-Verlust minimiert, vernünftig, wenn man die vereinfachenden Annahmen trifft, dass ihr Auto mit konstanter Geschwindigkeit direkt zu Ihrem Standort fährt. Das heißt, eine Wartezeit von einer Stunde ist doppelt so schlecht wie eine Wartezeit von 30 Minuten.

Rasmus Bååth
quelle
Warnung: L0 führt nicht zum Modus für kontinuierliche Probleme ....
Xi'an
Hmm, ja, ich weiß, dass es etwas schlampig ist, L0 -> Modus zu sagen.
Rasmus Bååth
2
Wenn Sie das Gesetz des umgekehrten Quadrats betrachten und mehrere Lichtquellen so platziert haben, dass jeder Punkt im Raum, den wir auswählen können, von allen außer der nächsten Quelle vernachlässigbares Licht erhält, wäre die Verwendung des L2-Verlusts gleichbedeutend mit dem Wunsch, beispielsweise die Anzahl zu minimieren von Sekunden pro empfangenem Lumen. Ich kann mir nicht vorstellen, warum Sie das tun möchten, anstatt die Lumen pro Sekunde zu maximieren.
Unfallstatistiker

Antworten:

4
  1. L2 ist "einfach". Es ist das, was Sie standardmäßig erhalten, wenn Sie Standardmatrixmethoden wie lineare Regression, SVD usw. verwenden. Bis wir Computer hatten, war L2 das einzige Spiel in der Stadt für viele Probleme, weshalb jeder ANOVA, T-Tests usw. Verwendet Es ist auch einfacher, mit L2-Verlust eine genaue Antwort mit vielen ausgefalleneren Methoden wie Gaußschen Prozessen zu erhalten, als mit anderen Verlustfunktionen eine genaue Antwort zu erhalten.

  2. In ähnlicher Weise können Sie den L2-Verlust genau mit einer Taylor-Näherung 2. Ordnung erhalten, was bei den meisten Verlustfunktionen (z. B. Kreuzentropie) nicht der Fall ist. Dies erleichtert die Optimierung mit Methoden 2. Ordnung wie der Newtonschen Methode. Viele Methoden für den Umgang mit anderen Verlustfunktionen verwenden aus demselben Grund immer noch Methoden für den L2-Verlust unter der Haube (z. B. iterativ neu gewichtete kleinste Quadrate, integrierte verschachtelte Laplace-Näherungen).

  3. L2 ist eng mit Gaußschen Verteilungen verwandt, und der zentrale Grenzwertsatz macht Gaußsche Verteilungen üblich. Wenn Ihr Datenerzeugungsprozess (bedingt) Gaußsch ist, ist L2 der effizienteste Schätzer.

  4. Der L2-Verlust zersetzt sich aufgrund des Gesetzes der Gesamtvarianz gut. Dadurch lassen sich bestimmte grafische Modelle mit latenten Variablen besonders einfach anpassen.

  5. L2 bestraft schreckliche Vorhersagen überproportional. Das kann gut oder schlecht sein, ist aber oft ziemlich vernünftig. Eine stundenlange Wartezeit kann im Durchschnitt viermal so schlimm sein wie eine 30-minütige Wartezeit, wenn dadurch viele Personen ihre Termine verpassen.

David J. Harris
quelle
2
Hmm, was ich wollte, war eher eine Entscheidungssituation, in der L2 eine vernünftige Verlustfunktion wäre. Wie das Szenario ähnlich den beiden Beispielen in meiner Frage, aber für L2.
Rasmus Bååth
1
@ RasmusBååth Ich bin mir nicht sicher ein Argument für genau den Verlust (abgesehen von seiner Verbindung mit Gauß - Daten-Erzeugungsprozessen in # 3) quadriert, aber # 5 ist ein Argument für eine Beschleunigung der Verlustfunktion irgendeine Art. In zweiter Ordnung entspricht jede solche Funktion dem L2-Verlust.
David J. Harris
@ DavidJ.Harris Eigentlich ist # 5 falsch. In einem solchen Fall würden Sie den Verlust von L1 abs (xy) verwenden, um Frustration = Zeit² zu minimieren. Wenn Sie (xy) ² Zeitverlust verwenden, wie Sie vorgeschlagen haben, erhalten Sie tatsächlich ein suboptimales Ergebnis.
Mhor Mé
@ MhorMé Ich denke, ich muss dich missverstehen. Es hört sich so an, als würden Sie sagen, dass der beste Weg zur Minimierung des quadratischen Fehlers darin besteht, den absoluten Verlust und nicht die L2-Norm zu minimieren .
David J. Harris
@ DavidJ.Harris Ja, ich habe versucht, darauf hinzuweisen, dass dies ein Problem der Minimierung von "Schlechtigkeit" (= Zeitunterschied²) und nicht der Wartezeit ist, aber ich glaube, ich habe das Gedankenexperiment ursprünglich falsch verstanden. Jetzt, wo ich es noch einmal lese, ist L2 ein legitimer Weg, um von der Minimierung des Zeitunterschieds zur Minimierung der "Schlechtigkeit" überzugehen. Ich muss jedoch sagen, dass es für einen Programmierer am besten ist, zuerst richtig zu identifizieren, welche "Schlechtigkeit" er minimieren möchte, dann diesen Wert zu erhalten und dann über L1 zu minimieren. In diesem Fall erhalten Sie zuerst (Zeitdifferenz) ² und minimieren dann den L1-Verlust. Gehen Sie mit L2 nur, wenn Sie wissen, was Sie tun.
Mhor Mé