Warum verwenden Kostenfunktionen den quadratischen Fehler?

73

Ich fange gerade erst mit maschinellem Lernen an und beschäftige mich bisher mit linearer Regression über eine Variable.

Ich habe gelernt, dass es eine Hypothese gibt:

hθ(x)=θ0+θ1x

Um gute Werte für die Parameter herauszufinden und wir den Unterschied zwischen dem berechneten Ergebnis und dem tatsächlichen Ergebnis unserer Testdaten minimieren möchten. Also subtrahieren wirθ 1θ0θ1

hθ(x(i))y(i)

für alle von bis . Daher berechnen wir die Summe über diese Differenz und berechnen dann den Durchschnitt, indem wir die Summe mit multiplizieren . So weit, ist es gut. Dies hätte zur Folge:1 m 1i1m1m

1mi=1mhθ(x(i))y(i)

Dies wurde jedoch nicht vorgeschlagen. Stattdessen empfiehlt der Kurs, den Quadratwert der Differenz zu nehmen und mit zu multiplizieren . Die Formel lautet also:12m

12mi=1m(hθ(x(i))y(i))2

Warum ist das so? Warum verwenden wir hier die Quadratfunktion und warum multiplizieren wir mit anstelle von ? 112m1m

Golo Roden
quelle
3
Zugehörige Fragen unter stats.stackexchange.com
user1205197
Schauen Sie sich auch Chris McCormicks Erklärung auf goo.gl/VNiUR5
vimdude
weil es eine Bregman-Abweichung ist
Andrew

Antworten:

41

Ihr Verlust Funktion würde nicht funktionieren , weil es Einstellung incentivizes einen endlichen Wert und zu .θ1θ0

Nennen wir das Residuum für .r(x,y)=1mi=1mhθ(x(i))yhh

Ihr Ziel ist es, so nahe wie möglich an Null zu bringen und nicht nur zu minimieren . Ein hoher negativer Wert ist genauso schlecht wie ein hoher positiver Wert.r

BEARBEITEN: Sie können dem entgegenwirken, indem Sie den Parameterraum künstlich begrenzen (z. B. möchten Sie ). In diesem Fall würden die optimalen Parameter an bestimmten Punkten an der Grenze des Parameterraums liegen. Siehe https://math.stackexchange.com/q/896388/12467 . Das ist nicht was du willst.Θ|θ0|<10

Warum verwenden wir den Quadratverlust?

Der quadratische Fehler zwingt und zur Übereinstimmung. Wenn möglich, wird es bei minimiert und ist immer , da es ein Quadrat der reellen Zahl .h(x)yu=v0uv

|uv|würde auch für den obigen Zweck funktionieren, wie mit einer positiven ganzen Zahl. Die erste davon ist tatsächlich verwendet (es ist die genannte Verlust, man könnte auch über die kommen Verlust, der ein anderer Name für quadratische Fehler ist).(uv)2nn12

Warum ist der Quadratverlust also besser als diese? Dies ist eine tiefe Frage im Zusammenhang mit der Verbindung zwischen häufigem und bayesianischem Schluss. Kurz gesagt, der quadratische Fehler bezieht sich auf das Gaußsche Rauschen .

Wenn Ihre Daten nicht genau zu allen Punkten passen, dh für einen bestimmten Punkt nicht Null ist, unabhängig davon, welches Sie wählen (wie dies in der Praxis immer der Fall ist), kann dies an Rauschen liegen . In jedem komplexen System gibt es viele kleine seine unabhängigen Ursachen für den Unterschied zwischen Ihrem Modell und Wirklichkeit : Messfehler, Umweltfaktoren etc. Unter dem zentralen Grenzwertsatz (CLT), würde das Gesamtrauschen verteilt Normalerweise , das heißt nach dem Gaußsche Verteilung . Wir wollen die beste Lösung wählenh(x)yθ h yθunter Berücksichtigung dieser Geräuschverteilung. Angenommen, , der Teil von , den Ihr Modell nicht erklären kann, folgt der Gaußschen Verteilung . Wir verwenden Großbuchstaben, weil wir jetzt über Zufallsvariablen sprechen.R=h(X)YyN(μ,σ)

Die Gaußsche Verteilung hat zwei Parameter: Mittelwert und Varianz . Sehen Sie hier , um diese Begriffe besser zu verstehen.μ=E[R]=1mihθ(X(i))Y(i))σ2=E[R2]=1mi(hθ(X(i))Y(i)))2

  • Betrachten , ist es der systematische Fehler unserer Messungen. Verwenden Sie , um systematische Fehler zu korrigieren, sodass (Übung für den Leser). Hier gibt es nichts anderes zu tun.μh(x)=h(x)μμ=E[R]=0

  • σ repräsentiert den Zufallsfehler , auch Rauschen genannt . Wenn wir uns wie im vorigen Punkt um die systematische Rauschkomponente gekümmert haben, wird der beste Prädiktor erhalten, wenn wird minimiert. Anders ausgedrückt ist der beste Prädiktor derjenige mit der engsten Verteilung (kleinste Varianz) um den vorhergesagten Wert, dh der kleinsten Varianz. Das Minimieren des kleinsten quadratischen Verlusts ist dasselbe wie das Minimieren der Varianz! Dies erklärt, warum der kleinste quadratische Verlust für eine Vielzahl von Problemen geeignet ist. Das zugrunde liegende Rauschen ist aufgrund der CLT sehr oft Gaußsch und die Minimierung des quadratischen Fehlers stellt sich als richtig herausσ2=1mi(hθ(X(i))Y(i)))2 etwas zu tun!

Um gleichzeitig sowohl den Mittelwert und die Varianz zu berücksichtigen, wir sind ein Bias - Begriff in unserem Klassifizierer (zu handhaben systematische Fehler ), minimieren dann den Platz Verlust.μ

Folgefragen:

  • 1|xμ|(xμ)21

    • 1
  • Gibt es Situationen, in denen wir sowohl den Mittelwert als auch die Varianz minimieren? Ja. Look up Bias-Variance Tradeoff . Hier sehen wir uns eine Reihe von Klassifikatoren und fragen, welche unter ihnen die beste ist. Wenn wir uns fragen, welcher Satz von Klassifikatoren für ein Problem am besten geeignet ist, wird es wichtig, sowohl die Verzerrung als auch die Varianz zu minimieren. Es stellt sich heraus, dass es immer einen Kompromiss zwischen ihnen gibt und wir verwenden Regularisierung , um einen Kompromiss zu erzielen.hθH

In Bezug auf den Begriff12

Die 1/2 spielt keine Rolle und eigentlich auch nicht die - sie sind beide Konstanten. Der optimale Wert von würde in beiden Fällen gleich bleiben.mθ

  • Der Ausdruck für den Farbverlauf wird mit hübscher , da die 2 aus dem Quadrat-Term entfällt.12

    • Beim Schreiben von Code oder Algorithmen geht es in der Regel mehr um den Farbverlauf, daher ist es hilfreich, ihn präzise zu halten. Sie können den Fortschritt überprüfen, indem Sie die Norm des Verlaufs überprüfen. Die Verlustfunktion selbst wird manchmal im Code weggelassen, da sie nur zur Validierung der endgültigen Antwort verwendet wird.
  • Das ist nützlich, wenn Sie dieses Problem mit einem Gefälle lösen. Dann wird Ihr Verlauf zum Durchschnitt von Termen anstelle einer Summe, sodass sich seine Skalierung nicht ändert, wenn Sie weitere Datenpunkte hinzufügen.mm

    • Ich bin bereits auf dieses Problem gestoßen: Ich teste Code mit einer kleinen Anzahl von Punkten und es funktioniert einwandfrei, aber wenn Sie ihn mit dem gesamten Datensatz testen, kommt es zu Genauigkeitsverlusten und manchmal zu Über- / Unterläufen, dh Ihr Farbverlauf wird nanoder inf. Um dies zu vermeiden, normalisieren Sie einfach die Anzahl der Datenpunkte.
  • Diese ästhetischen Entscheidungen werden hier verwendet, um die Konsistenz mit zukünftigen Gleichungen zu gewährleisten, in denen Sie Regularisierungsterme hinzufügen . Wenn Sie das einschließen , hängt der Regularisierungsparameter nicht von der Größe des Datensatzes und ist problemübergreifend besser interpretierbar.mλm

Hart
quelle
Sie sagten: "Wenn Sie die Ableitung nehmen, ist der Ausdruck schöner, weil die 2 die 2 aus dem quadratischen Term auslöscht." Aber warum wollen wir seine Ableitung nehmen?
DrGeneral
In der Regel optimieren wir den Verlust mithilfe des Gradientenabfalls, für den das Derivat verwendet werden muss. Ich habe das nicht erwähnt, weil es aus dem Zusammenhang dieser Frage klar sein sollte.
Harte
1
Hart, vergib mir meine Naivität, aber warum nicht den absoluten Wert anstelle des Quadrats verwenden?
Alexander Suraphel
1
Absoluter Fehler kann auch funktionieren, aber in diesem Fall wird der erwartete Medianwert anstelle des Mittelwerts verwendet. Nehmen Sie eine kleine Liste von Zahlen und sehen Sie, wie sich der Verlust unterscheidet, indem Sie Ihre Schätzung verschieben (sowohl für den quadratischen als auch den absoluten Fehler)
Jan van der Vegt
@ Alexander Suraphel Sorry für die Verzögerung bei der Beantwortung :) Ich habe einen Abschnitt oben hinzugefügt, um das zu beheben
Harsh
25

Der Koeffizient 1/2 dient lediglich der Vereinfachung. Dadurch wird die Ableitung, bei der es sich um die tatsächlich zu optimierende Funktion handelt, attraktiver. Das 1 / m ist grundlegender; es deutet darauf hin, dass wir am mittleren quadratischen Fehler interessiert sind . Dies ermöglicht Ihnen faire Vergleiche beim Ändern der Stichprobengröße und verhindert ein Überlaufen. Sogenannte "stochastische" Optimierer verwenden eine Teilmenge des Datensatzes (m '<m). Wenn Sie einen Regularizer (einen additiven Term zur Zielfunktion) einführen, können Sie mit dem Faktor 1 / m unabhängig von der Stichprobengröße denselben Koeffizienten für den Regularizer verwenden.

Was die Frage betrifft, warum das Quadrat und nicht einfach der Unterschied: Wollen Sie nicht, dass Unterschätzungen ähnlich wie Überschätzungen bestraft werden? Durch Quadrieren wird die Auswirkung des Vorzeichens des Fehlers beseitigt. Die Verwendung des Absolutwerts (L1-Norm) ist ebenfalls möglich, die Ableitung ist jedoch im Ursprung nicht definiert, sodass die Verwendung komplexer ist. Die L1-Norm hat ihre Verwendung. Denken Sie also daran und fragen Sie den Lehrer, ob er sie behandeln wird.

Emre
quelle
4
Zusätzlich zur Differenzierbarkeit ist die Norm in den Normen insofern einzigartig , als es sich um einen Hilbert-Raum handelt. Die Tatsache, dass die Norm von einem inneren Produkt herrührt, stellt eine große Menge von Maschinen für Verfügung, die für andere Normen nicht verfügbar sind. L p L 2L2LpL2
Steven Gubkin
6

Das Fehlermaß in der Verlustfunktion ist eine "statistische Distanz"; im Gegensatz zum populären und vorläufigen Verständnis der Distanz zwischen zwei Vektoren im euklidischen Raum. Mit 'statistischer Distanz' versuchen wir, die 'Disähnlichkeit' zwischen geschätztem Modell und optimalem Modell auf den euklidischen Raum abzubilden.

Es gibt keine einschränkende Regel in Bezug auf die Formulierung dieser "statistischen Distanz", aber wenn die Wahl angemessen ist, führt eine fortschreitende Verringerung dieser "Distanz" während der Optimierung zu einer fortschreitenden Verbesserung der Modellschätzung. Folglich hängt die Wahl des statistischen Abstands oder des Fehlermaßes von der zugrunde liegenden Datenverteilung ab.

Tatsächlich gibt es mehrere genau definierte Abstands- / Fehlermaßnahmen für verschiedene Klassen statistischer Verteilungen. Es wird empfohlen, das Fehlermaß basierend auf der Verteilung der vorliegenden Daten auszuwählen. Es kommt einfach so vor, dass die Gaußsche Verteilung allgegenwärtig ist und folglich das zugehörige Abstandsmaß, die L2-Norm, das beliebteste Fehlermaß ist. Dies ist jedoch keine Regel, und es gibt reale Daten, für die eine "effiziente" * Optimierungsimplementierung ein anderes Fehlermaß als die L2-Norm verwenden würde.

Betrachten Sie die Menge der Bregman-Divergenzen . Die kanonische Darstellung dieses Divergenzmaßes ist die L2-Norm (quadratischer Fehler). Es umfasst auch die relative Entropie (Kullback-Liebler-Divergenz), die verallgemeinerte euklidische Distanz (Mahalanobis-Metrik) und die Itakura-Saito-Funktion. Sie können mehr darüber in diesem Artikel über funktionale Bregman-Divergenz und Bayes'sche Schätzung von Verteilungen lesen .

Take-away: Die L2-Norm hat eine interessante Reihe von Eigenschaften, die sie zu einer beliebten Wahl für die Fehlermessung machen (andere Antworten hier haben einige davon erwähnt, die für den Umfang dieser Frage ausreichen), und der quadratische Fehler ist der geeignete Wahl die meiste Zeit. Wenn die Datenverteilung dies erfordert, stehen jedoch alternative Fehlermaßnahmen zur Auswahl, und die Auswahl hängt zu einem großen Teil von der Formulierung der Optimierungsroutine ab.

* Das "geeignete" Fehlermaß würde die Verlustfunktion für die Optimierung konvex machen, was sehr hilfreich ist, im Gegensatz zu einem anderen Fehlermaß, bei dem die Verlustfunktion nicht konvex und damit notorisch schwierig ist.

Dynamischer Sternenstaub
quelle
5

Zusätzlich zu den wichtigsten Punkten, die von anderen gemacht wurden, wird bei der Verwendung eines quadratischen Fehlers ein größerer Fehler in den Vordergrund gerückt (was passiert mit 1/2, wenn Sie es mit 3/2 quadrieren?).

Ein Algorithmus, der die gebrochenen Fehler verschiebt, der wahrscheinlich zu einer korrekten Klassifizierung oder zu einer sehr kleinen Differenz zwischen Schätzung und Grundwahrheit führen würde, wenn er nahe Null belassen würde, während die großen Fehler als große Fehler oder Fehlklassifizierungen zurückbleiben, ist kein wünschenswertes Merkmal von ein Algorithmus.

Bei Verwendung eines quadratischen Fehlers wird der Fehler als implizites Wichtigkeitsgewicht für die Anpassung der Vorhersage verwendet.

Bobv
quelle
Also
3

In Ihrer Formulierung versuchen Sie, die mittlere Abweichung Ihrer Näherung von den beobachteten Daten zu ermitteln.

Wenn der Mittelwert Ihrer Näherung nahe am Mittelwert der beobachteten Daten liegt oder diesem entspricht (was wünschenswert ist und bei vielen Näherungsverfahren häufig vorkommt), ist das Ergebnis Ihrer Formulierung null oder vernachlässigbar, da positive Fehler negative Fehler ausgleichen fehler. Dies könnte zu der Schlussfolgerung führen, dass Ihre Annäherung bei jeder beobachteten Stichprobe wunderbar ist, obwohl dies möglicherweise nicht der Fall ist. Aus diesem Grund verwenden Sie bei jeder Stichprobe das Quadrat des Fehlers und addieren diese (Sie sind an der Reihe, wenn jeder Fehler positiv ist).

Dies ist natürlich nur eine mögliche Lösung, da Sie anstelle der L2-Norm die L1-Norm (absoluter Wert des Fehlers bei jeder Stichprobe) oder viele andere hätten verwenden können.

W641
quelle