Normalerweise wird bei der Durchführung linearer Regressionsvorhersagen und des Gradientenabfalls das Maß für das Fehlerniveau für eine bestimmte Linie durch die Summe der quadratischen Abstandswerte gemessen.
Warum Entfernung im Quadrat ?
In den meisten Erklärungen, die ich gehört habe, behaupten sie:
- Die Funktion selbst spielt keine Rolle
- Das Ergebnis sollte positiv sein, damit positive und negative Abweichungen weiterhin gezählt werden
Ein abs()
Ansatz würde jedoch weiterhin funktionieren. Und ist es nicht unpraktisch, dass der Abstand im Quadrat das Entfernungsergebnis für Entfernungen unter 1 minimiert?
Ich bin mir ziemlich sicher, dass jemand dies bereits in Betracht gezogen haben muss. Warum ist der Abstand im Quadrat der am häufigsten verwendete Ansatz für die lineare Regression?
linear-regression
Alpha
quelle
quelle
Antworten:
Kurzer Hintergrund
Die Fehlermetrik (ein geeigneter Begriff, der im Fragentitel verwendet wird) quantifiziert die Eignung eines linearen oder nichtlinearen Modells.
Es aggregiert einzelne Fehler über eine Reihe von Beobachtungen (Instanzen von Trainingsdaten). Bei einer typischen Verwendung wird eine Fehlerfunktion auf die Differenz zwischen dem vom Modell vorhergesagten abhängigen Variablenvektor und empirischen Beobachtungen angewendet. Diese Unterschiede werden für jede Beobachtung berechnet und dann summiert. 1
Warum Entfernung im Quadrat?
Legendre, der zuerst die Methode der Quadratsumme zur Messung der Fitness des Modells veröffentlichte (Paris 1705), stellte richtig fest, dass das Quadrieren vor dem Summieren zweckmäßig ist. Warum hat er das geschrieben?
Man könnte den Absolutwert des Fehlers oder den Absolutwert seines Würfels verwenden, aber die Diskontinuität der Ableitung des Absolutwerts macht die Funktion NICHT glatt. Funktionen, die NICHT glatt sind, verursachen unnötige Schwierigkeiten bei der Verwendung der linearen Algebra zum Ableiten geschlossener Formen (einfache algebraische Ausdrücke).
Geschlossene Formen sind praktisch, wenn man Steigung und Achsenabschnitt in linearer Regression schnell und einfach berechnen möchte. 2
Gradientenabstieg
Gradientenabstieg wird im Allgemeinen für nichtlineare Regression verwendet. Da für viele nichtlineare Modelle keine geschlossenen Formen erstellt werden können, wird die Iteration zu einer dominanten Methode zur Validierung oder Optimierung des Modells.
Ein intuitives Verständnis des Gefälles kann erreicht werden, indem eine durstige, blinde Person betrachtet wird, die nur an Land nach Wasser sucht, indem sie kalkulierte Schritte unternimmt. (In der Software sind diese Schritte Iterationen.) Der Blinde kann die Richtung des Höhengradienten (Neigungsrichtung) nur mit den Füßen erfassen, um auf eine lokale Mindesthöhe abzusteigen. 3
Jeder, der sagt, dass "die Funktion selbst keine Rolle spielt", in Bezug auf die üblichen Anwendungen des Gradientenabstiegs, wäre eine gefährliche Wahl für den Führer einer blinden Wanderexpedition. Zum Beispiel würde der Kehrwert der Entfernung als Fehlerfunktion wahrscheinlich zur Dehydration und zum Tod der Wanderer führen.
Die Auswahlkriterien für Fehlermetriken sind wichtig, wenn man an der Geschwindigkeit der Konvergenz einer Lösung interessiert ist oder wenn die Lösung jemals gefunden wird. 4
Da der Gradient einer Ebene (lineare Oberfläche) eine Konstante ist, ist die Verwendung des Gradientenabfalls für lineare Modelle verschwenderisch. Die blinde Person muss den Winkel ihres Fußes nicht weiter messen.
Vorzeichen der Fehlermetrik
Die Aussage "Das Ergebnis sollte positiv sein, damit positive und negative Abweichungen weiterhin gezählt werden" ist falsch. 5
Wirksamkeit von Fehlermetriken in Bezug auf 1.0
Da die partielle Ableitung der Fehlermetrik der kleinsten Quadrate in Bezug auf einen Fehler an einem bestimmten Punkt konstant ist, konvergiert die Fehlermetrik der kleinsten Quadrate ähnlich über und unter 1,0.
Anmerkungen
[1] Die Dimensionen der unabhängigen und abhängigen variablen Vektoren eines Modells werden beim maschinellen Lernen üblicherweise als Merkmale bzw. Bezeichnungen bezeichnet.
[2] Eine andere glatte Funktion, wie der Fehler der vierten Potenz, würde ebenfalls zu geschlossenen Formen für Steigung und Achsenabschnitt führen, obwohl sie geringfügig unterschiedliche Ergebnisse liefern würden, wenn der Korrelationskoeffizient ungleich Null ist.
[3] Gradientenabstiegsalgorithmen garantieren im Allgemeinen nicht das Finden eines globalen Minimums. In dem gegebenen Beispiel wäre es möglich zu übersehen, dass ein kleines Loch mit Wasser darin vorhanden ist. Abhängig von den Oberflächenmerkmalen (Gelände) kann die Erfassung des Fußwinkels (Bestimmung des Gefälles) kontraproduktiv sein. Die Suche kann chaotisch werden. Um die intuitive Analogie zu erweitern, sollten Sie in Eschers Relativitätslithographie nach dem Fuß der Treppe suchen.
[4] Damit eine Fehlermetrik unabhängig von der Richtung des Fehlers wahrscheinlich konvergiert und daher bei der Regression nützlich ist, ist das Vorzeichen der Metrik irrelevant. Es ist jede Menge partieller Ableitungen der Fehlermetrik in Bezug auf die entsprechende Menge von Abständen zwischen den Modellvorhersagen und Beobachtungen, die positiv sein sollten, um sich omnidirektional zurückzubilden. Es klingt komplizierter, aber selbst diese korrigierte Aussage ist eine übermäßige Vereinfachung.
[5] Die Fehlermetrik in Anwendungen mit Gradientenabstieg wird häufig mithilfe einer konvexen Funktion berechnet, um ein Überschwingen und mögliche Schwingungen und Nichtkonvergenz zu vermeiden. In einigen Fällen werden andere Fehlerfunktionen als die Summe der Quadrate verwendet. Die Wahl der Funktion hat mit einer Reihe von Faktoren zu tun:
quelle
Die quadratische Form wird manchmal als euklidische Norm oder L2-Norm bezeichnet . Eine seiner sehr hilfreichen Eigenschaften ist, dass es eine leicht definierbare Ableitung hat, die in der mathematischen Analyse verwendet und ziemlich einfach in Code übersetzt werden kann.
Intuitiv wird angenommen, dass es vorteilhaft ist, die Unterschiede entsprechend dem Wert des Fehlers zu übertreiben, was beim Quadrieren der Fall ist. Sie können auch die Potenzen 3 oder 4 verwenden, aber die Ableitung ist komplexer.
Abhängig von den besonderen Umständen des vorliegenden Problems können verschiedene Normen verwendet werden.
quelle
Eine Rechtfertigung ergibt sich aus dem zentralen Grenzwertsatz. Wenn das Rauschen in Ihren Daten das Ergebnis der Summe vieler unabhängiger Effekte ist, ist es in der Regel normal verteilt. Und normalverteilt bedeutet, dass die Wahrscheinlichkeit der Daten umgekehrt proportional zum Exponential des Quadrats der Entfernung zum Mittelwert ist.
Mit anderen Worten, das Minimieren der Summe der Quadrate des Abstands zum Mittelwert läuft darauf hinaus, den wahrscheinlichsten Wert für die Linie zu finden, vorausgesetzt, der Fehler ist normal verteilt. Dies ist sehr oft eine vernünftige Annahme, aber es ist natürlich nicht immer wahr.
quelle
Es leitet sich einfach aus der Maximum-Likelihood-Schätzung ab. Wo wir die Log-Likelihood-Funktion maximieren, finden Sie in dieser Vorlesung detaillierte Informationen: Die Methode der maximalen Wahrscheinlichkeit für eine einfache lineare Regression .
quelle
Eine Rechtfertigung ist, dass die L2-Norm unter Homoskedastizität den unverzerrten Schätzer für die minimale Varianz (MVUE) erzeugt, siehe Gauß-Markov-Theorem. Dies bedeutet, dass die angepassten Werte die bedingten Erwartungen angesichts der erklärenden Variablen sind, was in vielen Fällen eine schöne Eigenschaft ist. Ferner ist es der beste Schätzer, wenn die vorherige Eigenschaft wünschenswert ist.
Als Antwort auf die Behauptung, dass die Funktion selbst keine Rolle spielt, ergeben verschiedene Funktionen Lösungen mit sehr unterschiedlichen Eigenschaften, und es wurden große Anstrengungen unternommen, um geeignete Straffunktionen zu finden, siehe beispielsweise Ridge-Regression und LASSO. Die Straffunktion spielt eine Rolle.
Bearbeiten: Als Antwort auf Ihre Frage zu Entfernungen unter 1 geht nichts "schief", wenn die Entfernungen kleiner als 1 sind. Wir möchten die Entfernung immer minimieren, und der quadratische Verlust tut dies überall.
quelle