Lineare Regression: Warum wird der Abstand * im Quadrat * als Fehlermetrik verwendet?

7

Normalerweise wird bei der Durchführung linearer Regressionsvorhersagen und des Gradientenabfalls das Maß für das Fehlerniveau für eine bestimmte Linie durch die Summe der quadratischen Abstandswerte gemessen.

Warum Entfernung im Quadrat ?

In den meisten Erklärungen, die ich gehört habe, behaupten sie:

  • Die Funktion selbst spielt keine Rolle
  • Das Ergebnis sollte positiv sein, damit positive und negative Abweichungen weiterhin gezählt werden

Ein abs()Ansatz würde jedoch weiterhin funktionieren. Und ist es nicht unpraktisch, dass der Abstand im Quadrat das Entfernungsergebnis für Entfernungen unter 1 minimiert?

Ich bin mir ziemlich sicher, dass jemand dies bereits in Betracht gezogen haben muss. Warum ist der Abstand im Quadrat der am häufigsten verwendete Ansatz für die lineare Regression?

Alpha
quelle
1
Vielen Dank für Ihre Antworten - alle waren in gewisser Weise sehr informativ und alle haben meine Fragen aus verschiedenen Blickwinkeln beantwortet. Ich denke, ich werde diese Community mögen. :)
Alpha
1
Ich stimme dafür, diese Frage als nicht zum Thema gehörend zu schließen (siehe in der Hilfe definierter Bereich). Derzeit wird lieber auf Cross Validated migriert, um eine Antwort zu erhalten.
Eric Platon
@EricPlaton, die Funktionen zur Messung der Eignung eines Modells für empirische Daten sind für das Lernen von zentraler Bedeutung. Obwohl die lineare Regression Jahrhunderte alt ist und heute möglicherweise kein Bereich bedeutender Forschung ist, ist die Einstufung dieser Frage als nicht zum Thema des maschinellen Lernens gehörig wie die Feststellung, dass die Verlegenheit, vor Familie und Gleichaltrigen auf dem Boden zu landen, nichts mit dem Erlernen des Fahrens zu tun hat ein Fahrrad.
FauChristian
1
Wenn die Funktion keine Rolle spielt, wie konvergent wäre f (e) = e ^ (- 2)? Wenn die Funktion positiv sein muss, warum würde f (e) = x ^ 2 - 10 ^ (100) nicht die gleichen linearen Regressionsformeln wie x ^ 2 + 10 ^ (100) erzeugen? Warum sollte man die Zeit verschwenden, um den Gradientenabstieg für ein lineares Modell zu verwenden? ... Vielleicht möchten Sie die Richtigkeit unserer Quellen in Frage stellen.
FauChristian

Antworten:

4

Kurzer Hintergrund

Die Fehlermetrik (ein geeigneter Begriff, der im Fragentitel verwendet wird) quantifiziert die Eignung eines linearen oder nichtlinearen Modells.

Es aggregiert einzelne Fehler über eine Reihe von Beobachtungen (Instanzen von Trainingsdaten). Bei einer typischen Verwendung wird eine Fehlerfunktion auf die Differenz zwischen dem vom Modell vorhergesagten abhängigen Variablenvektor und empirischen Beobachtungen angewendet. Diese Unterschiede werden für jede Beobachtung berechnet und dann summiert. 1

Warum Entfernung im Quadrat?

Legendre, der zuerst die Methode der Quadratsumme zur Messung der Fitness des Modells veröffentlichte (Paris 1705), stellte richtig fest, dass das Quadrieren vor dem Summieren zweckmäßig ist. Warum hat er das geschrieben?

Man könnte den Absolutwert des Fehlers oder den Absolutwert seines Würfels verwenden, aber die Diskontinuität der Ableitung des Absolutwerts macht die Funktion NICHT glatt. Funktionen, die NICHT glatt sind, verursachen unnötige Schwierigkeiten bei der Verwendung der linearen Algebra zum Ableiten geschlossener Formen (einfache algebraische Ausdrücke).

Geschlossene Formen sind praktisch, wenn man Steigung und Achsenabschnitt in linearer Regression schnell und einfach berechnen möchte. 2

Gradientenabstieg

Gradientenabstieg wird im Allgemeinen für nichtlineare Regression verwendet. Da für viele nichtlineare Modelle keine geschlossenen Formen erstellt werden können, wird die Iteration zu einer dominanten Methode zur Validierung oder Optimierung des Modells.

Ein intuitives Verständnis des Gefälles kann erreicht werden, indem eine durstige, blinde Person betrachtet wird, die nur an Land nach Wasser sucht, indem sie kalkulierte Schritte unternimmt. (In der Software sind diese Schritte Iterationen.) Der Blinde kann die Richtung des Höhengradienten (Neigungsrichtung) nur mit den Füßen erfassen, um auf eine lokale Mindesthöhe abzusteigen. 3

Jeder, der sagt, dass "die Funktion selbst keine Rolle spielt", in Bezug auf die üblichen Anwendungen des Gradientenabstiegs, wäre eine gefährliche Wahl für den Führer einer blinden Wanderexpedition. Zum Beispiel würde der Kehrwert der Entfernung als Fehlerfunktion wahrscheinlich zur Dehydration und zum Tod der Wanderer führen.

Die Auswahlkriterien für Fehlermetriken sind wichtig, wenn man an der Geschwindigkeit der Konvergenz einer Lösung interessiert ist oder wenn die Lösung jemals gefunden wird. 4

Da der Gradient einer Ebene (lineare Oberfläche) eine Konstante ist, ist die Verwendung des Gradientenabfalls für lineare Modelle verschwenderisch. Die blinde Person muss den Winkel ihres Fußes nicht weiter messen.

Vorzeichen der Fehlermetrik

Die Aussage "Das Ergebnis sollte positiv sein, damit positive und negative Abweichungen weiterhin gezählt werden" ist falsch. 5

Wirksamkeit von Fehlermetriken in Bezug auf 1.0

Da die partielle Ableitung der Fehlermetrik der kleinsten Quadrate in Bezug auf einen Fehler an einem bestimmten Punkt konstant ist, konvergiert die Fehlermetrik der kleinsten Quadrate ähnlich über und unter 1,0.

Anmerkungen

[1] Die Dimensionen der unabhängigen und abhängigen variablen Vektoren eines Modells werden beim maschinellen Lernen üblicherweise als Merkmale bzw. Bezeichnungen bezeichnet.

[2] Eine andere glatte Funktion, wie der Fehler der vierten Potenz, würde ebenfalls zu geschlossenen Formen für Steigung und Achsenabschnitt führen, obwohl sie geringfügig unterschiedliche Ergebnisse liefern würden, wenn der Korrelationskoeffizient ungleich Null ist.

[3] Gradientenabstiegsalgorithmen garantieren im Allgemeinen nicht das Finden eines globalen Minimums. In dem gegebenen Beispiel wäre es möglich zu übersehen, dass ein kleines Loch mit Wasser darin vorhanden ist. Abhängig von den Oberflächenmerkmalen (Gelände) kann die Erfassung des Fußwinkels (Bestimmung des Gefälles) kontraproduktiv sein. Die Suche kann chaotisch werden. Um die intuitive Analogie zu erweitern, sollten Sie in Eschers Relativitätslithographie nach dem Fuß der Treppe suchen.

[4] Damit eine Fehlermetrik unabhängig von der Richtung des Fehlers wahrscheinlich konvergiert und daher bei der Regression nützlich ist, ist das Vorzeichen der Metrik irrelevant. Es ist jede Menge partieller Ableitungen der Fehlermetrik in Bezug auf die entsprechende Menge von Abständen zwischen den Modellvorhersagen und Beobachtungen, die positiv sein sollten, um sich omnidirektional zurückzubilden. Es klingt komplizierter, aber selbst diese korrigierte Aussage ist eine übermäßige Vereinfachung.

[5] Die Fehlermetrik in Anwendungen mit Gradientenabstieg wird häufig mithilfe einer konvexen Funktion berechnet, um ein Überschwingen und mögliche Schwingungen und Nichtkonvergenz zu vermeiden. In einigen Fällen werden andere Fehlerfunktionen als die Summe der Quadrate verwendet. Die Wahl der Funktion hat mit einer Reihe von Faktoren zu tun:

  • Das Modell, an das die Daten angepasst werden sollen
  • Faktoren, von denen erwartet wird, dass sie Abweichungen der Beobachtungen (Trainingsdaten) vom Modell beeinflussen oder tatsächlich beeinflussen
  • Rechenressourcen relativ zur Größe des Datensatzes
Douglas Daseeco
quelle
4

Die quadratische Form wird manchmal als euklidische Norm oder L2-Norm bezeichnet . Eine seiner sehr hilfreichen Eigenschaften ist, dass es eine leicht definierbare Ableitung hat, die in der mathematischen Analyse verwendet und ziemlich einfach in Code übersetzt werden kann.

Intuitiv wird angenommen, dass es vorteilhaft ist, die Unterschiede entsprechend dem Wert des Fehlers zu übertreiben, was beim Quadrieren der Fall ist. Sie können auch die Potenzen 3 oder 4 verwenden, aber die Ableitung ist komplexer.

Abhängig von den besonderen Umständen des vorliegenden Problems können verschiedene Normen verwendet werden.

Colin Beckingham
quelle
1
Einige Vorschläge: Beantworten Sie auch die zweite Frage zu Entfernungen unter 1. Die beiden Aufzählungszeichen in der Mitte der Frage sind falsch und sollten angefochten werden. Der Begriff Euklidische Norm hat laut den Leuten in Wolfram eine mehrdeutige Bedeutung (und das wird überprüft), daher möchte die L2-Norm möglicherweise der einzige abgekürzte Begriff sein, der für die Fehlermethode der kleinsten Quadrate erwähnt wird.
FauChristian
2

Eine Rechtfertigung ergibt sich aus dem zentralen Grenzwertsatz. Wenn das Rauschen in Ihren Daten das Ergebnis der Summe vieler unabhängiger Effekte ist, ist es in der Regel normal verteilt. Und normalverteilt bedeutet, dass die Wahrscheinlichkeit der Daten umgekehrt proportional zum Exponential des Quadrats der Entfernung zum Mittelwert ist.

Mit anderen Worten, das Minimieren der Summe der Quadrate des Abstands zum Mittelwert läuft darauf hinaus, den wahrscheinlichsten Wert für die Linie zu finden, vorausgesetzt, der Fehler ist normal verteilt. Dies ist sehr oft eine vernünftige Annahme, aber es ist natürlich nicht immer wahr.

Zitronenrose
quelle
1
Quantenrauschen ist teuer in der Erzeugung und selten. Die meisten Abweichungen zwischen theoretischen Modellen und empirischen Daten sind systematisch, oft chaotisch und weisen Verteilungen auf, die bei weitem nicht normal sind. Die Verwendung eines Quadrats kann, wie Sie angegeben haben, gut mit der Q-Funktion ausgerichtet sein, aber dies ist nicht der historische oder gegenwärtige Grund für das Quadrat. Kontinuierliche Funktionen ermöglichen die Anwendung der linearen Algebra, um geschlossene Formen für die Steigung und den Achsenabschnitt für die lineare Regression zu erzeugen. Auch Funktionen (2, 4, ...) sind stetig. Die absoluten Werte von ungeraden Funktionen sind nicht.
FauChristian
2

Es leitet sich einfach aus der Maximum-Likelihood-Schätzung ab. Wo wir die Log-Likelihood-Funktion maximieren, finden Sie in dieser Vorlesung detaillierte Informationen: Die Methode der maximalen Wahrscheinlichkeit für eine einfache lineare Regression .

GeneX
quelle
Die kleinsten Quadrate oder die L2-Norm werden aufgrund ihrer Ableitung von der Methode der maximalen Wahrscheinlichkeit nicht oft ausgewählt. Die Verteilung von Fehlern in der Praxis wird selten bestimmt und wenn sie bestimmt werden, sind sie selten normal. Es ist nicht bequem, ein ungerades Polynom (mit einer kontinuierlichen ersten Ableitung) zu verwenden, und aufgrund des geringen Bedarfs an Rechenressourcen wird das Quadrieren verwendet.
FauChristian
Ja, das wäre eine weitere gute Antwort. Meine Antwort basiert jedoch eher auf theoretischen oder statistischen Aspekten der linearen Regression.
GeneX
1

Eine Rechtfertigung ist, dass die L2-Norm unter Homoskedastizität den unverzerrten Schätzer für die minimale Varianz (MVUE) erzeugt, siehe Gauß-Markov-Theorem. Dies bedeutet, dass die angepassten Werte die bedingten Erwartungen angesichts der erklärenden Variablen sind, was in vielen Fällen eine schöne Eigenschaft ist. Ferner ist es der beste Schätzer, wenn die vorherige Eigenschaft wünschenswert ist.

Als Antwort auf die Behauptung, dass die Funktion selbst keine Rolle spielt, ergeben verschiedene Funktionen Lösungen mit sehr unterschiedlichen Eigenschaften, und es wurden große Anstrengungen unternommen, um geeignete Straffunktionen zu finden, siehe beispielsweise Ridge-Regression und LASSO. Die Straffunktion spielt eine Rolle.

Bearbeiten: Als Antwort auf Ihre Frage zu Entfernungen unter 1 geht nichts "schief", wenn die Entfernungen kleiner als 1 sind. Wir möchten die Entfernung immer minimieren, und der quadratische Verlust tut dies überall.

m.unosson
quelle