Entspricht die Minimierung des quadratischen Fehlers der Minimierung des absoluten Fehlers? Warum ist der quadratische Fehler beliebter als der letztere?

39

Wenn wir die lineare Regression durchzuführen passen eine Reihe von Datenpunkten ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) minimiert der klassische Ansatz den quadratischen Fehler. Ich war lange verwirrt von einer Frage, die das Minimieren des quadratischen Fehlers zum selben Ergebnis führt wie das Minimieren des absoluten Fehlersy=ax+b(x1,y1),(x2,y2),...,(xn,yn)? Wenn nicht, warum ist es besser, den quadratischen Fehler zu minimieren? Gibt es einen anderen Grund als "die objektive Funktion ist differenzierbar"?

Der quadratische Fehler wird auch häufig zur Bewertung der Modellleistung verwendet, der absolute Fehler ist jedoch weniger verbreitet. Warum wird der quadratische Fehler häufiger verwendet als der absolute Fehler? Wenn keine Derivate verwendet werden, ist die Berechnung des absoluten Fehlers so einfach wie die Berechnung des quadratischen Fehlers. Warum ist der quadratische Fehler dann so verbreitet ? Gibt es einen einzigartigen Vorteil, der seine Verbreitung erklären kann?

Danke.

Tony
quelle
Es steckt immer ein Optimierungsproblem dahinter und Sie möchten in der Lage sein, Steigungen zu berechnen, um Minimum / Maximum zu finden.
Vladislavs Dovgalecs
11
für x ( - 1 , 1 ) und x 2 > | x | wenn | x | > 1 . Quadratischer Fehler benachteiligt also größere Fehler mehr als absoluter Fehler und verzeiht kleinere Fehler mehr als absoluter Fehler. Dies stimmt gut mit dem überein, was viele für eine angemessene Vorgehensweise halten. x2<|x|x(1,1)x2>|x||x|>1
Dilip Sarwate

Antworten:

47

yxyx

Historisch betrachtet Laplace ursprünglich den maximal beobachteten Fehler als Maß für die Richtigkeit eines Modells. Bald zog er stattdessen MAD in Betracht . Aufgrund seiner Unfähigkeit, beide Situationen exakt zu lösen, erwog er bald die differenzierte MSE. Er selbst und Gauß haben (scheinbar gleichzeitig) die normalen Gleichungen abgeleitet, eine geschlossene Lösung für dieses Problem. Heutzutage ist das Lösen des MAD durch lineare Programmierung relativ einfach. Bekanntlich gibt es bei der linearen Programmierung jedoch keine geschlossene Lösung.

x=0

Ein weiterer theoretischer Grund ist, dass MSE unter der Annahme einheitlicher Prioritäten der Modellparameter unter Bayes-Bedingungen normalverteilte Fehler liefert, die als Beweis für die Richtigkeit der Methode herangezogen wurden. Theoretiker mögen die Normalverteilung, weil sie es für eine empirische Tatsache hielten, während Experimente es mögen, weil sie es für ein theoretisches Ergebnis halten.

Ein letzter Grund für die breite Akzeptanz der MSE ist, dass sie auf der euklidischen Distanz basiert (in der Tat ist dies eine Lösung des Projektionsproblems auf einen euklidischen Banachraum), die angesichts unserer geometrischen Realität äußerst intuitiv ist.

Asterion
quelle
1
(+1) für den Verweis auf Laplace!
Xi'an
2
"Theoretiker mögen die Normalverteilung, weil sie es für eine empirische Tatsache hielten, während Experimente es mögen, weil sie es für ein theoretisches Ergebnis halten." -- Ich liebe es. Gibt es nicht auch direkte physikalische Anwendungen für die Gaußsche Verteilung? Und es gibt auch das Zeug über maximale Entropieverteilungen
shadowtalker
8
@ssdecontrol Ich denke, das Epigramm stammt von Henri Poincaré vor etwas mehr als hundert Jahren. Während des Tages und des Tages meiner Amtsübernahme habe ich Herrn Lippmann von der Teilnahme ausgeschlossen. "Jeder ist sich dessen sicher [dass Fehler normalerweise verteilt sind], sagte mir Herr Lippman eines Tages, da die Experimentatoren glauben, dass es sich um ein mathematisches Theorem handelt, und die Mathematiker, dass es sich um eine experimentell bestimmte Tatsache handelt." aus Calcul des probabilités (2. Aufl., 1912), p. 171
Dilip Sarwate
1
Hier ist eine mathematische Antwort. Wenn wir eine Datenmatrix von unabhängigen Variablen X und eine Spaltenmatrix Y haben, dann haben wir eine Lösung, wenn es eine Matrix b mit der Eigenschaft Xb = Y gibt. Normalerweise können wir nicht und wir wollen das b, das einer exakten Lösung am nächsten kommt. Als Mathematik ist dies einfach zu lösen. Es ist die Projektion von Y auf den Spaltenraum von X. Die Begriffe Projektion und Senkrecht usw. hängen von der Metrik ab. Die übliche euklidische L2-Metrik ist das, woran wir gewöhnt sind, und sie gibt die kleinsten Quadrate an. Die minimierende Eigenschaft von mse ist eine Wiederholung der Tatsache, dass wir die Projektion haben.
Aginensky
1
Ich dachte, die vorrangige Meinungsverschiedenheit bestehe zwischen Gauß und Legendre, wobei Legendre im Verlagswesen vor Gauß und Gauß vor Legendre im informellen Schriftverkehr steht. Mir ist auch (vage) bewusst, dass Laplace's Beweis als überlegen gilt. Irgendwelche Hinweise dazu?
PatrickT
31

Als alternative Erklärung betrachten Sie die folgende Intuition:

Bei der Minimierung eines Fehlers müssen wir entscheiden, wie diese Fehler bestraft werden sollen. In der Tat wäre der einfachste Ansatz zur Bestrafung von Fehlern die Verwendung einer linearly proportionalStraffunktion. Mit einer solchen Funktion erhält jede Abweichung vom Mittelwert einen proportionalen entsprechenden Fehler. Zweimal so weit vom Mittelwert entfernt, würde dies die doppelte Strafe bedeuten .

Der üblichere Ansatz besteht darin, eine squared proportionalBeziehung zwischen Abweichungen vom Mittelwert und der entsprechenden Strafe zu berücksichtigen . Dies stellt sicher, dass Sie umso mehr bestraft werden, je weiter Sie vom Durchschnitt entfernt sind . Bei Verwendung dieser Straffunktion werden Ausreißer (weit vom Mittelwert entfernt) als proportional informativer angesehen als Beobachtungen in der Nähe des Mittelwerts.

Um dies zu visualisieren, können Sie einfach die Straffunktionen zeichnen:

Vergleich von MAD- und MSE-Straffunktionen

Insbesondere bei der Schätzung von Regressionen (z. B. OLS) führen unterschiedliche Straffunktionen zu unterschiedlichen Ergebnissen. Bei Verwendung der linearly proportionalStraffunktion werden Ausreißern durch die Regression weniger Gewicht zugewiesen als bei Verwendung der squared proportionalStraffunktion. Die mediane absolute Abweichung (MAD) ist daher als robusterer Schätzer bekannt. Im Allgemeinen ist es daher so, dass ein robuster Schätzer die meisten Datenpunkte gut passt, aber Ausreißer „ignoriert“. Im Vergleich dazu wird eine Anpassung der kleinsten Quadrate eher in Richtung der Ausreißer gezogen. Hier ist eine Visualisierung zum Vergleich:

Vergleich von OLS mit einem robusten Schätzer

Obwohl OLS mittlerweile zum Standard gehört, werden mit Sicherheit auch verschiedene Straffunktionen verwendet. Als Beispiel können Sie sich die Robustfit- Funktion von Matlab ansehen , mit der Sie eine andere Straffunktion (auch als "Gewicht" bezeichnet) für Ihre Regression auswählen können. Die Straffunktionen umfassen Andrews, Bisquare, Cauchy, Fair, Huber, Logistic, Ols, Talwar und Welsch. Ihre entsprechenden Ausdrücke finden Sie auch auf der Website.

Ich hoffe das hilft dir ein bisschen mehr Intuition für Straffunktionen zu bekommen :)

Aktualisieren

Wenn Sie Matlab haben, kann ich empfehlen, mit Matlabs robuster Demo zu spielen , die speziell für den Vergleich von gewöhnlichen kleinsten Quadraten mit robuster Regression entwickelt wurde:

robustdemo

Mit der Demo können Sie einzelne Punkte ziehen und sofort die Auswirkungen auf die kleinsten Quadrate und die robuste Regression sehen (ideal für Unterrichtszwecke!).

Jean Paul
quelle
3

Wie eine andere Antwort erklärt hat, ist das Minimieren des quadratischen Fehlers nicht dasselbe wie das Minimieren des absoluten Fehlers.

Der Grund, warum die Minimierung des quadratischen Fehlers bevorzugt wird, liegt darin, dass große Fehler besser verhindert werden.

Angenommen, die Lohn- und Gehaltsabteilung Ihres Empolyers zahlt versehentlich jedem von insgesamt zehn Mitarbeitern 50 US-Dollar weniger als erforderlich. Das ist ein absoluter Fehler von 500 US-Dollar . Es ist auch ein absoluter Fehler von 500 US-Dollar, wenn die Abteilung nur einen Mitarbeiter 500 US-Dollar weniger bezahlt . Aber es ist ein quadratischer Fehler, es ist 25000 versus 250000.

Es ist nicht immer besser, Fehlerquadrate zu verwenden. Wenn Sie einen Datensatz mit einem extremen Ausreißer aufgrund eines Datenerfassungsfehlers haben, wird durch Minimieren des quadratischen Fehlers die Anpassung in Richtung des extremen Ausreißers viel stärker als durch Minimieren des absoluten Fehlers. Trotzdem ist es normalerweise besser, den quadratischen Fehler zu verwenden.

Atsby
quelle
4
Der Grund für die Minimierung der Fehlerquadrate liegt darin, dass große Fehler besser verhindert werden. - Warum dann nicht gewürfelt?
Daniel Earwicker
@ DanielEarwicker Cubed macht Fehler in der falschen Richtung subtraktiv. Es müsste also ein absoluter Würfelfehler sein oder sich an gerade Potenzen halten. Es gibt keinen wirklich "guten" Grund, warum das Quadrat anstelle höherer Potenzen (oder in der Tat nichtpolynomieller Straffunktionen) verwendet wird. Es ist einfach zu berechnen, einfach zu minimieren und erledigt den Job.
Atsby
1
Natürlich hätte ich keine höhere gerade Macht sagen sollen! :)
Daniel Earwicker
Dies hat (im Moment) keine positiven Stimmen, aber ist dies nicht die gleiche Aussage wie die Antwort, die (derzeit) 15 Stimmen hat (dh Ausreißer haben mehr Wirkung)? Erhält dies keine Stimmen, weil es falsch ist oder weil einige wichtige Informationen fehlen? Oder weil es keine hübschen Graphen gibt? ;-)
Darren Cook
@DarrenCook Ich vermute, dass der "moderne" Ansatz, Statistiken zu erstellen, MAD gegenüber OLS bevorzugt, und der Hinweis, dass ein Fehlerquadrat "normalerweise" besser ist, hat mir einige Ablehnungen eingebracht.
Atsby
2

Theoretisch könnte man jede Art von Verlustfunktion verwenden. Die Funktionen für den absoluten und den quadratischen Verlust sind einfach die beliebtesten und intuitivsten Verlustfunktionen. Nach diesem Wikipedia- Eintrag,

Ein häufiges Beispiel ist das Schätzen des "Standorts". Unter typischen statistischen Annahmen ist der Mittelwert oder Durchschnitt die Statistik zum Schätzen der Position, die den erwarteten Verlust unter der Quadratfehler-Verlustfunktion minimiert, während der Median der Schätzer ist, der den erwarteten Verlust unter der Absolutdifferenz-Verlustfunktion minimiert. Noch andere Schätzer wären unter anderen, weniger häufigen Umständen optimal.

Wie auch im Wikipedia-Eintrag erläutert, hängt die Auswahl der Verlustfunktionen davon ab, wie Sie Abweichungen von Ihrem Zielobjekt bewerten. Wenn alle Abweichungen unabhängig vom Vorzeichen für Sie gleich schlecht sind, können Sie die Absolutverlustfunktion verwenden. Wenn sich die Abweichungen für Sie verschlimmern, je weiter Sie vom Optimum entfernt sind und es Ihnen egal ist, ob die Abweichung positiv oder negativ ist, ist die Quadratverlustfunktion Ihre einfachste Wahl. Wenn aber keine der oben genannten Verlustdefinitionen zu Ihrem Problem passt, weil z. B. kleine Abweichungen für Sie schlechter sind als große Abweichungen, können Sie eine andere Verlustfunktion wählen und versuchen, das Minimierungsproblem zu lösen. Die statistischen Eigenschaften Ihrer Lösung sind jedoch möglicherweise schwer einzuschätzen.

kristjan
quelle
Ein kleines Detail: "Wenn alle Abweichungen für Sie gleich schlecht sind, unabhängig von ihrem Vorzeichen.": Die MAD-Funktion bestraft Fehler linear proportional. Daher sind Fehler nicht "gleich schlimm", sondern "proportional schlimm", da der doppelte Fehler die doppelte Strafe erhält.
Jean-Paul,
@ Jean-Paul: Du hast recht. Ich meinte es so. Was ich mit "genauso schlecht" sagen wollte, war, dass der Gradient der MAD konstant ist, während der Gradient für die MSE linear mit dem Fehler wächst. Wenn also die Differenz zwischen zwei Fehlern konstant ist, unabhängig davon, wie weit Sie vom Optimum entfernt sind, gilt dies nicht für die MSE. Ich hoffe, das macht es ein bisschen verständlicher, was ich sagen möchte.
Kristjan
-1

Kurze Antworten

  1. Nee
  2. Der Mittelwert hat interessantere statistische Eigenschaften als der Median
ℕʘʘḆḽḘ
quelle
10
Es wäre toll, wenn Sie "interessantere statistische Eigenschaften" qualifizieren könnten.
Momo