Wenn wir die lineare Regression durchzuführen passen eine Reihe von Datenpunkten ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) minimiert der klassische Ansatz den quadratischen Fehler. Ich war lange verwirrt von einer Frage, die das Minimieren des quadratischen Fehlers zum selben Ergebnis führt wie das Minimieren des absoluten Fehlers? Wenn nicht, warum ist es besser, den quadratischen Fehler zu minimieren? Gibt es einen anderen Grund als "die objektive Funktion ist differenzierbar"?
Der quadratische Fehler wird auch häufig zur Bewertung der Modellleistung verwendet, der absolute Fehler ist jedoch weniger verbreitet. Warum wird der quadratische Fehler häufiger verwendet als der absolute Fehler? Wenn keine Derivate verwendet werden, ist die Berechnung des absoluten Fehlers so einfach wie die Berechnung des quadratischen Fehlers. Warum ist der quadratische Fehler dann so verbreitet ? Gibt es einen einzigartigen Vorteil, der seine Verbreitung erklären kann?
Danke.
quelle
Antworten:
Historisch betrachtet Laplace ursprünglich den maximal beobachteten Fehler als Maß für die Richtigkeit eines Modells. Bald zog er stattdessen MAD in Betracht . Aufgrund seiner Unfähigkeit, beide Situationen exakt zu lösen, erwog er bald die differenzierte MSE. Er selbst und Gauß haben (scheinbar gleichzeitig) die normalen Gleichungen abgeleitet, eine geschlossene Lösung für dieses Problem. Heutzutage ist das Lösen des MAD durch lineare Programmierung relativ einfach. Bekanntlich gibt es bei der linearen Programmierung jedoch keine geschlossene Lösung.
Ein weiterer theoretischer Grund ist, dass MSE unter der Annahme einheitlicher Prioritäten der Modellparameter unter Bayes-Bedingungen normalverteilte Fehler liefert, die als Beweis für die Richtigkeit der Methode herangezogen wurden. Theoretiker mögen die Normalverteilung, weil sie es für eine empirische Tatsache hielten, während Experimente es mögen, weil sie es für ein theoretisches Ergebnis halten.
Ein letzter Grund für die breite Akzeptanz der MSE ist, dass sie auf der euklidischen Distanz basiert (in der Tat ist dies eine Lösung des Projektionsproblems auf einen euklidischen Banachraum), die angesichts unserer geometrischen Realität äußerst intuitiv ist.
quelle
Als alternative Erklärung betrachten Sie die folgende Intuition:
Bei der Minimierung eines Fehlers müssen wir entscheiden, wie diese Fehler bestraft werden sollen. In der Tat wäre der einfachste Ansatz zur Bestrafung von Fehlern die Verwendung einer
linearly proportional
Straffunktion. Mit einer solchen Funktion erhält jede Abweichung vom Mittelwert einen proportionalen entsprechenden Fehler. Zweimal so weit vom Mittelwert entfernt, würde dies die doppelte Strafe bedeuten .Der üblichere Ansatz besteht darin, eine
squared proportional
Beziehung zwischen Abweichungen vom Mittelwert und der entsprechenden Strafe zu berücksichtigen . Dies stellt sicher, dass Sie umso mehr bestraft werden, je weiter Sie vom Durchschnitt entfernt sind . Bei Verwendung dieser Straffunktion werden Ausreißer (weit vom Mittelwert entfernt) als proportional informativer angesehen als Beobachtungen in der Nähe des Mittelwerts.Um dies zu visualisieren, können Sie einfach die Straffunktionen zeichnen:
Insbesondere bei der Schätzung von Regressionen (z. B. OLS) führen unterschiedliche Straffunktionen zu unterschiedlichen Ergebnissen. Bei Verwendung der
linearly proportional
Straffunktion werden Ausreißern durch die Regression weniger Gewicht zugewiesen als bei Verwendung dersquared proportional
Straffunktion. Die mediane absolute Abweichung (MAD) ist daher als robusterer Schätzer bekannt. Im Allgemeinen ist es daher so, dass ein robuster Schätzer die meisten Datenpunkte gut passt, aber Ausreißer „ignoriert“. Im Vergleich dazu wird eine Anpassung der kleinsten Quadrate eher in Richtung der Ausreißer gezogen. Hier ist eine Visualisierung zum Vergleich:Obwohl OLS mittlerweile zum Standard gehört, werden mit Sicherheit auch verschiedene Straffunktionen verwendet. Als Beispiel können Sie sich die Robustfit- Funktion von Matlab ansehen , mit der Sie eine andere Straffunktion (auch als "Gewicht" bezeichnet) für Ihre Regression auswählen können. Die Straffunktionen umfassen Andrews, Bisquare, Cauchy, Fair, Huber, Logistic, Ols, Talwar und Welsch. Ihre entsprechenden Ausdrücke finden Sie auch auf der Website.
Ich hoffe das hilft dir ein bisschen mehr Intuition für Straffunktionen zu bekommen :)
Aktualisieren
Wenn Sie Matlab haben, kann ich empfehlen, mit Matlabs robuster Demo zu spielen , die speziell für den Vergleich von gewöhnlichen kleinsten Quadraten mit robuster Regression entwickelt wurde:
Mit der Demo können Sie einzelne Punkte ziehen und sofort die Auswirkungen auf die kleinsten Quadrate und die robuste Regression sehen (ideal für Unterrichtszwecke!).
quelle
Wie eine andere Antwort erklärt hat, ist das Minimieren des quadratischen Fehlers nicht dasselbe wie das Minimieren des absoluten Fehlers.
Der Grund, warum die Minimierung des quadratischen Fehlers bevorzugt wird, liegt darin, dass große Fehler besser verhindert werden.
Angenommen, die Lohn- und Gehaltsabteilung Ihres Empolyers zahlt versehentlich jedem von insgesamt zehn Mitarbeitern 50 US-Dollar weniger als erforderlich. Das ist ein absoluter Fehler von 500 US-Dollar . Es ist auch ein absoluter Fehler von 500 US-Dollar, wenn die Abteilung nur einen Mitarbeiter 500 US-Dollar weniger bezahlt . Aber es ist ein quadratischer Fehler, es ist 25000 versus 250000.
Es ist nicht immer besser, Fehlerquadrate zu verwenden. Wenn Sie einen Datensatz mit einem extremen Ausreißer aufgrund eines Datenerfassungsfehlers haben, wird durch Minimieren des quadratischen Fehlers die Anpassung in Richtung des extremen Ausreißers viel stärker als durch Minimieren des absoluten Fehlers. Trotzdem ist es normalerweise besser, den quadratischen Fehler zu verwenden.
quelle
Theoretisch könnte man jede Art von Verlustfunktion verwenden. Die Funktionen für den absoluten und den quadratischen Verlust sind einfach die beliebtesten und intuitivsten Verlustfunktionen. Nach diesem Wikipedia- Eintrag,
Wie auch im Wikipedia-Eintrag erläutert, hängt die Auswahl der Verlustfunktionen davon ab, wie Sie Abweichungen von Ihrem Zielobjekt bewerten. Wenn alle Abweichungen unabhängig vom Vorzeichen für Sie gleich schlecht sind, können Sie die Absolutverlustfunktion verwenden. Wenn sich die Abweichungen für Sie verschlimmern, je weiter Sie vom Optimum entfernt sind und es Ihnen egal ist, ob die Abweichung positiv oder negativ ist, ist die Quadratverlustfunktion Ihre einfachste Wahl. Wenn aber keine der oben genannten Verlustdefinitionen zu Ihrem Problem passt, weil z. B. kleine Abweichungen für Sie schlechter sind als große Abweichungen, können Sie eine andere Verlustfunktion wählen und versuchen, das Minimierungsproblem zu lösen. Die statistischen Eigenschaften Ihrer Lösung sind jedoch möglicherweise schwer einzuschätzen.
quelle
Kurze Antworten
quelle