Warum wird normalerweise die Summe der quadratischen Fehler (SSE) beim Anpassen eines Modells minimiert?

23

Die Frage ist sehr einfach: Warum versuchen wir beim Anpassen eines Modells an unsere linearen oder nichtlinearen Daten normalerweise, die Summe der Fehlerquadrate zu minimieren, um unseren Schätzer für den Modellparameter zu erhalten? Warum nicht eine andere Zielfunktion zum Minimieren wählen? Ich verstehe, dass die quadratische Funktion aus technischen Gründen besser ist als einige andere Funktionen, z. B. die Summe der absoluten Abweichungen. Dies ist jedoch noch keine sehr überzeugende Antwort. Warum befürworten die Menschen, abgesehen von diesem technischen Grund, diese euklidische Art der Distanzfunktion? Gibt es dafür eine bestimmte Bedeutung oder Interpretation?

Die Logik hinter meinem Denken ist die folgende:

Wenn Sie über einen Datensatz verfügen, richten Sie Ihr Modell zuerst ein, indem Sie eine Reihe von funktionalen oder verteilenden Annahmen treffen (z. B. eine bestimmte Momentbedingung, aber nicht die gesamte Verteilung). In Ihrem Modell gibt es einige Parameter (vorausgesetzt, es ist ein parametrisches Modell). Dann müssen Sie einen Weg finden, um diese Parameter konsistent abzuschätzen, und hoffentlich hat Ihr Schätzer eine geringe Varianz und einige andere nützliche Eigenschaften. Unabhängig davon, ob Sie die SSE oder LAD oder eine andere objektive Funktion minimieren, handelt es sich meines Erachtens nur um verschiedene Methoden, um einen konsistenten Schätzer zu erhalten. Dieser Logik folgend dachte ich, dass die Leute das kleinste Quadrat verwenden müssen 1) es erzeugt einen konsistenten Schätzer des Modells 2) etwas anderes, das ich nicht kenne.

In der Ökonometrie wissen wir, dass im linearen Regressionsmodell, wenn Sie davon ausgehen, dass die Fehlerterme eine 0-Mittelwertkonditionierung für die Prädiktoren haben und Homoskedastizität und Fehler nicht miteinander korreliert sind, die Minimierung der Summe der quadratischen Fehler einen KONSISTENTEN Schätzer für Ihr Modell ergibt Parameter und nach dem Gauß-Markov-Theorem ist dieser Schätzer BLAU. Wenn Sie sich also für die Minimierung einer anderen Zielfunktion entscheiden, bei der es sich nicht um die SSE handelt, kann nicht garantiert werden, dass Sie einen konsistenten Schätzer für Ihre Modellparameter erhalten. Ist mein Verständnis korrekt? Wenn es richtig ist, kann die Minimierung von SSE anstelle einer anderen objektiven Funktion durch Konsistenz gerechtfertigt werden, was in der Tat akzeptabel ist, besser als zu sagen, dass die quadratische Funktion besser ist.

In der Praxis habe ich tatsächlich viele Fälle gesehen, in denen Menschen die Summe der quadratischen Fehler direkt minimieren, ohne zunächst das vollständige Modell eindeutig anzugeben, z. B. die Verteilungsannahmen (Momentannahmen) für den Fehlerterm. Dann scheint mir der Benutzer dieser Methode nur zu sehen, wie genau die Daten in Bezug auf die Quadratabstandsfunktion zum 'Modell' passen (ich verwende Anführungszeichen, da die Modellannahmen wahrscheinlich unvollständig sind).

Eine verwandte Frage (auch im Zusammenhang mit dieser Website) lautet: Warum verwenden wir, wenn wir versuchen, verschiedene Modelle mit Kreuzvalidierung zu vergleichen, wieder die SSE als Beurteilungskriterium? Wählen Sie also das Modell mit der geringsten SSE aus. Warum nicht noch ein Kriterium?

econometrics least-squares KevinKim
quelle

Related: stats.stackexchange.com/questions/147001

Amöbe sagt Reinstate Monica

14

Ihre Frage ähnelt zwar einer Reihe anderer Fragen vor Ort, aber Aspekte dieser Frage (z. B. Ihre Betonung auf Konsistenz) lassen mich glauben, dass sie Doppelfragen nicht nahe genug kommen.

Warum nicht eine andere Zielfunktion zum Minimieren wählen?

Warum eigentlich nicht? Wenn sich Ihr Ziel von den kleinsten Quadraten unterscheidet, sollten Sie stattdessen Ihr Ziel ansprechen!

Dennoch haben die kleinsten Quadrate eine Reihe von netten Eigenschaften (nicht zuletzt, eine innige Verbindung zu Schatz Mittel , die viele Menschen wollen, und eine Einfachheit , die es offensichtlich , dass die erste Wahl macht , wenn Lehre oder versuchen , neue Ideen umzusetzen).

Darüber hinaus haben Menschen in vielen Fällen keine klare Zielfunktion, sodass es von Vorteil ist, das auszuwählen, was leicht verfügbar und allgemein verständlich ist.

Das heißt, die kleinsten Quadrate haben auch einige weniger schöne Eigenschaften (z. B. Empfindlichkeit gegenüber Ausreißern) - daher bevorzugen die Leute manchmal ein robusteres Kriterium.

Wenn Sie die Summe der quadratischen Fehler minimieren, erhalten Sie einen BESTÄNDIGEN Schätzer für Ihre Modellparameter

Kleinste Quadrate sind keine Voraussetzung für Konsistenz. Konsistenz ist keine sehr hohe Hürde - viele Schätzer werden konsistent sein. Fast alle Schätzer, die in der Praxis verwendet werden, sind konsistent.

und nach dem Gauß-Markov-Theorem ist dieser Schätzer BLAU.

Aber in Situationen, in denen alle linearen Schätzer schlecht sind (wie es beispielsweise bei extrem schweren Schwänzen der Fall wäre), hat der beste nicht viel Vorteil.

Wenn Sie eine andere Zielfunktion als die SSE minimieren, kann nicht garantiert werden, dass Sie einen konsistenten Schätzer für Ihre Modellparameter erhalten. Ist mein Verständnis korrekt?

Es ist nicht schwer, konsistente Schätzer zu finden. Nein, das ist keine besonders gute Rechtfertigung für kleinste Quadrate

Warum, wenn wir versuchen, verschiedene Modelle mit Kreuzvalidierung zu vergleichen, verwenden wir wieder die SSE als Beurteilungskriterium? [...] Warum nicht ein anderes Kriterium?

Wenn Ihr Ziel von etwas anderem besser reflektiert wird, warum nicht?

Es gibt keinen Mangel an Menschen, die andere objektive Funktionen als die kleinsten Quadrate verwenden. Es taucht bei der M-Schätzung, bei den am wenigsten zugeschnittenen Schätzern, bei der Quantil-Regression und bei der Verwendung von LINEX-Verlustfunktionen auf, um nur einige zu nennen.

Ich dachte, wenn Sie einen Datensatz haben, richten Sie zuerst Ihr Modell ein, dh, Sie treffen eine Reihe von funktionalen oder verteilenden Annahmen. In Ihrem Modell gibt es einige Parameter (vorausgesetzt, es ist ein parametrisches Modell),

Vermutlich werden die Parameter der funktionalen Annahmen sind , was Sie zu schätzen sind versuchen - in diesem Fall die funktionalen Annahmen sind das, was man am wenigsten Quadrate tun (oder was auch immer) um ; Sie bestimmen nicht das Kriterium, sondern das, was das Kriterium schätzt.

Wenn Sie andererseits eine Verteilungsannahme haben, haben Sie eine Menge Informationen über eine geeignetere Zielfunktion - vermutlich möchten Sie effiziente Schätzungen Ihrer Parameter erhalten - was in großen Stichproben der Fall sein wird neigen dazu, Sie in Richtung MLE zu führen (obwohl möglicherweise in einigen Fällen in einem stabilisierten Framework eingebettet).

Dann müssen Sie einen Weg finden, um diese Parameter konsistent abzuschätzen. Ob Sie die SSE oder LAD oder eine andere objektive Funktion minimieren,

LAD ist ein Quantilschätzer. Es ist ein konsistenter Schätzer für den Parameter, den es unter den zu erwartenden Bedingungen schätzen sollte, genauso wie es die kleinsten Quadrate sind. (Wenn Sie sich ansehen, wofür Sie Konsistenz mit den kleinsten Quadraten anzeigen, gibt es entsprechende Ergebnisse für viele andere gängige Schätzer. Menschen verwenden selten inkonsistente Schätzer. Wenn Sie also feststellen, dass ein Schätzer häufig diskutiert wird, es sei denn, sie sprechen über seine Inkonsistenz, ist es fast sicherlich konsistent. *)

* Gleichwohl ist Konsistenz nicht unbedingt eine wesentliche Eigenschaft. Schließlich habe ich für meine Stichprobe eine bestimmte Stichprobengröße und keine Folge von Stichprobengrößen, die gegen unendlich tendieren. Was zählt, sind die Eigenschaften bei dem ich habe, nicht einige unendlich größere , die ich nicht habe und niemals sehen werde . Bei Inkonsistenzen ist jedoch viel mehr Sorgfalt erforderlich - wir haben möglicherweise einen guten Schätzer bei = 20, aber bei = 2000 ist er möglicherweise schrecklich . In gewisser Weise ist mehr Aufwand erforderlich, wenn wir konsistente Schätzer verwenden möchten. $n$ $n$ $n$ $n$

Wenn Sie LAD zum Schätzen des Mittelwerts eines Exponentials verwenden, ist dies nicht konsistent (obwohl eine triviale Skalierung des Schätzwerts erforderlich wäre) - aber genauso, wenn Sie den Median eines Exponentials mit den kleinsten Quadraten schätzen wird es dafür nicht konsistent sein (und wieder behebt eine triviale Neuskalierung das).

Glen_b - Setzen Sie Monica wieder ein
quelle

Ich glaube, ich habe meine Besorgnis nicht klar zum Ausdruck gebracht. Ich dachte, wenn Sie einen Datensatz haben, richten Sie zuerst Ihr Modell ein, dh Sie treffen eine Reihe von funktionalen oder verteilenden Annahmen. In Ihrem Modell gibt es einige Parameter (vorausgesetzt, es ist ein parametrisches Modell). Dann müssen Sie einen Weg finden, um diese Parameter konsistent abzuschätzen. Egal, ob Sie die SSE oder LAD oder eine andere objektive Funktion minimieren, ich denke, dies sind nur verschiedene Methoden, um den Schätzer zu erhalten. Dieser Logik folgend, dachte ich, dass die Leute das kleinste Quadrat verwenden müssen 1) es erzeugt einen konsistenten Schätzer des Modells 2) etwas anderes

KevinKim

Vermutlich handelt es sich bei den Parametern der funktionalen Annahmen um das, was Sie schätzen möchten. In diesem Fall handelt es sich bei den funktionalen Annahmen um das, was Sie tun, um das kleinste Quadrat (oder was auch immer). Sie bestimmen das Kriterium nicht. Wenn Sie andererseits eine Verteilungsannahme haben, haben Sie eine Menge Informationen über eine geeignetere Zielfunktion - vermutlich möchten Sie effiziente Schätzungen Ihrer Parameter erhalten - was in großen Stichproben der Fall sein wird neigen dazu, Sie in Richtung MLE zu führen (obwohl möglicherweise in einigen Fällen in einem stabilisierten Framework eingebettet).

Glen_b

Diese Antwort passte in meine Denkweise. Aber ich habe immer noch eine Frage, was meinst du mit "sie bestimmen das Kriterium nicht"? Bedeutet dies, dass Sie z. B. in ökonometrischer 101 in linearer Regression unter der funktionalen (nicht verteilenden) Annahme, dass Sie ols verwenden müssen, um den konsistenten Schätzer zu erhalten, keine willkürliche Zielfunktion zum Minimieren verwenden können, da no Garantie für die Ableitung eines konsistenten Schätzers von dort?

KevinKim

Auf "nicht bestimmen" - lassen Sie mich in meiner Antwort erweitern. Zur Konsistenz: In meiner Antwort habe ich das Gegenteil festgestellt. Lassen Sie es mich noch einmal sagen: Kleinste Quadrate sind keine Voraussetzung für Konsistenz. Dies schließt die Situation ein, die Sie gerade erwähnt haben; Es gibt unendlich viele alternative Schätzer, die konsistent wären. Fast alle Schätzer, die in der Praxis verwendet werden, sind konsistent. Ich werde meine Antwort bearbeiten, um sie genauer zu formulieren.

Glen_b

Für Ihre aktualisierte Antwort, den letzten Absatz, gibt es also für einige Modelle einige Möglichkeiten, wie Sie KEINE konsistenten Parameter für Ihre Modellparameter erzeugen können, obwohl Sie diese Methode trotzdem anwenden können und compter Ihnen einige Zahlen gibt, richtig? Kann ich also sagen, dass für ein Modell, das von Menschen erstellt wurde, um Schätzer für die Parameter im Modell abzuleiten, Menschen NICHT willkürlich eine objektive Funktion auswählen können, um JUST basierend auf den technischen Eigenschaften des Modells zu optimieren?

KevinKim

5

Sie haben eine Statistik-Frage gestellt, und ich hoffe, meine Antwort als Ingenieur für Steuerungssysteme ist ein Stich aus einer anderen Richtung, der Aufschluss darüber gibt.

Hier ist ein "kanonisches" Informationsflussformular für die Steuerungstechnik: Bildbeschreibung hier eingeben

Das "r" dient als Referenzwert. Es wird mit einer "F" -Transformation der Ausgabe "y" summiert, um einen Fehler "e" zu erzeugen. Dieser Fehler ist der Eingang für eine Steuerung, der von der Steuerungsübertragungsfunktion "C" in einen Steuereingang für die Anlage "P" umgewandelt wird. Es soll allgemein genug sein, um auf beliebige Pflanzen angewendet zu werden. Die "Anlage" könnte ein Automotor für die Geschwindigkeitsregelung oder der Eingabewinkel eines Inverspendels sein.

Angenommen, Sie haben eine Anlage mit einer bekannten Übertragungsfunktion mit einer Phänomenologie, die für die folgende Diskussion geeignet ist, einem aktuellen Zustand und einem gewünschten Endzustand. ( Tabelle 2.1, S. 68 ) Es gibt unendlich viele eindeutige Pfade, die das System mit unterschiedlichen Eingaben durchlaufen kann, um vom Anfangszustand in den Endzustand zu gelangen. Die "optimalen Ansätze" des Lehrbuch-Regelungsingenieurs umfassen das Zeitoptimum ( kürzeste Zeit / Bang-Bang ), das Entfernungsoptimum (kürzester Weg), das Kraftoptimum (niedrigste maximale Eingangsgröße) und das Energieoptimum (minimaler Gesamtenergieeintrag).

Genauso wie es unendlich viele Pfade gibt, gibt es unendlich viele "Optimale", von denen jeder einen dieser Pfade auswählt. Wenn Sie sich für einen Weg entscheiden und sagen, er sei am besten, wählen Sie implizit ein "Maß für die Güte" oder ein "Maß für die Optimalität".

Meiner persönlichen Meinung nach sind Leute wie die L-2-Norm (aka Energieoptimum, aka Fehler im kleinsten Fehlerquadrat) der Meinung, dass sie einfach, leicht zu erklären, leicht auszuführen ist und die Eigenschaft hat, mehr gegen größere Fehler zu arbeiten als gegen kleinere. und verlässt mit null Bias. Betrachten Sie h-Infinity-Normen, bei denen die Varianz minimiert und die Vorspannung beschränkt ist, jedoch nicht Null. Sie können sehr nützlich sein, sind jedoch komplexer zu beschreiben und komplexer zu codieren.

Ich denke, die L2-Norm, auch bekannt als energieminimierender optimaler Pfad, auch bekannt als Fehleranpassung im kleinsten Fehlerquadrat, ist einfach und entspricht im faulen Sinne der Heuristik, dass "größere Fehler schlimmer sind und kleinere Fehler weniger schlimm". Es gibt buchstäblich unendlich viele algorithmische Möglichkeiten, dies zu formulieren, aber der quadratische Fehler ist einer der bequemsten. Es erfordert nur Algebra, damit mehr Menschen es verstehen können. Es funktioniert im (populären) Polynomraum. Energieoptimal stimmt mit einem Großteil der Physik überein, die unsere wahrgenommene Welt ausmacht, und fühlt sich daher "vertraut" an. Es ist anständig schnell zu berechnen und im Gedächtnis nicht zu schrecklich.

Wenn ich mehr Zeit habe, möchte ich Bilder, Codes oder bibliografische Referenzen einfügen.

EngrStudent - Setzen Sie Monica wieder ein
quelle

1

$SSE$ $SSE$ $R^2$ $SST$

R^{2} = 1 - \frac{S S E}{S S T}

$R^2 = 1 - \frac{SSE}{SST}$

$R^2$ $R^2$ $RMSE$

$R^2$ $R^2$ $SSE$ $SSE$ $PRESS$ , die für Ihre Frage am Ende des Beitrags relevant sind.

$SSE$

Aleksandr Blekh
quelle

2

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

0

Sie könnten auch versuchen, den maximalen Fehler zu minimieren, anstatt die Anpassung der kleinsten Quadrate vorzunehmen. Zu diesem Thema gibt es reichlich Literatur. Versuchen Sie es mit "Tchebechev", das auch "Chebyshev" -Polynome enthält.

David F. Mayer
quelle

1

Das Maximum ist eine L-Infinity-Norm. Wenn Sie sich Nutonian / Formulize / Eureqa ansehen, haben sie einen schönen Zoo von Kostenfunktionen (Fehlerformen), einschließlich des absoluten Interquartilfehlers, des Scharnierverlustfehlers, der ROC-AUC und der signierten Differenz. formulize.nutonian.com/documentation/eureqa/general-reference/…

Reinstate Monica

0

Es sieht so aus, als ob Leute Quadrate verwenden, weil sie es erlauben, sich innerhalb des Bereichs der linearen Algebra zu befinden und andere kompliziertere Dinge wie die konvexe Optimierung, die leistungsfähiger ist, nicht zu berühren, aber es führt dazu, dass Löser ohne nette geschlossene Lösungen verwendet werden.

Auch die Idee aus diesem Bereich der Mathematik, die eine konvexe Namensoptimierung hat, hat sich nicht sehr verbreitet.

"... Warum interessieren wir uns für ein Quadrat von Gegenständen. Um ehrlich zu sein, weil wir es analysieren können ... Wenn Sie sagen, dass es Energie entspricht und sie es kaufen, dann machen Sie schnell weiter ..." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Auch hier beschreibt Stephen P. Boyd 2008, dass die Leute Hammer und Ad-hoc benutzen: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

Bruziuz
quelle

0

Als Randnotiz:

p (t | x, w, β) = N (t | y (x, w), β^{- 1})

$p(t|x,w,\beta) = \mathbb{N}(t|y(x,\textbf{w}),\beta^{-1})$

{x, t}

$\{\textbf{x}, \textbf{t}\}$

w

$\textbf{w}$

p (t | x, w, β) = \prod_{n = 1}^{N} N (t_{n} | y (x_{n}, w), β^{- 1}) .

$p(\textbf{t}|\textbf{x}, \textbf{w}, \beta) = \prod_{n=1}^ {N}\mathbb{N}(t_n|y(x_n, \textbf{w}),\beta^{-1}).$

- \frac{β}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} + \frac{N}{2} l n β - \frac{N}{2} l n (2 π)

$-\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2 + \frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)$

w

$\textbf{w}$

β

$\beta$

- \frac{1}{2} \sum_{n = 1}^{N} {y (x_{n}, w) - t_{n}}^{2} .

$-\frac{1}{2}\sum_{n=1}^{N}\{y(x_n, \textbf{w})-t_n\}^2.$

timm
quelle

Warum wird normalerweise die Summe der quadratischen Fehler (SSE) beim Anpassen eines Modells minimiert?

Antworten: