Neigung zu natürlichen Zahlen bei kleinsten Quadraten

14

Warum versuchen wir zu minimieren x^2anstatt zu minimieren |x|^1.95oder |x|^2.05. Gibt es Gründe, warum die Zahl genau zwei sein sollte, oder ist es einfach eine Konvention, die den Vorteil hat, die Mathematik zu vereinfachen?

Christian
quelle

Antworten:

5

Diese Frage ist ziemlich alt, aber ich habe tatsächlich eine Antwort, die hier nicht erscheint, und eine, die einen zwingenden Grund angibt, warum (unter vernünftigen Annahmen) der quadratische Fehler richtig ist, während jede andere Potenz falsch ist.

Sagen wir einige Daten und wollen die lineare (oder was auch immer) Funktion f finden , die die Daten am besten vorhersagt, in dem Sinne, dass die Wahrscheinlichkeitsdichte p f ( D ) zur Beobachtung dieser Daten in Bezug auf f maximal sein sollte (Dies nennt man dieD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)f Maximum-Likelihood-Schätzung). Nehmen wir an, dass die Daten durch plus einen normalverteilten Fehlerterm mit der Standardabweichung σ gegeben sind , dann ist p f ( D ) = n i = 1 1fσ Dies entspricht 1

pf(D)=ich=1n1σ2πe-(yich-f(xich))22σ2.
So Maximierungpf(D)wird erreicht durch MinimierenΣ n i = 1 (yi-f(xi))2, das heißt, die Summe der quadrierten Fehlertermen.
1σn(2π)n/2e-12σ2ich=1n(yich-f(xich))2.
pf(D)ich=1n(yich-f(xich))2

quelle
Das scheint zirkulär, warum sollten Sie von einem normalverteilten Fehlerbegriff ausgehen?
Joe
@ Joe Das solltest du nicht immer, aber wenn das einzige, was du über den Fehlerausdruck weißt, ist, dass er einen Mittelwert von 0 und einen endlichen erwarteten absoluten Wert hat, dann ist das die Annahme der Maximalentropie, sodass er für alles Unbekannte stehen kann Fehlerfunktion hast du eigentlich. Wenn Sie zusätzliche Informationen zur Fehlerverteilung haben, können Sie diese vermutlich verwenden und einen genaueren Schätzer für die maximale Wahrscheinlichkeit finden.
"Wenn das einzige, was Sie über den Fehlerausdruck wissen, ist, dass er einen Mittelwert von 0 und einen endlichen erwarteten Absolutwert hat, dann ist das die Annahme der maximalen Entropie" - jede Ableitung der maximalen Entropieverteilungen leitet die Laplace-Verteilung als die ab Maxent Verteilung für einen (bekannten) endlichen erwarteten absoluten Wert, während die Gaußsche die Maxent für einen (bekannten) endlich ist erwartete absolute Wert quadriert, siehe als Beispiel stats.stackexchange.com/questions/82410/... Sie Zitate zu tun haben , die nicht einverstanden ?
Joe
Weißt du, ich nicht. Ich nehme an, du hast recht. (Obwohl ich aus irgendeinem Grund nicht herausfinden kann, wie ich meinen Kommentar bearbeite)
14

Es gibt keinen Grund, warum Sie nicht versuchen könnten, andere Normen als x ^ 2 zu minimieren. Es wurden beispielsweise ganze Bücher über die Quantilregression geschrieben, die | x | mehr oder weniger minimiert wenn Sie mit dem Median arbeiten. Es ist im Allgemeinen nur schwieriger zu tun und gibt, abhängig vom Fehlermodell, möglicherweise keine guten Schätzer (je nachdem, ob dies im Kontext niedrige Varianz- oder unvoreingenommene oder niedrige MSE-Schätzer bedeutet).

Was den Grund angeht, warum wir Momente mit ganzen Zahlen gegenüber Momenten mit reellen Zahlen bevorzugen, so ist der Hauptgrund wahrscheinlich, dass ganze Potenzen von reellen Zahlen immer reelle Zahlen ergeben, während nicht ganzzahlige Potenzen von negativen reellen Zahlen komplexe Zahlen erzeugen und daher die Verwendung von erfordern ein absoluter Wert. Mit anderen Worten, während der 3. Moment einer reellen Zufallsvariablen reell ist, ist der 3.2. Moment nicht unbedingt reell und verursacht so Interpretationsprobleme.

Ansonsten ...

  1. Analytische Ausdrücke für die ganzzahligen Momente von Zufallsvariablen sind in der Regel viel einfacher zu finden als reelle Momente, sei es durch Generieren von Funktionen oder eine andere Methode. Methoden zu deren Minimierung sind somit einfacher zu schreiben.
  2. Die Verwendung von ganzzahligen Momenten führt zu Ausdrücken, die leichter handhabbar sind als Momente mit reellen Werten.
  3. Ich kann mir keinen zwingenden Grund vorstellen, warum (zum Beispiel) der 1.95. Moment des Absolutwerts von X bessere Anpassungseigenschaften bietet als (zum Beispiel) der 2. Moment von X, obwohl dies interessant zu untersuchen sein könnte
  4. Speziell für die L2-Norm (oder den quadratischen Fehler) kann sie über Punktprodukte geschrieben werden, was zu erheblichen Verbesserungen der Rechengeschwindigkeit führen kann. Es ist auch der einzige Lp-Raum, der ein Hilbert-Raum ist, was ein schönes Feature ist.
Reich
quelle
8

Wir versuchen, die in Deskriptoren verbleibende Varianz zu minimieren. Warum Varianz? Lesen Sie diese Frage ; dies geht auch mit der (meist stillen) Annahme einher, dass Fehler normalverteilt sind.

Erweiterung:
Zwei zusätzliche Argumente:

  1. Für Varianzen haben wir dieses nette "Gesetz", dass die Summe der Varianzen gleich der Varianzen der Summe für nicht korrelierte Stichproben ist. Wenn wir davon ausgehen, dass der Fehler nicht mit dem Fall korreliert, führt die Minimierung des Restquadrats direkt zur Maximierung der erklärten Varianz. Dies ist möglicherweise ein nicht so gutes, aber immer noch beliebtes Qualitätsmaß.

  2. Wenn wir die Normalität eines Fehlers annehmen, ist der Fehler-Schätzer der kleinsten Quadrate eine maximale Wahrscheinlichkeit eins.

Gemeinschaft
quelle
1
Die Antwort in diesem anderen Thread erklärt nicht wirklich, warum 2 ein besserer Wert ist als andere Werte, die sehr nahe bei 2 liegen, aber keine natürlichen Zahlen sind.
Christian
Ich denke, dass es tut; trotzdem werde ich versuchen die antwort zu erweitern.
Wenn die Fehler also nicht normal verteilt sind, sondern beispielsweise einer anderen Lévy-stabilen Verteilung entsprechen, lohnt es sich möglicherweise, einen anderen Exponenten als 2 zu verwenden.
Raskolnikov
Denken Sie daran, dass die Normalverteilung für bekannte Varianz die "vorsichtigste" ist (da sie die maximale Entropie unter allen Dichten mit fester Varianz aufweist). Es bleibt am meisten von den Daten zu sagen. Oder anders ausgedrückt: Bei "großen" Datenmengen mit der gleichen Varianz muss "man" unglaublich viel "versuchen" , um eine Verteilung zu erhalten, die sich von einer normalen unterscheidet.
Wahrscheinlichkeitslogik
8

In gewöhnlichen kleinsten Quadraten minimiert die Lösung von (A'A) ^ (- 1) x = A'b den quadratischen Fehlerverlust und ist die Lösung mit maximaler Wahrscheinlichkeit.

Hauptsächlich deshalb, weil die Mathematik in diesem historischen Fall einfach war.

Im Allgemeinen minimieren Menschen jedoch viele verschiedene Verlustfunktionen , wie Exponential-, Logistik-, Cauchy-, Laplace-, Huber- usw. Diese exotischeren Verlustfunktionen erfordern im Allgemeinen eine Menge Rechenressourcen und haben (im Allgemeinen) keine geschlossenen Lösungen Sie werden jetzt erst populärer.

Joe
quelle
1
+1 für die Vorstellung von Verlust. (Aber sind es nicht "exponentielle" Verteilungen usw., keine Verlustfunktionen?) Historisch gesehen war der lineare Verlust der erste Ansatz, der 1750 formell entwickelt wurde, und für den eine einfache geometrische Lösung verfügbar war. Ich glaube, Laplace hat in einer Veröffentlichung von 1809 die Beziehung zwischen dieser und der doppelt exponentiellen Verteilung hergestellt (für die der MLE den absoluten Fehler minimiert, nicht den quadratischen Fehler). Der quadratische Verlust wird also nicht eindeutig durch die Kriterien MLE und mathematisch einfach unterschieden.
Whuber
Sie sind sowohl Verteilungs- als auch Verlustfunktionen in verschiedenen Kontexten.
Joe
Bei der vorherigen Antwort habe ich zu schnell die Eingabetaste gedrückt. Exponentieller Verlust ist weitgehend mit Boosting verbunden (siehe Friedman Hastie und Tibshiranis Statistical View of Boosting), bei dem es sich eher um einen Verlust als um eine Verteilung handelt. Logistische Regression entspricht logarithmischem Verlust, Laplace ist jedoch eine Verteilung entspricht einem absoluten Wertverlust - also war ich größtenteils extrem schlampig, danke, dass Sie darauf hingewiesen haben. L1-Verlust hat zwar eine geometrische Lösung, ist jedoch keine analytisch geschlossene Form, sodass ich seine Lösung kaum als einfach bezeichnen würde.
Joe
1

Mein Verständnis ist, dass wir, weil wir versuchen, Fehler zu minimieren, einen Weg finden müssen, um nicht in eine Situation zu geraten, in der die Summe der negativen Fehlerdifferenzen gleich der Summe der positiven Fehlerdifferenzen ist, dies aber nicht der Fall ist fand eine gute Passform. Wir tun dies, indem wir die Summe der Fehlerdifferenzen quadrieren, was bedeutet, dass sowohl die negative als auch die positive Fehlerdifferenz positiv werden (-1×-1=1). Wenn wir erhöht habenx Hoch von etwas anderem als einer positiven ganzen Zahl würden wir dieses Problem nicht angehen, weil die Fehler nicht das gleiche Vorzeichen hätten, oder wenn wir hoch von etwas, das keine ganze Zahl ist, würden wir in die Bereiche der Komplexität eintreten zahlen.

Ian Turner
quelle