Warum verwendet die lineare Regression eine Kostenfunktion, die auf dem vertikalen Abstand zwischen der Hypothese und dem Eingabedatenpunkt basiert?

14

Angenommen, wir haben die Eingabe- (Prädiktor) und Ausgabedatenpunkte (Antwortdatenpunkte) A, B, C, D, E, und wir möchten eine Linie durch die Punkte einpassen. Dies ist ein einfaches Problem, um die Frage zu veranschaulichen, kann aber auch auf höhere Dimensionen ausgedehnt werden.

Problemstellung

Bildbeschreibung hier eingeben

Die derzeit beste Anpassung oder Hypothese wird durch die schwarze Linie oben dargestellt. Der blaue Pfeil ( ) stellt den vertikalen Abstand zwischen dem Datenpunkt und der aktuell besten Anpassung dar, indem eine vertikale Linie vom Punkt bis zum Schnittpunkt mit der Linie gezeichnet wird.

Der grüne Pfeil ( ) ist so gezeichnet, dass er im Schnittpunkt senkrecht zur aktuellen Hypothese steht und somit den geringsten Abstand zwischen dem Datenpunkt und der aktuellen Hypothese darstellt. Für die Punkte A und B wird eine Linie so gezeichnet, dass sie senkrecht zur aktuellen Schätzung verläuft und einer Linie entspricht, die senkrecht zur x-Achse verläuft. Bei diesen beiden Punkten überlappen sich die blaue und die grüne Linie, bei den Punkten C, D und E.

Das Prinzip der kleinsten Quadrate definiert die Kostenfunktion für die lineare Regression, indem eine vertikale Linie durch die Datenpunkte (A, B, C, D oder E) zur geschätzten Hypothese ( ) in einem bestimmten Trainingszyklus gezogen wird und durch dargestellt wird

CostFunction=i=1N(yihθ(xi))2

Hier repräsentiert die Datenpunkte und h & thgr; ( x i ) repräsentiert die beste Anpassung.(xi,yi)hθ(xich)

Der Mindestabstand zwischen einem Punkt (A, B, C, D oder E) wird durch eine senkrechte Linie dargestellt, die von diesem Punkt bis zur aktuellen Schätzung gezogen wird (grüne Pfeile).

Das Ziel der Kleinstquadratfunktion besteht darin, eine Zielfunktion zu definieren, die bei Minimierung den geringsten Abstand zwischen der Hypothese und allen kombinierten Punkten erzeugt, jedoch nicht notwendigerweise den Abstand zwischen der Hypothese und einem einzelnen Eingabepunkt minimiert.

**Frage**

Warum definieren wir die Kostenfunktion für die lineare Regression nicht als den geringsten Abstand zwischen dem Eingabedatenpunkt und der Hypothese (definiert durch eine Linie senkrecht zur Hypothese), die durch den Eingabedatenpunkt verläuft, wie durch ( ) angegeben?

alpha_989
quelle
5
Bei der einfachen linearen Regression wird davon ausgegangen, dass die Werte der x-Koordinaten der Beobachtungen fehlerfrei sind (z. B. weil es sich um experimentelle Manipulationen handelt). Wenn es Fehler auf der x-Achse gibt, kann man diese durch Minimieren einer Kostenfunktion, die der von Ihnen vorgeschlagenen ähnelt, berücksichtigen. Dazu muss das Verhältnis zwischen der Varianz der Fehler auf der x- und der y-Achse eingestellt werden. Wenn das Verhältnis , wird der senkrechte Abstand zwischen den Punkten und der Linie minimiert (orthogonale Regression). Wenn das Verhältnis 1 ist, heißt es Deeming Regression=11
Matteo
Siehe diesen Beitrag auf PCA: cerebralmastication.com/2010/09/…
James

Antworten:

13

Wenn Sie sowohl in der abhängigen Variablen (vertikale Fehler) als auch in der unabhängigen Variablen (horizontale Fehler) Rauschen haben, kann die Zielfunktion der kleinsten Quadrate geändert werden, um diese horizontalen Fehler zu berücksichtigen. Das Problem bei der Gewichtung dieser beiden Fehlertypen. Diese Gewichtung hängt normalerweise vom Verhältnis der Varianzen der beiden Fehler ab:

  1. Wenn die Varianz des vertikalen Fehlers im Verhältnis zur Varianz des horizontalen Fehlers extrem groß ist, ist OLS korrekt.
  2. Wenn die Varianz des Horizontalfehlers im Verhältnis zur Varianz des Vertikalfehlers extrem groß ist, sind inverse kleinste Quadrate (in denen auf y zurückgegangen ist und die Inverse der Koeffizientenschätzung für y als Schätzung von β verwendet wird ) angemessen.xyyβ
  3. Wenn das Verhältnis der Varianz des vertikalen Fehlers zur Varianz des horizontalen Fehlers gleich dem Verhältnis der Varianzen der abhängigen und unabhängigen Variablen ist, liegt der Fall einer "diagonalen" Regression vor, bei der sich eine konsistente Schätzung ergibt sei das geometrische Mittel des OLS und der inversen Schätzer der kleinsten Quadrate.
  4. Wenn das Verhältnis dieser Fehlervarianzen eins ist, haben wir den Fall einer "orthogonalen" Regression, bei der die Summe der quadratischen Fehler, die entlang einer Linie senkrecht zur Schätzlinie gemessen werden, minimiert wird. Das ist es, was du im Sinn hattest.

In der Praxis besteht der große Nachteil dieses Verfahrens darin, dass das Verhältnis der Fehlervarianzen normalerweise nicht bekannt ist und normalerweise nicht geschätzt werden kann, so dass der Weg vorwärts nicht klar ist.

Dimitriy V. Masterov
quelle
Ich habe versucht zu bearbeiten, um "abhängig" in "unabhängig" im ersten Satz zu ändern, aber Änderungen müssen aus 6 Zeichen bestehen. Vielleicht die Antwort aktualisieren, um den Tippfehler zu beheben?
Ryan Stout
@ RyanStout Danke und fertig. Ich denke, das Einfügen von Leerzeichen hilft Ihnen dabei.
Dimitriy V. Masterov
Jetzt bin ich ein bisschen verwirrt: Sind die vertikalen Fehler nicht die Fehler in der abhängigen Variablen (y) und die horizontalen Fehler in der unabhängigen Variablen (x)?
Ryan Stout
@ RyanStout Ich habe es wieder vermasselt
Dimitriy V. Masterov
9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
quelle
Das ist ein guter Punkt. Ich dachte darüber nach, wie man die Kostenfunktion im Allgemeinen berechnet.
Alpha_989
Ich bin nicht unbedingt sicher, wie der Abstand zwischen dem Punkt und einer nichtlinearen Fläche / Fläche bewertet werden soll, aber um den Abstand zwischen einem Punkt und einer linearen Fläche / Fläche zu bewerten, ist möglicherweise keine verschachtelte Minimierung erforderlich
alpha_989
Zweitens ist es unser Ziel, die Gewichte zu bewerten, um die beste Anpassung zu finden, wenn wir die Regression verwenden. Soweit ich weiß, bewerten wir während der eigentlichen Berechnung selten die Kostenfunktion, sondern eine Ableitung der Kostenfunktion.
Alpha_989
1
@whuber. Aha. Sobald wir diese Bedeutungen für diese beiden Begriffe festgelegt haben, stimme ich zu, dass die zu lösenden Probleme unterschiedlich sind (besteht die Möglichkeit, dass ein Fehler in x vorliegt oder nicht). Ich glaube nicht, dass Sie von sachkundigen Personen eine breite Zustimmung zur Bedeutung dieser Begriffe erhalten, aber das ist ein Nebeneffekt.
Stochastic
1
@Stochastic Ich stimme zu, dass das Konzept der "Kurvenanpassung" möglicherweise unklar ist, aber das Konzept der Regression, auf das ich mich berufe, erscheint in den Schriften der besten Autoritäten.
whuber
2

Die stark vereinfachte Version geht davon aus, dass X keinen Fehler aufweist. Wenn Sie also beispielsweise Punkt E in Ihrem Diagramm betrachten, wird davon ausgegangen, dass die X-Koordinate genau ist. In der Regel ist dies der Fall, wenn wir X steuern können, dh wenn wir einen bestimmten Wert festlegen können. In diesem Fall kann der einzige Fehler in der Y-Richtung vorliegen, weshalb die Fehler- / Kostenfunktion nur die Y-Richtung enthält.

Wann immer dies nicht der Fall ist und wann immer wir X nicht kontrollieren und X Fehler haben kann, wird die X-Richtung in die Fehlerfunktion in eine sogenannte Typ II- oder Modell II-Regression und deren Varianten einbezogen. Es kann schwierig sein, dies zu tun, wenn X und Y unterschiedliche Maßstäbe haben. Dann müssen Sie über Normalisierungen und dergleichen nachdenken.

KWK
quelle
1

Der Grund für die Fehlerfunktion besteht darin, dass die Standardinterpretation darin besteht, dass das x gegeben ist und versucht wird, die y-Komponente am besten zu beschreiben (oder vorherzusagen). Es liegt also kein Fehler im 'x' vor. Zum Beispiel könnten Sie versuchen, den Schlusskurs einer Aktie morgen auf der Grundlage des heutigen Schlusskurses zu verstehen (oder vorherzusagen). Ebenso könnte man versuchen, die Durchschnittstemperatur morgen in Bezug auf die heutige Durchschnittstemperatur zu verstehen. Offensichtlich sind diese Beispiele einfach, aber das ist die Idee. Übrigens ist den meisten Leuten nicht klar, aber ich denke, aus Ihren Beispielen geht hervor, dass die Regressionslinie, wenn man y gegen x zurückführt, keine besondere Ähnlichkeit mit der Regression von x gegen y haben muss. Orthogonale Regression ist der Begriff für eine Regression, bei der versucht wird, die Linie zu finden, die den Abstand von Punkten zu einer Linie minimiert. Wenn man zum Beispiel versuchen würde, die Beziehung zwischen dem Preis der IBM-Aktie und dem Preis der AAPL-Aktie zu verstehen, wäre dies die geeignete Methode.

meh
quelle
1

Sie haben Recht, dass beim Anpassen einer Linie durch Punkte der orthogonale Abstand die natürlichste Verlustfunktion ist, die auf beliebige Linien angewendet werden kann (beachten Sie, dass der y-Abstand für Linien senkrecht zur x-Achse bedeutungslos wird). Dieses Problem ist unter einer Reihe von Namen bekannt, z. B. "orthogonale Regression" oder (der am häufigsten verwendete Begriff, AFAIK) "Principal Component Analysis" (PCA). Eine Diskussion dieses Problems in beliebigen Dimensionen finden Sie unter

Späth: "Orthogonale kleinste Quadrate mit linearen Mannigfaltigkeiten." Numerische Mathematik 48, S. 441–445, 1986

Wie @aginensky bereits betont hat, besteht die Idee hinter der linearen Regression nicht darin, eine Linie durch Punkte zu ziehen, sondern y-Werte für gegebene x-Werte vorherzusagen . Deshalb wird nur der Abstand in y verwendet, der die Vorhersagegenauigkeit darstellt.

Neuformulierung des Problems der Kurvenanpassung x(t) durch Punkte pich, ich=1N Als Vorhersageproblem macht das die Sache kompliziert, weil der Prädiktor tist unbekannt und bis zu einem gewissen Grad willkürlich. Für andere Kurven als gerade Linien ist dies immer noch ein Problem, das Gegenstand aktiver Forschung ist. Ein möglicher (unvollständiger) Ansatz wird im folgenden Artikel beschrieben, der unvollständig ist, da er keine Lösung für das Finden einer anfänglichen Vermutung für die Kurve bietet, sondern nur die Möglichkeit, eine solche anfängliche Vermutung iterativ zu verbessern:

Wang, Pottmann, Liu: "Anpassung von B-Spline-Kurven an Punktwolken durch krümmungsbasierte Minimierung des quadratischen Abstands." ACM Transactions on Graphics 25.2, S. 214-238, 2006

cdalitz
quelle