Frage zu einem normalen Gleichungsbeweis

11

Wie können Sie beweisen, dass die normalen Gleichungen: eine oder mehrere Lösungen haben, ohne dass angenommen wird, dass X invertierbar ist?(XTX)β=XTY

Meine einzige Vermutung ist, dass es etwas mit generalisierter Umkehrung zu tun hat, aber ich bin total verloren.

Ryati
quelle
1
Sie erhalten Punkte, wenn Sie Fragen stellen, die erstaunliche Antworten hervorrufen.
Nikana Reklawyks

Antworten:

14

Man ist versucht, glib zu sein und darauf hinzuweisen, weil die quadratische Form

β(YXβ)(YXβ)

Ist positiv semi-definit, gibt es ein für das es minimal ist, und dieses Minimum wird (durch Setzen des Gradienten in Bezug auf auf Null) mit den normalen Gleichungen gefundenββ

XX(YXβ)=0,

woher muss es mindestens eine Lösung geben, unabhängig vom Rang vonXX . Dieses Argument scheint jedoch nicht im Sinne der Frage zu sein, die eine rein algebraische Aussage zu sein scheint. Vielleicht ist es von Interesse zu verstehen, warum und unter welchen Bedingungen eine solche Gleichung eine Lösung haben muss. Beginnen wir also von vorne und tun so, als ob wir den Zusammenhang mit den kleinsten Quadraten nicht kennen.


Es kommt alles auf die Bedeutung von unten , die transponierte . Dies wird sich als eine Frage einer einfachen Definition, einer angemessenen Notation und des Konzepts einer nicht entarteten sesquilinearen Form herausstellen . Denken Sie daran, dass die "Entwurfsmatrix" aus Zeilen (eine für jede Beobachtung) und Spalten (eine für jede Variable, einschließlich einer Konstanten, falls vorhanden) ist. Es stellt daher eine lineare Transformation vom Vektorraum nach .XXXnpV=RpW=Rn

Die Transponierung von , die als lineare Transformation betrachtet wird , ist eine lineare Transformation der dualen Räume . Um eine Komposition wie , muss mit identifiziert werden . Das ist es, was das übliche innere Produkt (Summe der Quadrate) auf tut.X X:WVXXWWW

Es gibt tatsächlich zwei innere Produkte und die auf bzw. sind. Dies sind bilineare symmetrische Funktionen mit reellen Werten, die nicht entartet sind . Letzteres bedeutet dasgVgWVW

gW(u,v)=0 uWv=0,

mit analogen Aussagen für . Mit diesen inneren Produkten können wir geometrisch Länge und Winkel messen. Die Bedingung betrachtet werden kann als "senkrecht" zu sein . Nichtentartung bedeutet, dass nur der Nullvektor senkrecht zum gesamten Vektorraum steht. (Diese Allgemeinheit bedeutet, dass die hier erhaltenen Ergebnisse für die Einstellung der verallgemeinerten kleinsten Quadrate gelten , für die nicht unbedingt das übliche innere Produkt ist, das als Summe der Produkte von Komponenten angegeben wird, sondern eine willkürliche nicht entartete Form ist. Wir könnten insgesamt auf verzichten Definieren vongVg(u,v)=0uvgWgVX:WV, aber ich erwarte, dass viele Leser mit doppelten Leerzeichen nicht vertraut oder unangenehm sind, und entscheide mich daher, diese Formulierung zu vermeiden.)

Mit diesen inneren Produkten in der Hand wird die Transponierung einer linearen Transformation durch via definiertX:VWX:WV

gV(X(w),v)=gW(w,X(v))

für alle und . Dass es tatsächlich einen Vektor mit dieser Eigenschaft gibt, kann festgestellt werden, indem Dinge mit Basen für und ; Dass dieser Vektor einzigartig ist, ergibt sich aus der Nichtentartung der inneren Produkte. Denn wenn und zwei Vektoren sind, für die für alle , dann (aus der Linearität in der ersten Komponente) für alle was bedeutet, dass .wWvVX(w)VVWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Wenn Schreib für den Satz von allen Vektoren , die senkrecht zu jedem Vektor in . Schreiben Sie auch als Notation für das Bild von , das als die Menge . Eine grundlegende Beziehung zwischen und seiner Transponierten istUW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Das heißt, befindet sich genau dann im Kern von wenn senkrecht zum Bild von . wXwX Diese Behauptung sagt zwei Dinge aus:

  1. Wenn , dann ist für alle , die lediglich bedeutet, dass senkrecht zu .X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Wenn senkrecht zu ist, bedeutet nur für alle , aber dies ist äquivalent zu und Nichtentartung von impliziert .wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

Wir sind jetzt tatsächlich fertig. Die Analyse hat gezeigt, dass als direktes Produkt zerfällt . Das heißt, wir können jedes beliebige und es eindeutig als mit und schreiben. . Daß Mittel von der Form für mindestens einen . Beachten Sie also, dassWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

Die grundlegende Beziehung besagt, dass dies dasselbe ist wie die linke Seite im Kernel von :X

X(yXβ)=0,

woher löst die normalen GleichungenβXXβ=Xy.


Wir sind jetzt in der Lage, eine kurze geometrische Antwort auf die Frage zu geben (zusammen mit einigen aufschlussreichen Kommentaren): Die normalen Gleichungen haben eine Lösung, weil jeder Vektor (eindeutig) als Summe eines Vektors zerfällt im Bereich von und einem anderen Vektor senkrecht zu und ist das Bild von mindestens einer -vector . Die Dimension des Bildes (sein Rang ) ist die Dimension der identifizierbaren Parameter. Die Dimension des Kernels vonnyWy0Xyy0y0pβVX(V)Xzählt die nichttrivialen linearen Beziehungen zwischen den Parametern. Alle Parameter sind identifizierbar, wenn eine Eins-zu-Eins-Zuordnung von zu seinem Bild in .XVW

Es ist letztendlich nützlich, auf den Raum insgesamt zu verzichten und vollständig mit dem Unterraum , dem "Spaltenraum" der Matrix . Die Normalgleichungen Menge an orthogonaler Projektion auf . Dies befreit uns konzeptionell von der Bindung an eine bestimmte Parametrisierung des Modells und zeigt, dass Modelle der kleinsten Quadrate eine intrinsische Dimension haben, unabhängig davon, wie sie gerade parametrisiert werden.VU=X(V)WXU


Ein interessantes Ergebnis dieser abstrakten algebraischen Demonstration ist, dass wir die normalen Gleichungen in beliebigen Vektorräumen lösen können. Das Ergebnis gilt beispielsweise für komplexe Räume, für Räume über endlichen Feldern (wo das Minimieren einer Quadratsumme wenig Sinn macht) und sogar über unendlich dimensionale Räume, die geeignete sequilineare Formen unterstützen.

whuber
quelle
1
Ich hatte erst viel später den Repräsentanten, um diese Antwort zu akzeptieren. Ich bin gerade darauf gestoßen und wollte mich noch einmal bei Ihnen bedanken!
Ryati
Ich würde diese quadratische Form als anstatt als schreiben und Verwenden Sie den anderen Pfeil für Dinge wie
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy
@ Michael Es muss ein Tippfehler in Ihrem Kommentar sein. Würde es Ihnen etwas ausmachen zu klären, was Sie meinten?
whuber
@whuber: Ich finde keinen Tippfehler. Der Punkt ist, dass die beiden Pfeile und unterschiedliche Bedeutungen haben. ''''
Michael Hardy
@ Michael Verzeih mir, dass ich diesen Unterschied trotz vieler Lesungen nicht gesehen habe. Unabhängig davon bezieht sich der erste Pfeil für mich auf eine Injektionsfunktion, während sich der zweite auf eine Funktion bezieht, aber ich vermute, dass Sie dies nicht beabsichtigen. Würde es Ihnen etwas ausmachen, Ihre Notation zu erklären?
whuber
0

Es ist leicht zu zeigen (versuchen Sie es selbst für eine beliebige Anzahl von Punkten, ), dass die Umkehrung von existiert, wenn der Stichprobensatz mindestens zwei unterschiedliche Werte (Prädiktoren) enthält. Nur wenn alle Ihre Daten die gleichen Werte (dh Punkte, die in Richtung entlang einer vertikalen Linie gestapelt sind ), hat jede Linie, die durch ihren Mittelwert wird, eine beliebige Steigung (Regressionskoeffizient). , so dass die LSE-Regressionslinie dann nicht eindeutig ist.nXTXxxi=xyy¯

Lucozade
quelle
Der Vollständigkeit ist für einfache lineare Regression, während für multiple lineare Regression. X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade
3
Der Verweis auf multiple Regression im Kommentar ist rätselhaft, da diese Antwort eindeutig nur für den Fall einer gewöhnlichen Regression gilt, bei der eher eine "Linie" als eine höherdimensionale Oberfläche angepasst wird. Außerdem scheinen Sie eine andere Frage beantwortet zu haben: Diese fragt nur nach dem Fall, in dem nicht invertierbar ist. XX
whuber
0

In der typischen Regression ist X dünn und daher sicherlich nicht invertierbar (obwohl es möglicherweise invertierbar bleibt). Es ist einfach zu beweisen (fragen Sie, ob Sie Hilfe benötigen), dass X ^ T * X invertierbar ist, wenn X dünn und invertierbar bleibt. In diesem Fall gibt es genau eine Lösung. Und wenn X nicht den vollen Spaltenrang hat, ist X ^ T * X nicht der volle Rang, und daher haben Sie ein unterbestimmtes System.

user542833
quelle
1
Diese Bemerkungen scheinen die Frage nicht zu beantworten: Unabhängig vom Rang von wird es immer noch eine Lösung geben. Betrachten Sie als Beispiel den Extremfall, in dem eine Matrix aller Nullen ist. Dann reduzieren sich die normalen Gleichungen auf und jedes ist eine Lösung. XXX0β=0 β
whuber
whuber: natürlich sprechen sie die Frage an: eine Lösung, wenn X den vollen Spaltenrang hat (wie ich bereits erwähnte), und unendliche Lösungen, wenn es sich um ein unterbestimmtes System handelt
user542833
1
Die Tatsache, dass das System "unterbestimmt" ist, bedeutet nicht, dass es überhaupt keine Lösungen hat. Die Frage ist nach der Existenz von Lösungen.
whuber