Frage zu einem normalen Gleichungsbeweis

Man ist versucht, glib zu sein und darauf hinzuweisen, weil die quadratische Form

β \to (Y - X β)^{'} (Y - X β)

$\beta \to (Y - X\beta)'(Y - X\beta)$

Ist positiv semi-definit, gibt es ein für das es minimal ist, und dieses Minimum wird (durch Setzen des Gradienten in Bezug auf auf Null) mit den normalen Gleichungen gefunden $\beta$ $\beta$

X^{'} X (Y - X β) = 0,

$X'X(Y - X\beta) = 0,$

woher muss es mindestens eine Lösung geben, unabhängig vom Rang von $X'X$ . Dieses Argument scheint jedoch nicht im Sinne der Frage zu sein, die eine rein algebraische Aussage zu sein scheint. Vielleicht ist es von Interesse zu verstehen, warum und unter welchen Bedingungen eine solche Gleichung eine Lösung haben muss. Beginnen wir also von vorne und tun so, als ob wir den Zusammenhang mit den kleinsten Quadraten nicht kennen.

Es kommt alles auf die Bedeutung von unten , die transponierte . Dies wird sich als eine Frage einer einfachen Definition, einer angemessenen Notation und des Konzepts einer nicht entarteten sesquilinearen Form herausstellen . Denken Sie daran, dass die "Entwurfsmatrix" aus Zeilen (eine für jede Beobachtung) und Spalten (eine für jede Variable, einschließlich einer Konstanten, falls vorhanden) ist. Es stellt daher eine lineare Transformation vom Vektorraum nach . $X'$ $X$ $X$ $n$ $p$ $\mathbb V = \mathbb{R}^p$ $\mathbb W = \mathbb{R}^n$

Die Transponierung von , die als lineare Transformation betrachtet wird , ist eine lineare Transformation der dualen Räume . Um eine Komposition wie , muss mit identifiziert werden . Das ist es, was das übliche innere Produkt (Summe der Quadrate) auf tut. $X$ $X': \mathbb{W}^* \to \mathbb{V}^*$ $X'X$ $\mathbb{W}^*$ $\mathbb{W}$ $\mathbb{W}$

Es gibt tatsächlich zwei innere Produkte und die auf bzw. sind. Dies sind bilineare symmetrische Funktionen mit reellen Werten, die nicht entartet sind . Letzteres bedeutet das $g_V$ $g_W$ $\mathbb V$ $\mathbb W$

g_{W} (u, v) = 0 \forall u \in W ⟹ v = 0,

$g_W(u, v) = 0\ \forall u\in \mathbb W \implies v = 0,$

mit analogen Aussagen für . Mit diesen inneren Produkten können wir geometrisch Länge und Winkel messen. Die Bedingung betrachtet werden kann als "senkrecht" zu sein . Nichtentartung bedeutet, dass nur der Nullvektor senkrecht zum gesamten Vektorraum steht. (Diese Allgemeinheit bedeutet, dass die hier erhaltenen Ergebnisse für die Einstellung der verallgemeinerten kleinsten Quadrate gelten , für die nicht unbedingt das übliche innere Produkt ist, das als Summe der Produkte von Komponenten angegeben wird, sondern eine willkürliche nicht entartete Form ist. Wir könnten insgesamt auf verzichten Definieren von $g_V$ $g(u,v)=0$ $u$ $v$ $g_W$ $g_V$ $X':\mathbb W\to\mathbb V^*$ , aber ich erwarte, dass viele Leser mit doppelten Leerzeichen nicht vertraut oder unangenehm sind, und entscheide mich daher, diese Formulierung zu vermeiden.)

Mit diesen inneren Produkten in der Hand wird die Transponierung einer linearen Transformation durch via definiert $X: \mathbb V \to \mathbb W$ $X': \mathbb W \to \mathbb V$

g_{V} (X^{'} (w), v) = g_{W} (w, X (v))

$g_V(X'(w), v) = g_W(w, X(v))$

für alle und . Dass es tatsächlich einen Vektor mit dieser Eigenschaft gibt, kann festgestellt werden, indem Dinge mit Basen für und ; Dass dieser Vektor einzigartig ist, ergibt sich aus der Nichtentartung der inneren Produkte. Denn wenn und zwei Vektoren sind, für die für alle , dann (aus der Linearität in der ersten Komponente) für alle was bedeutet, dass . $w\in \mathbb W$ $v\in \mathbb V$ $X'(w) \in \mathbb V$ $\mathbb V$ $\mathbb W$ $v_1$ $v_2$ $g_V(v_1,v)=g_V(v_2,v)$ $v\in\mathbb V$ $g_V(v_1-v_2,v)=0$ $v$ $v_1-v_2=0$

Wenn Schreib für den Satz von allen Vektoren , die senkrecht zu jedem Vektor in . Schreiben Sie auch als Notation für das Bild von , das als die Menge . Eine grundlegende Beziehung zwischen und seiner Transponierten ist $\mathbb U \subset \mathbb W,$ $\mathbb{U}^\perp$ $\mathbb U$ $X(\mathbb V)$ $X$ $\{X(v) | v \in \mathbb V\} \subset \mathbb W$ $X$ $X'$

X^{'} (w) = 0 ⟺ w \in X (V)^{⊥} .

$X'(w) = 0 \iff w \in X(\mathbb V)^\perp.$

Das heißt, befindet sich genau dann im Kern von wenn senkrecht zum Bild von . $w$ $X'$ $w$ $X$ Diese Behauptung sagt zwei Dinge aus:

Wenn , dann ist für alle , die lediglich bedeutet, dass senkrecht zu . $X'(w) = 0$ $g_W(w, X(v)) = g_V(X'(w),v) = g_V(0,v)=0$ $v\in\mathbb V$ $w$ $X(V)$
Wenn senkrecht zu ist, bedeutet nur für alle , aber dies ist äquivalent zu und Nichtentartung von impliziert . $w$ $X(\mathbb V)$ $g_W(w, X(v)) = 0$ $v\in\mathbb V$ $g_V(X'(w), v) = 0$ $g_V$ $X'(w)=0$

Wir sind jetzt tatsächlich fertig. Die Analyse hat gezeigt, dass als direktes Produkt zerfällt . Das heißt, wir können jedes beliebige und es eindeutig als mit und schreiben. . Daß Mittel von der Form für mindestens einen . Beachten Sie also, dass $\mathbb W$ $\mathbb W = X(\mathbb V) \oplus X(\mathbb V)^\perp$ $y \in \mathbb W$ $y = y_0 + y^\perp$ $y_0\in X(\mathbb V)$ $y^\perp \in X(\mathbb V)^\perp$ $y_0$ $X(\beta)$ $\beta\in\mathbb V$

y - X β = (y_{0} + y^{⊥}) - y_{0} = y^{⊥} \in X (V)^{⊥}

$y - X\beta = (y_0 + y^\perp) - y_0 = y^\perp \in X(\mathbb V)^\perp$

Die grundlegende Beziehung besagt, dass dies dasselbe ist wie die linke Seite im Kernel von : $X'$

X^{'} (y - X β) = 0,

$X'(y - X\beta) = 0,$

woher löst die normalen Gleichungen $\beta$ $X'X\beta = X'y.$

Wir sind jetzt in der Lage, eine kurze geometrische Antwort auf die Frage zu geben (zusammen mit einigen aufschlussreichen Kommentaren): Die normalen Gleichungen haben eine Lösung, weil jeder Vektor (eindeutig) als Summe eines Vektors zerfällt im Bereich von und einem anderen Vektor senkrecht zu und ist das Bild von mindestens einer -vector . Die Dimension des Bildes (sein Rang ) ist die Dimension der identifizierbaren Parameter. Die Dimension des Kernels von $n$ $y\in\mathbb W$ $y_0$ $X$ $y^\perp$ $y_0$ $y_0$ $p$ $\beta\in\mathbb V$ $X(\mathbb V)$ $X$ zählt die nichttrivialen linearen Beziehungen zwischen den Parametern. Alle Parameter sind identifizierbar, wenn eine Eins-zu-Eins-Zuordnung von zu seinem Bild in . $X$ $\mathbb V$ $\mathbb W$

Es ist letztendlich nützlich, auf den Raum insgesamt zu verzichten und vollständig mit dem Unterraum , dem "Spaltenraum" der Matrix . Die Normalgleichungen Menge an orthogonaler Projektion auf . Dies befreit uns konzeptionell von der Bindung an eine bestimmte Parametrisierung des Modells und zeigt, dass Modelle der kleinsten Quadrate eine intrinsische Dimension haben, unabhängig davon, wie sie gerade parametrisiert werden. $\mathbb V$ $\mathbb U = X(\mathbb V)\subset\mathbb W$ $X$ $\mathbb U$

Ein interessantes Ergebnis dieser abstrakten algebraischen Demonstration ist, dass wir die normalen Gleichungen in beliebigen Vektorräumen lösen können. Das Ergebnis gilt beispielsweise für komplexe Räume, für Räume über endlichen Feldern (wo das Minimieren einer Quadratsumme wenig Sinn macht) und sogar über unendlich dimensionale Räume, die geeignete sequilineare Formen unterstützen.

whuber
quelle

Ich hatte erst viel später den Repräsentanten, um diese Antwort zu akzeptieren. Ich bin gerade darauf gestoßen und wollte mich noch einmal bei Ihnen bedanken!

Ryati

Ich würde diese quadratische Form als anstatt als schreiben und Verwenden Sie den anderen Pfeil für Dinge wie

β \mapsto (Y - X β)^{'} (Y - X β)

$\beta \mapsto (Y - X\beta)'(Y - X\beta)$

β \to (Y - X β)^{'} (Y - X β),

$\beta \to (Y - X\beta)'(Y - X\beta),$

f : A \to B .

$f:A\to B. \qquad$

Michael Hardy

@ Michael Es muss ein Tippfehler in Ihrem Kommentar sein. Würde es Ihnen etwas ausmachen zu klären, was Sie meinten?

whuber

@whuber: Ich finde keinen Tippfehler. Der Punkt ist, dass die beiden Pfeile und unterschiedliche Bedeutungen haben.

“ \mapsto''

$\text{“}\mapsto\text{''}$

“ \to''

$\text{“}\to\text{''}$

$\qquad$

Michael Hardy

@ Michael Verzeih mir, dass ich diesen Unterschied trotz vieler Lesungen nicht gesehen habe. Unabhängig davon bezieht sich der erste Pfeil für mich auf eine Injektionsfunktion, während sich der zweite auf eine Funktion bezieht, aber ich vermute, dass Sie dies nicht beabsichtigen. Würde es Ihnen etwas ausmachen, Ihre Notation zu erklären?

whuber

In der typischen Regression ist X dünn und daher sicherlich nicht invertierbar (obwohl es möglicherweise invertierbar bleibt). Es ist einfach zu beweisen (fragen Sie, ob Sie Hilfe benötigen), dass X ^ T * X invertierbar ist, wenn X dünn und invertierbar bleibt. In diesem Fall gibt es genau eine Lösung. Und wenn X nicht den vollen Spaltenrang hat, ist X ^ T * X nicht der volle Rang, und daher haben Sie ein unterbestimmtes System.

user542833
quelle

Diese Bemerkungen scheinen die Frage nicht zu beantworten: Unabhängig vom Rang von wird es immer noch eine Lösung geben. Betrachten Sie als Beispiel den Extremfall, in dem eine Matrix aller Nullen ist. Dann reduzieren sich die normalen Gleichungen auf und jedes ist eine Lösung.

X^{'} X

$X'X$

X

$X$

0 β = 0

$0\beta=0$

β

$\beta$

whuber

whuber: natürlich sprechen sie die Frage an: eine Lösung, wenn X den vollen Spaltenrang hat (wie ich bereits erwähnte), und unendliche Lösungen, wenn es sich um ein unterbestimmtes System handelt

user542833

Die Tatsache, dass das System "unterbestimmt" ist, bedeutet nicht, dass es überhaupt keine Lösungen hat. Die Frage ist nach der Existenz von Lösungen.

whuber

Frage zu einem normalen Gleichungsbeweis

Antworten: