Ist die Reihenfolge der erklärenden Variablen bei der Berechnung ihrer Regressionskoeffizienten von Bedeutung?

24

Zuerst dachte ich, dass die Reihenfolge keine Rolle spielt, aber dann las ich über den Gramm-Schmidt-Orthogonalisierungsprozess zur Berechnung mehrerer Regressionskoeffizienten, und jetzt habe ich Bedenken.

Je später eine erklärende Variable unter den anderen Variablen indiziert wird, desto kleiner ist nach dem Gramm-Schmidt-Verfahren ihr Restvektor, weil die Restvektoren der vorhergehenden Variablen von ihr subtrahiert werden. Infolgedessen ist auch der Regressionskoeffizient der erklärenden Variablen kleiner.

Wenn dies zutrifft, wäre der Restvektor der fraglichen Variablen größer, wenn er früher indiziert würde, da weniger Restvektoren davon subtrahiert würden. Dies bedeutet, dass der Regressionskoeffizient auch größer wäre.

Ok, also wurde ich gebeten, meine Frage zu klären. Also habe ich Screenshots von dem Text gepostet, der mich an erster Stelle verwirrt hat. Ok, hier geht.

Meines Wissens gibt es mindestens zwei Möglichkeiten, um die Regressionskoeffizienten zu berechnen. Die erste Option ist im folgenden Screenshot mit (3.6) gekennzeichnet.

Der erste Weg

Hier ist die zweite Option (ich musste mehrere Screenshots verwenden).

Der zweite Weg

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Sofern ich nichts falsch verstehe (was definitiv möglich ist), scheint es, dass bei der zweiten Option die Reihenfolge wichtig ist. Ist es wichtig, in der ersten Option? Warum oder warum nicht? Oder ist mein Referenzrahmen so durcheinander, dass dies nicht einmal eine gültige Frage ist? Hängt das alles irgendwie mit der Summe der Quadrate vom Typ I mit der Summe der Quadrate vom Typ II zusammen?

Vielen Dank im Voraus, ich bin so verwirrt!

Ryan Zotti
quelle
1
Können Sie die genaue Vorgehensweise bei der Berechnung der Koeffizienten beschreiben? Nach dem, was ich über die Gramm-Schmidt-Orthogonalisierung weiß und wie sie auf das Regressionsproblem angewendet werden kann, kann ich davon ausgehen, dass Sie mit dem gs-Verfahren die Regression anpassen können, nicht jedoch die ursprünglichen Koeffizienten. Beachten Sie, dass die Regressionsanpassung die Projektion auf den Raum der Spalten ist. Wenn Sie die Spalten orthogonalisieren, erhalten Sie die orthogonale Basis des Raums, der die Spalten überspannt, daher ist die Anpassung eine lineare Kombination dieser Basis und auch eine lineare Kombination der ursprünglichen Spalten. Es wird das gleiche sein ...
mpiktas
Die Koeffizienten sind jedoch unterschiedlich. Das ist völlig normal.
mpiktas
Ich glaube, ich bin verwirrt, weil ich dachte, ich hätte in "Die Elemente des statistischen Lernens" gelesen, dass die nach dem Gram-Schmidt-Verfahren berechneten Koeffizienten die gleichen sind wie die nach dem herkömmlichen Verfahren berechneten: B = (X'X) ^ - 1 X'y.
Ryan Zotti
Hier ist der Auszug aus dem Buch, in dem es um die Prozedur geht: "Wir können die Schätzung [der Koeffizienten] als Ergebnis von zwei Anwendungen der einfachen Regression betrachten. Die Schritte sind: 1. Regression von x auf 1, um den Rest z = zu erzeugen x - x ̄1; 2. Regulieren Sie y auf den Rest z, um den Koeffizienten βˆ1 zu erhalten. Dieses Rezept verallgemeinert den Fall von p Eingaben, wie in Algorithmus 3.1 gezeigt. Beachten Sie, dass die Eingaben z0, ..., zj - 1 in Schritt 2 sind orthogonal, daher sind die dort berechneten einfachen Regressionskoeffizienten tatsächlich auch die multiplen Regressionskoeffizienten.
Ryan Zotti
Es wird ein bisschen chaotisch, wenn ich in den Kommentarbereich hier kopiere und einfüge, also ist es wahrscheinlich am besten, sich nur die Quelle direkt anzuschauen. Die Seiten 53 bis 54 von "The Elements of Statistical Learning" können kostenlos von Stanfords Website heruntergeladen werden: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Antworten:

22

Ich glaube, dass die Verwirrung von etwas Einfacherem herrührt, aber es bietet eine gute Gelegenheit, einige verwandte Themen zu besprechen.

β^ichΒ p

β^ich=?y,zichzich2,
β^p

Das aufeinanderfolgende Orthogonalisierungsschema (eine Form der Gram-Schmidt-Orthogonalisierung) erzeugt (fast) ein Paar von Matrizen und derart , daß wobei ist mit orthonormalen Spalten und ist oberes Dreieck. Ich sage "fast", da der Algorithmus nur bis zu den Normen der Spalten spezifiziert , was im Allgemeinen nicht einer sein wird, sondern durch Normalisieren der Spalten und Vornehmen einer entsprechenden einfachen Anpassung der Koordinate zur Einheitsnorm gemacht werden kann Matrix .G X = Z GZGZ n × p G = ( g i j ) p × p Z G

X=ZG,
Zn×pG=(Gichj)p×pZG

Vorausgesetzt natürlich, dass den Rang , ist die eindeutige Lösung der kleinsten Quadrate der Vektor , der das System löst p n β X T X β = X T yXRn×ppnβ^

XTXβ^=XTy.

Einsetzen von und Verwenden von (durch Konstruktion) ergibt Das entspricht Z T Z = I G T G β = G T Z T yX=ZGZTZ=IG β = Z T y

GTGβ^=GTZTy,
Gβ^=ZTy.

Konzentrieren Sie sich nun auf die letzte Reihe des linearen Systems. Das einzige Nicht-Null-Element von in der letzten Zeile ist . Wir erhalten also Es ist nicht schwer zu erkennen (dies zur Überprüfung des Verständnisses!), Dassund so ergibt sich die Lösung. ( Vorbehalt Lector : Ich habe bereits normalisiert, um Einheitennorm zu haben, während in dem Buch sie nicht haben . Dies erklärt die Tatsache, dass das Buch eine quadratische Norm im Nenner hat, während ich nur die Norm habe.)g P p g p p β p = y , z pGgppg p p = z pz i

gppβ^p=y,zp.
gpp=zpzi

Um alle Regressionskoeffizienten zu finden , muss man einen einfachen Backsubstitutionsschritt durchführen, um nach dem Individuum zu lösen . Beispielsweise für die Zeile , und so Man kann diese Prozedur "rückwärts" von der letzten Reihe des Systems bis zur ersten fortsetzen, indem man gewichtete Summen der bereits berechneten Regressionskoeffizienten subtrahiert und dann durch den führenden Term , um .(p-1)gp-1,p-1 β p-1+gp-1,p β p=zp-1,yβ^i(p1)Β p - 1 = g - 1 p - 1 , p - 1z p - 1 , y

Gp-1,p-1β^p-1+Gp-1,pβ^p=zp-1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

Der Punkt im Abschnitt in ESL ist, dass wir die Spalten von neu anordnen können, um eine neue Matrix wobei die te ursprüngliche Spalte jetzt die letzte ist. Wenn wir dann die Gram-Schmidt-Prozedur auf die neue Matrix anwenden, erhalten wir eine neue Orthogonalisierung, sodass die Lösung für den ursprünglichen Koeffizienten durch die einfache Lösung oben gefunden wird. Dies gibt uns eine Interpretation für den Regressionskoeffizienten . Es handelt sich um eine univariate Regression von auf den Restvektor, die durch "Regression" der verbleibenden Spalten der Entwurfsmatrix aus .XX(r)rβ^rβ^ryxr

Allgemeine QR-Zerlegungen

Das Gram-Schmidt - Verfahren ist jedoch ein Verfahren zur Herstellung einer QR - Zerlegung der Herstellung . Tatsächlich gibt es viele Gründe, andere algorithmische Ansätze dem Gram-Schmidt-Verfahren vorzuziehen.X

Hausbesitzerreflexionen und Givens-Rotationen bieten numerisch stabilere Ansätze für dieses Problem. Beachten Sie, dass sich die obige Entwicklung im allgemeinen Fall der QR-Zerlegung nicht ändert. Das heißt, läßt sein jede QR - Zerlegung von . Unter Verwendung genau derselben Überlegungen und algebraischen Manipulationen wie oben haben wir dann, dass die Lösung der kleinsten Quadrate erfüllt. das vereinfacht sich zu Da ein oberes Dreieck ist, funktioniert die gleiche Rücksubstitutionstechnik. Wir lösen zuerst nach

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^pund dann von unten nach oben rückwärts arbeiten. Die Wahl für dem QR Dekompositionsalgorithmus zu verwenden in der Regel Scharniere auf die Steuerung numerische Instabilität und aus dieser Perspektive, Gram-Schmidt ist in der Regel kein wettbewerbsorientiert.

Dieser Begriff der Zerlegung von als orthogonale Matrix mal etwas anderes kann auch ein wenig weiter verallgemeinert werden, um eine sehr allgemeine Form für den angepassten Vektor , aber ich befürchte, dass diese Antwort bereits zu lang geworden ist .Xy^

Kardinal
quelle
6

Ich hatte einen Blick durch das Buch und es sieht aus wie Übung 3.4 könnte nützlich sein , GS in das Verständnis des Konzepts der Verwendung aller Regressionskoeffizienten finden (nicht nur der letzte Koeffizient - so dass ich eine Lösung getippt Hope this ist. sinnvoll.βjβp

Übung 3.4 in ESL

Zeigen Sie, wie der Vektor der kleinsten Quadrate aus einem einzelnen Durchgang des Gram-Schmidt-Verfahrens erhalten werden kann. Stellen Sie Ihre Lösung in Bezug auf die QR-Zerlegung von . X

Lösung

Erinnern wir uns, dass wir durch einen einzelnen Durchgang der Gram-Schmidt-Prozedur unsere Matrix als schreiben können wobei die orthogonalen Spalten enthält und eine Matrix mit einer oberen Diagonale und einer solchen auf der Diagonale ist . Dies spiegelt die Tatsache , dass per DefinitionX

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Durch die Zerlegung können wir nun schreiben , wobei eine orthogonale Matrix und eine obere Dreiecksmatrix ist. Wir haben und , wobei eine Diagonalmatrix mit. QRX=QRQRQ=ZD1R=DΓDDjj=zj

Nun haben wir per Definition von Unter Verwendung der Zerlegung haben wir nunβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R ist das obere Dreieck, wir können schreiben gemäß unseren vorherigen Ergebnissen. Jetzt können wir durch Rücksubstitution die Folge der Regressionskoeffizienten . Zum Berechnen von haben wir

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
und dann nach . Dieser Vorgang kann für alle wiederholt werden , wodurch die Regressionskoeffizienten in einem Durchgang der Gram-Schmidt-Prozedur erhalten werden.β^p1βj
Andrew Tulloch
quelle
3

Warum nicht versuchen und vergleichen? Passen Sie eine Reihe von Regressionskoeffizienten an, ändern Sie dann die Reihenfolge und passen Sie sie erneut an und prüfen Sie, ob sie sich unterscheiden (außer einem möglichen Rundungsfehler).

Wie @mpiktas darauf hinweist, ist nicht genau klar, was Sie tun.

Ich kann sehen, dass GS verwendet wird, um nach in der Gleichung der kleinsten Quadrate zu lösen . Aber dann würden Sie die GS auf der -Matrix , nicht auf den Originaldaten. In diesem Fall sollten die Koeffizienten gleich sein (mit Ausnahme eines möglichen Rundungsfehlers).B(xx)B=(xy)(xx)

Ein weiterer Ansatz von GS in der Regression besteht darin, GS auf die Prädiktorvariablen anzuwenden, um die Kolinearität zwischen ihnen zu beseitigen. Dann werden die orthogonalisierten Variablen als Prädiktoren verwendet. In diesem Fall sind die Reihenfolge und die Koeffizienten unterschiedlich, da die Interpretation der Koeffizienten von der Reihenfolge abhängt. Betrachte 2 Prädiktoren und und führe GS auf ihnen in dieser Reihenfolge aus und benutze sie dann als Prädiktoren. In diesem Fall zeigt der erste Koeffizient (nach dem Schnittpunkt) die Auswirkung von auf für sich und der zweite Koeffizient ist die Auswirkung von auf nach Anpassung vonx1x2x1yx2yx1. Wenn Sie nun die Reihenfolge der x umkehren, zeigt der erste Koeffizient die Auswirkung von auf für sich (wobei ignoriert und nicht angepasst wird), und der zweite ist die Auswirkung von , die für .x2yx1x1x2

Greg Snow
quelle
Ich denke, Ihr letzter Absatz ist wahrscheinlich der Quelle meiner Verwirrung am nächsten - GS macht die Bestellung zur Angelegenheit. Das ist was ich dachte. Ich bin jedoch immer noch ein bisschen verwirrt, weil das Buch, das ich lese, den Titel "The Elements of Statistical Learning" (eine Stanford-Veröffentlichung, die frei erhältlich ist: www-stat.stanford.edu/~tibs/ElemStatLearn ) zu tragen scheint legen nahe, dass GS dem Standardansatz für die Berechnung der Koeffizienten entspricht; das heißt, B = (X'X) ^ - 1 X'y.
Ryan Zotti
Und ein Teil von dem, was Sie sagen, verwirrt mich auch ein bisschen: "Ich kann sehen, dass GS verwendet wird, um nach B in der Gleichung der kleinsten Quadrate (x'x) zu lösen ^ - 1 B = (x'y). Aber dann würden Sie das tun GS in der (x'x) Matrix, nicht die Originaldaten. " Ich dachte, die x'x-Matrix enthält die Originaldaten? ... Zumindest sagt das Elements of Statistical Learning. Es heißt, das x in x'x ist eine N mal p-Matrix, wobei N die Anzahl der Eingaben (Beobachtungen) und p die Anzahl der Dimensionen ist.
Ryan Zotti
Wenn GS nicht das Standardverfahren zur Berechnung der Koeffizienten ist, wie wird dann typischerweise die Kollinearität behandelt? Wie verteilt sich Redundanz (Kollinearität) typischerweise auf die x? Macht Kollinearität die Koeffizienten nicht traditionell instabil? Dann würde nicht darauf hindeuten , dass das GS - Verfahren ist das Standardverfahren? Weil der GS-Prozess auch die Koeffizienten instabil macht - ein kleinerer Restvektor macht den Koeffizienten instabil.
Ryan Zotti
Zumindest heißt es in diesem Text: "Wenn xp in hohem Maße mit einigen der anderen xk korreliert, ist der Restvektor zp nahe Null und ab (3.28) ist der Koeffizient βˆp sehr instabil."
Ryan Zotti
2
Beachten Sie, dass GS ist eine Form von QR - Zerlegung.
Kardinal