Wo ist der erklärende Effekt der gemeinsamen Varianz zwischen Kovariaten in Regressionsverfahren zu berücksichtigen?

7

Im Anschluss an die hervorragenden Antworten für:

Ist die Reihenfolge der erklärenden Variablen bei der Berechnung ihrer Regressionskoeffizienten von Bedeutung?

(Was ich aus pädagogischer Sicht als unglaublich nützlich empfunden habe) Ich habe mich gefragt, wie genau es gelingt, Regressionskoeffizienten bereitzustellen, wenn wir mit hohen kollinearen Daten arbeiten (abgesehen von dem hohen Standardfehler dieser Schätzungen).

Bearbeiten : Der Einfachheit halber habe ich den Abschnitt in der verknüpften Frage reproduziert, der zum Kern der Verwirrung führt (aus Elemente des statistischen Lernens). Die ersten beiden Bilder liefern den Hintergrund, aber der kursiv gedruckte Abschnitt im endgültigen Bild führt zur Wurzel der Intuition, mit der ich zu kämpfen habe:

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Geben Sie hier die Bildbeschreibung ein

Meine Frage in Worten lautet: Wenn, wie oben angegeben, mehrere Regressionskoeffizienten die Wirkung jeder Kovariate auf eine abhängige Variable ausdrücken, die die Variabilität, die durch andere Variablen erklärt werden kann, herausgefiltert hat, wo ist die erklärende Wirkung der gemeinsamen Variabilität der Kovariaten entfielen?

Hinweis Ich hoffe, hier die Intuition zu bekommen - die Algebra und Geometrie der Lösung und beide ziemlich leicht zu verstehen.

Betrachten Sie als Beispiel, das zu erläutern versucht, ein logisches Extrem, bei dem:

Y=X+ϵy

ϵyN(0,0.1)

X1=X+ϵ1

X2=X+ϵ2

ϵ1ϵ2N(0,0.001)

Das heißt, und haben eine starke lineare Beziehung und es gibt eine starke Kollinearität zwischen und die durch ihren gemeinsamen Faktor . Nehmen wir nun an, wir versuchen:YXX1X2X

YX1+X2

Nach dem Gram-Schmidt-Verfahren wird durch das Residuum von oder auf den anderen Kovariaten (in diesem Fall nur untereinander) die gemeinsame Varianz zwischen ihnen effektiv entfernt (hier kann es sein, dass ich falsch verstehe), aber dies beseitigt sicherlich die gemeinsame Element, das es schafft, die Beziehung zu zu erklären ?X1X2Y

Bearbeiten : Um einen Punkt zu verdeutlichen, der im Folgenden ausgeführt wird: Wie in der verknüpften Frage ausgeführt, werden im GS-Verfahren die multiplen Regressionskoeffizienten nicht aus den Zwischenkoeffizienten generiert, die "auf dem Weg" zum endgültigen Residuum erzeugt werden. Das heißt, um den Koeffizienten für , nehmen wir die GS-Prozedur von Achsenabschnitt> > . Um dann den Koeffizienten für zu erzeugen, würden wir Intercept> > . In beiden Fällen geht die entscheidende gemeinsame Varianz aufgrund von und die daraus resultierende Beziehung zu verloren.X2X1X2X1X2X1XY

Sue Doh Nimh
quelle

Antworten:

5

Obwohl Sie sagen, dass Ihnen die Geometrie ziemlich klar ist, halte ich es für eine gute Idee, sie zu überprüfen. Ich habe diese Rückseite einer Umschlagskizze gemacht:

Multiple Regression und Gram-Schmidt-Orthogonalisierung

Die linke Nebenhandlung ist dieselbe wie im Buch: Betrachten Sie zwei Prädiktoren und ; Als Vektoren überspannen und eine Ebene im dimensionalen Raum, und wird auf diese Ebene projiziert, was zu .x1x2x1x2nyy^

Das mittlere Unterplot zeigt die Ebene für den Fall, dass undXx1x2sind nicht orthogonal, aber beide haben eine Einheitslänge. Die Regressionskoeffizientenβ1 und β2 kann durch eine nicht orthogonale Projektion von erhalten werden y^ auf zu x1 und x2: das sollte auf dem Bild ziemlich klar sein. Aber was passiert, wenn wir der Orthogonalisierungsroute folgen?

Die zwei orthogonalisierten Vektoren z1 und z2aus Algorithmus 3.1 sind ebenfalls in der Abbildung dargestellt. Beachten Sie, dass jeder von ihnen über ein separates Gram-Schmidt-Orthogonalisierungsverfahren erhalten wird (separater Lauf von Algorithmus 3.1):z1 ist der Rest von x1 wenn am zurückgegangen x2 ans z2 ist der Rest von x2 wenn am zurückgegangen x1. Deshalbz1 und z2 sind orthogonal zu x2 und x1jeweils und ihre Längen sind kleiner als1. Das ist entscheidend.

Wie im Buch angegeben, der Regressionskoeffizient βi erhalten werden als

βi=ziyzi2=eziyzi,
Dabei bezeichnet einen Einheitsvektor in Richtung von . Wenn ich in meiner Zeichnung auf projiziere, ist die Länge der Projektion (in der Abbildung gezeigt) der Nominator für diesen Bruch. Um den tatsächlichen Wert zu erhalten, muss man durch die Länge von dividieren, die kleiner als , dh das ist größer als die Länge der Projektion.eziziy^ziβizi1βi

Überlegen Sie nun, was im Extremfall einer sehr hohen Korrelation passiert (rechte Nebenzeichnung). Beide sind beträchtlich, aber beide Vektoren sind winzig, und die Projektionen von auf die Richtungen von sind ebenfalls winzig; Das ist es, denke ich, was dich letztendlich beunruhigt. Um jedoch Werte zu erhalten, müssen wir diese Projektionen um inverse Längen von , um die richtigen Werte zu erhalten.βiziy^ziβizi

Nach dem Gram-Schmidt-Verfahren entfernt der Rest von X1 oder X2 auf den anderen Kovariaten (in diesem Fall nur untereinander) effektiv die gemeinsame Varianz zwischen ihnen (dies kann der Punkt sein, an dem ich falsch verstehe), aber dies beseitigt sicherlich die gemeinsame Element, das es schafft, die Beziehung zu Y zu erklären?

Um es noch einmal zu wiederholen: Ja, die "gemeinsame Varianz" wird fast (aber nicht vollständig) aus den Residuen "entfernt" - deshalb sind die Projektionen auf und so kurz. Das Gram-Schmidt-Verfahren kann dies jedoch berücksichtigen, indem es durch die Längen von und normalisiert wird . Die Längen stehen in umgekehrter Beziehung zur Korrelation zwischen und , sodass am Ende das Gleichgewicht wiederhergestellt wird.z1z2z1z2x1x2


Update 1

Im Anschluss an die Diskussion mit @mpiktas in den Kommentaren: die obige Beschreibung ist nicht , wie Gram-Schmidt - Verfahren würde in der Regel zu berechnen Regressionskoeffizienten angewandt werden. Anstatt Algorithmus 3.1 viele Male auszuführen (jedes Mal, wenn die Sequenz der Prädiktoren neu angeordnet wird), kann man alle Regressionskoeffizienten aus dem einzelnen Lauf erhalten. Dies ist in Hastie et al. auf der nächsten Seite (Seite 55) und ist der Inhalt von Übung 3.4. Aber als ich die Frage von OP verstand, bezog sie sich auf den Ansatz mit mehreren Läufen (der explizite Formeln für liefert ).βi

Update 2

Als Antwort auf den Kommentar von OP:

Ich versuche zu verstehen, wie die "gemeinsame Erklärungskraft" einer (Unter-) Menge von Kovariaten zwischen den Koeffizientenschätzungen dieser Kovariaten "verteilt" ist. Ich denke, die Erklärung liegt irgendwo zwischen der von Ihnen bereitgestellten geometrischen Darstellung und mpiktas Punkt darüber, wie sich die Koeffizienten zum Regressionskoeffizienten des gemeinsamen Faktors summieren sollten

Ich denke, wenn Sie versuchen zu verstehen, wie der "gemeinsame Teil" der Prädiktoren in den Regressionskoeffizienten dargestellt wird, müssen Sie überhaupt nicht an Gram-Schmidt denken. Ja, es wird zwischen den Prädiktoren "verteilt". Eine vielleicht nützlichere Möglichkeit, darüber nachzudenken, besteht darin , die Prädiktoren mit PCA zu transformieren , um orthogonale Prädiktoren zu erhalten. In Ihrem Beispiel gibt es eine große erste Hauptkomponente mit nahezu gleichen Gewichten für und . Der entsprechende Regressionskoeffizient muss also zu gleichen Anteilen zwischen und "aufgeteilt" werden . Die zweite Hauptkomponente ist klein und ist fast orthogonal dazu.x1x2x1x2y

In meiner obigen Antwort habe ich angenommen, dass Sie bezüglich des Gram-Schmidt-Verfahrens und der resultierenden Formel für in Bezug auf spezifisch verwirrt sind .βizi

Amöbe
quelle
1
Hervorragende Antwort, vielen Dank. Um die Intuition abzurunden und die resultierenden Koeffizienten zu interpretieren , sollten wir dies nicht , wenn Hastie sagt, dass ' den zusätzlichen Beitrag von auf , nachdem für , , ... .' Dies bedeutet, dass die Koeffizienten versuchen, nur den "eindeutigen" Beitrag jedes Regressors zu erklären, aber den eindeutigen Beitrag, der durch die gemeinsame Erklärungskraft mit anderen Kovariaten in der Menge "aufgeblasen" wird (was auch gut zeigt, warum Sie Koeffizienten nicht vertrauen sollten aus multikollinearen Variablen). βjxjyxjx0x1xp
Sue Doh Nimh
1
Ich denke man sollte hier vorsichtig sein. Was genau ist der "einzigartige" Beitrag und was genau ist der "zusätzliche" Beitrag? Was Hastie et al. sagen wir, dass kann, indem man und es auf alle anderen Prädiktoren , um das verbleibende , und dann auf . Und das ist richtig. Beachten Sie, dass keine zusätzliche Inflation erforderlich ist! Die von mir beschriebene "Inflation" geschieht automatisch, weil kleiner als . [Fortsetzung]βjxjzjyzjzjxj
Amöbe
1
Vielleicht denken Sie an ein hypothetisches alternatives Verfahren, bei dem zuerst auf alle Prädiktoren außer wird und dann der Rest auf . Das würde ich vielleicht lieber den "einzigartigen" oder "zusätzlichen" Beitrag von . Beachten Sie jedoch, dass dies eine andere Prozedur ist und das Ergebnis nicht gleich . yxjxjxjβj
Amöbe
1
Sie verstehen richtig, wie der Algorithmus funktioniert. Sie erhalten nur den letzten Koeffizienten, daher wenden Sie den Algorithmus mehrmals an, um alle Koeffizienten zu erhalten. Das ist vollkommen in Ordnung. Aber Hastie schlägt nicht vor, die Koeffizienten auf diese Weise zu erhalten. Der Algorithmus wird einmal ausgeführt, und dann erhalten Sie die Koeffizienten durch Rekursion. Auch die GS-Prozedur wird normalerweise (in den mathematischen Texten) einmal ausgeführt, dh wenn ein Satz von Vektoren gegeben ist, erzeugt sie einen orthogonalen Satz von Vektoren.
mpiktas
1
@amoeba Ja danke, genau das habe ich gesucht. Für die Aufzeichnung ja, ich bezog mich auch auf sequentielle Wiederholungen des GS-Verfahrens, um Schätzungen zu erhalten. Zwar habe ich mich damit vom Kern der Frage abgelenkt, aber die breiteren Antworten waren unglaublich informativ. :-)
Sue Doh Nimh
4

Die GS-Prozedur würde mit und dann zur Orthogonalisierung von . Da und Aktie wäre das Ergebnis praktisch Null in Ihrem Beispiel. Das gemeinsame Element bleibt jedoch erhalten, da wir mit haben und immer noch .X1X2X1X2XXX1X1X

Da und gemeinsames , würden wir erhalten, dass der Rest von nach der Orthogonalisierung praktisch Null ist, wie in der Zitierung angegeben.X1X2XX2

In diesem Fall könnte man argumentieren, dass das ursprüngliche Problem der multiplen Regression schlecht gestellt ist, so dass es keinen Sinn macht, fortzufahren, dh wir sollten den GS-Prozess stoppen und das ursprüngliche Problem der multiplen Regression als wiederholen . In diesem Fall verlieren wir den gemeinsamen Faktor und ignorieren korrekt , da er uns keine neuen Informationen liefert, die wir nicht haben.YX1XX2

Natürlich können wir mit der GS-Prozedur fortfahren und den Koeffizienten für berechnen und auf das ursprüngliche Problem der multiplen Regression zurückrechnen. Da wir keine perfekte Kolinearität haben, ist dies theoretisch möglich. Praktisch hängt es von der numerischen Stabilität der Algorithmen ab. Schon seitX2

αX1+βX2=(α+β)X+αϵ1+βϵ2

Die Regression erzeugt die Koeffizienten und so dass (wir werden wegen und keine strikte Gleichheit haben ).YX1+X2αβα+β1ϵ1ϵ2

Hier ist das Beispiel in R:

> set.seed(1001)
> x<-rnorm(1000)
> y<-x+rnorm(1000, sd = 0.1)
> x1 <- x + rnorm(1000, sd =0.001)
> x2 <- x + rnorm(1000, sd =0.001)
> lm(y~x1+x2)

Call:
lm(formula = y ~ x1 + x2)

Coefficients:
(Intercept)           x1           x2  
 -0.0003867   -1.9282079    2.9185409  

Hier habe ich die GS-Prozedur übersprungen, weil die lmErgebnisse machbar waren, und in diesem Fall schlägt die Neuberechnung der Koeffizienten aus der GS-Prozedur nicht fehl.

mpiktas
quelle
1
Wie in der verknüpften Frage ausgeführt, werden die Regressionskoeffizienten nicht aus den Zwischenkoeffizienten erzeugt, die "auf dem Weg" zum endgültigen Residuum erzeugt werden. Das heißt, um den Koeffizienten für , nehmen wir die GS-Prozedur von Achsenabschnitt> > . Um dann den Koeffizienten für zu erzeugen, würden wir Intercept> > . In beiden Fällen geht die entscheidende gemeinsame Varianz aufgrund von X und die daraus resultierende Beziehung zu Y verloren. X2X1X2X1X2X1
Sue Doh Nimh