Explizite Lösung für die lineare Regression mit zwei Prädiktoren

Ich habe einige Beispiele von Daten der Form und . Ich möchte eine Ebene an die Daten mit den kleinsten mittleren quadratischen Fehlern anpassen. $x,y$ $z=f(x,y)$

z = EIN x + B. y + C.

$z = Ax + By + C$

Ich habe in Abschnitt 3 dieses Dokuments eine "Antwort" gefunden , die jedoch in Form einiger zu lösender Gleichungen verbleibt. Ich habe gerade die Fähigkeit, diese Gleichungen zu lösen, aber der Prozess wird so chaotisch, dass die Wahrscheinlichkeit, dass ich einen Fehler mache, ziemlich hoch ist. Sicherlich hat irgendwo jemand die vollständige Lösung in Langform geschrieben (sie könnte als "geschlossene Form" bezeichnet werden), und zwar in der Form

EIN = \dots,

$A=\ldots,$

B. = \dots,

$B=\ldots,$

C. = \dots .

$C=\ldots.$

EDIT: Vielleicht ist "geschlossene Form" der falsche Ausdruck. Also lass mich klar sein. Ich möchte eine explizite Lösung für , und und keine Lösung, die mit "Wenn Sie diese Gleichungen lösen können, können Sie die Werte von , und " endet . $A$ $B$ $C$ $A$ $B$ $C$

regression regression-coefficients Mick
quelle

Ihre Bearbeitung ist nicht klar. Sie werden fragen , über geschlossene Lösung für die lineare Regression. Es ist im verknüpften Thread angegeben. Wenn Sie die Formel verwenden, erhalten Sie die Antwort. Was brauchst du noch?

Tim

Aufgrund der Antworten in Ihren Links muss ich drei Gleichungen gleichzeitig lösen, um A, B und C zu finden. Ich befürchte, dass ich einen Fehler machen werde.

Mick

In Ihrer Referenz befindet sich in der Tat eine geschlossene Lösung. Machen Sie einen Schritt zurück und schauen Sie sich an, was Sie tatsächlich tun. Sie lösen ein lineares Gleichungssystem - der Rang dieser Matrix sollte der Anzahl Ihrer Datenpunkte entsprechen. Warum würden Sie an dieser Stelle noch weiter gehen? Auf diese Weise bleiben Sie nicht bei drei Variablen hängen. Sie müssten lediglich das lineare Gleichungssystem lösen, das Sie bei Wolfram Alpha verwenden können, wenn Sie möchten. Die Lösung für diese Gleichungen ist auch die geschlossene Lösung, nach der Sie suchen, die jedoch immer von der Anzahl der freien Parameter in diesem Modell abhängt.

pAt84

Wir können das für Sie tun und werden Ihre Antwort erhalten, aber dies sollten Sie als Lernerfahrung wirklich selbst tun. Ich kann sehen, dass Sie mit genau dem zu kämpfen haben, aber diesen Kampf zu bestehen, wird viel mehr eine Belohnung sein, als wenn wir Ihnen nur die Antwort geben würden.

pAt84

Auf meinem 2 x 3 Fuß großen Whiteboard ging mir immer noch der Platz aus ... ja, im wahrsten Sinne des Wortes. Selbst wenn ich es lösen würde, wäre ich nicht sicher, dass ich unterwegs keinen Fehler gemacht hätte.

Mick

An anderer Stelle auf dieser Website finden Sie explizite Lösungen für die gewöhnliche Regression der kleinsten Quadrate

E. (z_{ich}) = EIN x_{ich} + B. y_{ich} + C.

$\mathbb{E}(z_i) = A x_i + B y_i + C$

sind in Matrixform als erhältlich

\begin{matrix} (1) & (C., EIN, B.)^{'} = ({X.}^{'} X.)^{- - 1} {X.}^{'} z \end{matrix}

$(C,A,B)^\prime = (X^\prime X)^{-1} X^\prime z\tag{1}$

wo $X$ ist die "Modellmatrix"

X. = (\begin{matrix} 1 & x_{1} & y_{1} \\ 1 & x_{2} & y_{2} \\ ⋮ & ⋮ & ⋮ \\ 1 & x_{n} & y_{n} \end{matrix})

$X = \pmatrix{1 & x_1 & y_1 \\ 1 & x_2 & y_2 \\ \vdots & \vdots & \vdots \\ 1 & x_n & y_n}$

und $z$ ist der Antwortvektor

z = (z_{1}, z_{2}, \dots, z_{n})^{'} .

$z = (z_1, z_2, \ldots, z_n)^\prime.$

Das ist eine vollkommen feine, explizite und berechenbare Antwort. Aber vielleicht gibt es ein zusätzliches Verständnis, das durch Inspektion der Koeffizienten herausgerissen werden kann. Dies kann erreicht werden, indem geeignete Einheiten ausgewählt werden, in denen die Variablen ausgedrückt werden sollen.

Die besten Einheiten für diesen Zweck zentrieren jede Variable auf ihren Mittelwert und verwenden ihre Standardabweichung als Maßeinheit. Lassen Sie die drei Mittel explizit sein $m_x, m_y,$ und $m_z$ und die drei Standardabweichungen sind $s_x, s_y,$ und $s_z$ . (Es stellt sich heraus, dass es keine Rolle spielt, ob Sie durch teilen $n$ oder $n-1$ bei der Berechnung der Standardabweichungen. Stellen Sie einfach sicher, dass Sie eine konsistente Konvention verwenden, wenn Sie einen zweiten Moment der Daten berechnen.) Die Werte der Variablen in diesen neuen Maßeinheiten sind

ξ_{ich} = \frac{x_{ich} - - m_{x}}{s_{x}}, η_{ich} = \frac{y_{ich} - - m_{y}}{s_{y}}, ζ_{ich} = \frac{z_{ich} - - m_{z}}{s_{z}} .

$\xi_i = \frac{x_i - m_x}{s_x},\ \eta_i = \frac{y_i - m_y}{s_y},\ \zeta_i = \frac{z_i - m_z}{s_z}.$

Dieser Prozess wird als Standardisierung der Daten bezeichnet. Die Variablen $\xi$ , $\eta$ , und $\zeta$ sind die standardisierten Versionen der ursprünglichen Variablen $x$ , $y$ , und $z$ .

Diese Beziehungen sind invertierbar:

x_{ich} = s_{x} ξ_{ich} + m_{x}, y_{ich} = s_{y} η_{ich} + m_{y}, z_{ich} = s_{z} ζ_{ich} + m_{z} .

$x_i = s_x \xi_i + m_x,\ y_i = s_y \eta_i + m_y,\ z_i = s_z \zeta_i + m_z.$

Einfügen dieser in die definierende Beziehung

E. (z_{ich}) = C. + EIN x_{ich} + B. y_{ich}

$\mathbb{E}(z_i) = C + Ax_i + By_i$

und Vereinfachung der Erträge

E. (s_{z} ζ_{ich} + m_{z}) = C. + EIN (s_{x} ξ_{ich} + m_{x}) + B. (s_{y} η_{ich} + m_{y}) .

$\mathbb{E}(s_z \zeta_i + m_z) = C + A(s_x \xi_i + m_x) + B(s_y \eta_i + m_y).$

Lösung für die Erwartung der abhängigen Variablen $\zeta_i$ ergibt

E. (ζ_{ich}) = (\frac{C. + EIN m_{x} + B. m_{y} - - m_{z}}{s_{z}}) + (\frac{EIN s_{x}}{s_{z}}) ξ_{ich} + (\frac{B. s_{y}}{s_{z}}) η_{ich} .

$\mathbb{E}(\zeta_i) = \left(\frac{C + Am_x + Bm_y - m_z}{s_z}\right) + \left(\frac{A s_x}{s_z}\right) \xi_i + \left(\frac{B s_y}{s_z}\right) \eta_i.$

Wenn wir diese Koeffizienten schreiben als $\beta_0, \beta_1, \beta_2$ jeweils können wir uns dann erholen $A, B, C$ durch Vergleichen und Lösen. Für die Aufzeichnung gibt dies

\begin{matrix} (2) & A = \frac{s_{z} β_{1}}{s_{x}}, B = \frac{s_{z} β_{2}}{s_{y}}, and C = s_{z} β_{0} + m_{z} - A m_{x} - B m_{y} . \end{matrix}

$A = \frac{s_z \beta_1}{s_x},\ B = \frac{s_z \beta_2}{s_y},\text{ and }C = s_z \beta_0 + m_z - A m_x - B m_y.\tag{2}$

Der Punkt davon wird deutlich, wenn wir die neue Modellmatrix betrachten

Ξ = (\begin{matrix} 1 & ξ_{1} & η_{i} \\ 1 & ξ_{2} & η_{2} \\ ⋮ & ⋮ & ⋮ \\ 1 & ξ_{n} & η_{n} \end{matrix})

$\Xi = \pmatrix{1 & \xi_1 & \eta_i \\ 1 & \xi_2 & \eta_2 \\ \vdots & \vdots & \vdots \\ 1 & \xi_n & \eta_n}$

und die neue Antwortmatrix $\zeta = (\zeta_1, \zeta_2, \ldots, \zeta_n)$ , weil jetzt

Ξ^{'} Ξ = (\begin{matrix} n & 0 & 0 \\ 0 & n & n ρ \\ 0 & n ρ & n \end{matrix})

$\Xi^\prime \Xi = \pmatrix{n & 0 & 0 \\ 0 & n & n\rho \\ 0 & n\rho & n}$

und

Ξ^{'} ζ = (0, n τ, n υ)^{'}

$\Xi^\prime \zeta = (0, n\tau, n\upsilon)^\prime$

wo $\rho$ ist der Korrelationskoeffizient $\frac{1}{n}\sum_{i=1}^n \xi_i \eta_i$ , $\tau$ ist der Korrelationskoeffizient $\frac{1}{n}\sum_{i=1}^n \xi_i \zeta_i$ , und $\upsilon$ ist der Korrelationskoeffizient $\frac{1}{n}\sum_{i=1}^n \eta_i \zeta_i$ .

Um die normalen Gleichungen zu lösen $(1)$ wir können beide Seiten durch teilen $n$ geben

(\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & ρ \\ 0 & ρ & 1 \end{matrix}) (\begin{matrix} β_{0} \\ β_{1} \\ β_{2} \end{matrix}) = (\begin{matrix} 0 \\ τ \\ υ \end{matrix}) .

$\pmatrix{1 & 0 & 0 \\ 0 & 1 & \rho \\ 0 & \rho & 1}\pmatrix{\beta_0 \\ \beta_1 \\ \beta_2} = \pmatrix{0 \\ \tau \\ \upsilon} .$

Was ursprünglich wie eine beeindruckende Matrixformel aussah, wurde auf einen wirklich elementaren Satz von drei simultanen Gleichungen reduziert. Unter der Voraussetzung $|\rho| \lt 1$ ist seine Lösung leicht zu finden

(\begin{matrix} {\hat{β}}_{0} \\ {\hat{β}}_{1} \\ {\hat{β}}_{2} \end{matrix}) = \frac{1}{1 - - ρ^{2}} (\begin{matrix} 0 \\ τ - - ρ υ \\ υ - - ρ τ \end{matrix}) .

$\pmatrix{\hat\beta_0 \\ \hat\beta_1 \\ \hat\beta_2} = \frac{1}{1-\rho^2}\pmatrix{0 \\ \tau-\rho\upsilon \\ \upsilon-\rho\tau}.$

Stecken Sie diese in die Koeffizienten in $(2)$ erzeugt die Schätzungen $\hat A, \hat B,$ und $\hat C$ .

In der Tat wurde noch mehr erreicht:

Es ist jetzt offensichtlich, warum die Fälle $|\rho|=1$ sind problematisch: Sie führen eine Division durch Null in die Lösung ein.
Es ist ebenso offensichtlich, wie zu bestimmen ist, ob wann eine Lösung existiert $|\rho=1|$ und wie man es erhält. Es wird existieren, wenn die zweite und dritte Normalgleichung in $\Xi$ sind redundant und werden einfach durch Ignorieren einer der Variablen erhalten $x$ und $y$ an erster Stelle.
Wir können allgemein einen Einblick in die Lösung gewinnen. Zum Beispiel von $\hat\beta_0=0$ In allen Fällen können wir den Schluss ziehen, dass die angepasste Ebene den Mittelwertpunkt durchlaufen muss $(m_x, m_y, m_z)$ .
Es ist nun offensichtlich, dass die Lösung in Bezug auf die ersten beiden Momente des trivariaten Datensatzes gefunden werden kann $(x, y, z)$ . Dies wirft ein weiteres Licht auf die Tatsache, dass Koeffizientenschätzungen allein aus Mittelwerten und Kovarianzmatrizen ermittelt werden können .
Weiterhin Gleichung $(2)$ zeigt, dass die Mittel nur zur Schätzung des Intercept-Terms benötigt werden $C$ . Schätzungen der beiden Pisten $A$ und $B$ benötigen nur die zweiten Momente.
Wenn die Regressoren nicht korreliert sind, $\rho=0$ und die Lösung besteht darin, dass der Achsenabschnitt Null ist und die Steigungen die Korrelationskoeffizienten zwischen der Antwort sind $z$ und die Regressoren $x$ und $y$ wenn wir die Daten standardisieren. Dies ist sowohl leicht zu merken als auch bietet einen Einblick in die Beziehung zwischen Regressionskoeffizienten und Korrelationskoeffizienten.

Wenn wir das alles zusammenfassen, finden wir das (außer in den entarteten Fällen) $|\rho|=1$ ) Die Schätzungen können geschrieben werden

\begin{aligned} \hat{EIN} & = \frac{τ - - ρ υ}{1 - - ρ^{2}} \frac{s_{z}}{s_{x}} \\ \hat{B.} & = \frac{υ - - ρ τ}{1 - - ρ^{2}} \frac{s_{z}}{s_{y}} \\ \hat{C.} & = m_{z} - - m_{x} \hat{EIN} - - m_{y} \hat{B.} . \end{aligned}

$\eqalign{ \hat A &= \frac{\tau - \rho\upsilon}{1-\rho^2} \frac{s_z}{s_x} \\ \hat B &= \frac{\upsilon - \rho\tau}{1-\rho^2} \frac{s_z}{s_y} \\ \hat C &= m_z -m_x \hat A - m_y \hat B. }$

In diesen Formeln ist die $m_{*}$ sind die Beispielmittel, die $s_{*}$ sind die Standardabweichungen der Stichprobe und die griechischen Buchstaben $\rho, \tau,$ und $\upsilon$ repräsentieren die drei Korrelationskoeffizienten (zwischen $x$ und $y$ , $x$ und $z$ , und $y$ und $z$ , beziehungsweise).

Bitte beachten Sie, dass diese Formeln nicht der beste Weg sind, um die Berechnungen durchzuführen. Sie alle beinhalten das Subtrahieren von Mengen, die von vergleichbarer Größe sein könnten, wie z $\tau-\rho\upsilon$ , $\upsilon-\rho\tau$ , und $m_z - (-m_x \hat A - m_y \hat B)$ . Eine solche Subtraktion beinhaltet einen Genauigkeitsverlust. Die Matrixformulierung ermöglicht es numerischen Analysten, stabilere Lösungen zu erhalten, die so viel Präzision wie möglich bewahren. Aus diesem Grund haben Menschen selten Interesse an termingerechten Formeln. Der andere Grund, warum wenig Interesse besteht, ist, dass mit zunehmender Anzahl von Regressoren die Komplexität der Formeln exponentiell zunimmt und schnell zu unhandlich wird.

Als weiteren Beweis für die Richtigkeit dieser Formeln können wir ihre Antworten mit denen eines Standardlösers für kleinste Quadrate vergleichen, der lmFunktion in R.

#
# Generate trivariate data.
#
library(MASS)
set.seed(17)
n <- 20
mu <- 1:3
Sigma <- matrix(1, 3, 3)
Sigma[lower.tri(Sigma)] <- Sigma[upper.tri(Sigma)] <- c(.8, .5, .6)
xyz <- data.frame(mvrnorm(n, mu, Sigma))
names(xyz) <- c("x", "y", "z")
#
# Obtain the least squares coefficients.
#
beta.hat <- coef(lm(z ~ x + y, xyz))
#
# Compute the first two moments via `colMeans` and `cov`.
#
m <- colMeans(xyz)
sigma <- cov(xyz)
s <- sqrt(diag(sigma))
rho <- t(t(sigma/s)/s); rho <- as.vector(rho[lower.tri(rho)])
#
# Here are the least squares coefficient estimates in terms of the moments.
#
A.hat <- (rho[2] - rho[1]*rho[3]) / (1 - rho[1]^2) * s[3] / s[1]
B.hat <- (rho[3] - rho[1]*rho[2]) / (1 - rho[1]^2) * s[3] / s[2]
C.hat <- m[3] - m[1]*A.hat - m[2]*B.hat
#
# Compare the two solutions.
#
rbind(beta.hat, formulae=c(C.hat, A.hat, B.hat))

Die Ausgabe weist erwartungsgemäß zwei identische Schätzreihen auf:

         (Intercept)         x        y
beta.hat    1.522571 0.3013662 0.403636
formulae    1.522571 0.3013662 0.403636

whuber
quelle

Explizite Lösung für die lineare Regression mit zwei Prädiktoren

Antworten: