Warum geht es bei der Regression um Varianz?

Auf Seite 2 heißt es:

"Wie viel von der Varianz in den Daten erklärt ein gegebenes Regressionsmodell?"

"Bei der Regressionsinterpretation geht es um den Mittelwert der Koeffizienten, bei der Inferenz um ihre Varianz."

Ich habe über solche Aussagen viele Male gelesen, warum interessiert es uns, "wie viel von der Varianz in den Daten durch das gegebene Regressionsmodell erklärt wird"? ... genauer gesagt, warum "Varianz"?

regression variance interpretation Luna
quelle

"[V] ariance" im Gegensatz zu was, der Standardabweichung? Was sollten wir Ihrer Meinung nach bei der Regression beachten? Was sind Ihre typischen Ziele beim Aufbau eines Regressionsmodells?

gung - Reinstate Monica

Die Varianz hat andere Einheiten als die zu modellierende Größe, daher war es für mich immer schwierig, den "Anteil der Varianz, der durch das Modell erklärt wird" zu interpretieren.

fliegt

Antworten:

Warum sollte es uns interessieren, "wie viel von der Varianz in den Daten durch das gegebene Regressionsmodell erklärt wird?"

Um dies zu beantworten, ist es nützlich, sich genau zu überlegen, was es bedeutet, dass ein bestimmter Prozentsatz der Varianz durch das Regressionsmodell erklärt wird.

Sei die Ergebnisvariable. Die übliche Stichprobenvarianz der abhängigen Variablen in einem Regressionsmodell ist Nun sei ist die Vorhersage von basierend auf einem linearen Regressionsmodell der kleinsten Quadrate mit Prädiktorwerten . Wie hier bewiesen , kann diese Varianz wie folgt unterteilt werden: $Y_{1}, ..., Y_{n}$

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2$

{\hat{Y}}_{i} \equiv \hat{f} (X_{i})

$\widehat{Y}_i \equiv \widehat{f}({\boldsymbol X}_i)$

Y_{i}

$Y_i$

X_{i}

${\boldsymbol X}_i$

\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \underset{r e s i d u a l v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2}}} + \underset{e x p l a i n e d v a r i a n c e}{\underset{⏟}{\frac{1}{n - 1} \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}}}

$\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 = \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \widehat{Y}_i)^2}_{{\rm residual \ variance}} + \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (\widehat{Y}_i - \overline{Y})^2}_{{\rm explained \ variance}}$

In der Regression der kleinsten Quadrate ist der Durchschnitt der vorhergesagten Werte , daher ist die Gesamtvarianz gleich der gemittelten quadratischen Differenz zwischen den beobachteten und den vorhergesagten Werten (Restvarianz) plus der Stichprobenvarianz der Vorhersagen selbst (erklärt) Varianz), die nur eine Funktion der s sind . Daher kann die "erklärte" Varianz als die Varianz in , die der Variation in ist . Der Anteil der Varianz in , der "erklärt" wird (dh der Anteil der Varianz in , der der Variation in ist) $\overline{Y}$ ${\boldsymbol X}$ $Y_i$ ${\boldsymbol X}_i$ $Y_i$ $Y_i$ ${\boldsymbol X}_i$ ) wird manchmal als . $R^2$

Wir verwenden nun zwei extreme Beispiele, um zu verdeutlichen, warum diese Varianzzerlegung wichtig ist:

(1) Die Prädiktoren haben nichts mit den Antworten zu tun . In diesem Fall kann der beste Prädiktor unvoreingenommene (im Sinne der kleinsten Quadrate) für ist . Daher ist die Gesamtvarianz in gleich der und steht in keinem Zusammenhang mit der Varianz in den Prädiktoren . $Y_i$ $\widehat{Y}_i = \overline{Y}$ $Y_i$ ${\boldsymbol X}_i$
(2) Die Prädiktoren stehen in perfekter linearer Beziehung zu den Prädiktoren . In diesem Fall sind die Vorhersagen genau richtig und . Daher gibt es keine Restvarianz und die gesamte Varianz im Ergebnis ist die Varianz in den Vorhersagen selbst, die nur eine Funktion der Prädiktoren sind. Daher ist die gesamte Varianz im Ergebnis einfach auf die Varianz in den Prädiktoren . $\widehat{Y}_i = Y_i$ ${\boldsymbol X}_i$

Situationen mit realen Daten liegen oft zwischen den beiden Extremen, ebenso wie der Varianzanteil, der diesen beiden Quellen zugeschrieben werden kann. Je mehr „erklärte Varianz“ ist - dh je mehr der Variation in , die aufgrund der Variation ist in - desto besser sind die Vorhersagen ausführen (dh je kleiner das "Restvarianz" ist), was eine andere Art zu sagen ist, dass das Modell der kleinsten Quadrate gut passt. $Y_i$ ${\boldsymbol X}_i$ $\widehat{Y}_{i}$

Makro
quelle

Das ist wie meine Antwort, aber vielleicht ein bisschen besser erklärt. Ich sehe auch eine mögliche Kritik, die hätte erwähnt werden können, dass ich die Variation relativ zum Mittelwert von Y hätte schreiben sollen.

Michael R. Chernick

@MichaelChernick, ja, aber bei der Regression der kleinsten Quadrate (von der im OP basierend auf den verknüpften Folien die Rede ist) entspricht der Mittelwert der vorhergesagten Werte dem Mittelwert der s Vorhersagen.

Y

$Y$

Makro

Ich habe meine Antwort bearbeitet, weil Yb benötigt wird, damit die Varianzzerlegung ordnungsgemäß funktioniert.

Michael R. Chernick

Ja, es war mir klar, dass sie sich auf die Regression der kleinsten Quadrate bezog. Trotzdem wiederholt vieles, was Sie geschrieben haben, nur das, was ich ein wenig anders gesagt habe. Ich habe dir trotzdem eine +1 gegeben.

Michael R. Chernick

Makro, mein Punkt war, dass diese Zerlegung nur auftritt, wenn und Daher beinhaltet die "Regression" von Natur aus eine orthogonale Projektion auf einen Raum, der den konstanten Vektor enthält. Beachten Sie, dass wir diese Zerlegung leicht "aufbrechen" können, indem wir einfach den Konstantenvektor aus unserem Modell entfernen, was im Widerspruch zu Ihrem letzten Kommentar zu stehen scheint.

⟨ y - \hat{y}, \hat{y} - \bar{y} 1 ⟩ = 0

$\langle \mathbf y - \hat {\mathbf y}, \hat{\mathbf{y}} - \bar{y} \mathbf{1} \rangle = 0$

Kardinal

Ich kann nicht mit den großen Hunden der Statistik rennen, die vor mir geantwortet haben, und vielleicht denke ich naiv, aber ich sehe es so ...

Stellen Sie sich vor, Sie sitzen in einem Auto und fahren die Straße hinunter, drehen das Rad nach links und rechts und betätigen das Gaspedal und die Bremsen wie wild. Dennoch bewegt sich das Auto reibungslos und bleibt von Ihren Aktionen unberührt. Sie würden sofort vermuten, dass Sie nicht in einem richtigen Auto saßen, und vielleicht würden wir bei genauerem Hinsehen feststellen, dass Sie in Disney World unterwegs sind. (Wenn Sie in einem echten Auto wären, wären Sie in Lebensgefahr, aber gehen wir nicht dorthin.)

Wenn Sie dagegen in einem Auto die Straße hinunterfahren und das Rad nur leicht nach links oder rechts drehen, bewegt sich das Auto sofort. Wenn Sie die Bremsen betätigen, führt dies zu einer starken Verzögerung Sitz. Sie könnten vermuten, dass Sie sich in einem Hochleistungssportwagen befanden.

Im Allgemeinen erleben Sie wahrscheinlich etwas zwischen diesen beiden Extremen. Das Ausmaß, in dem Ihre Eingaben (Lenkung, Bremsen, Gas) die Bewegung des Fahrzeugs direkt beeinflussen, gibt Ihnen einen Hinweis auf die Qualität des Fahrzeugs. Das heißt, je mehr von Ihrem Auto Abweichungen in der Bewegung aufweisen, die sich auf Ihre Handlungen beziehen, desto besser ist das Auto, und je mehr sich das Auto unabhängig von Ihrer Kontrolle bewegt, desto schlechter ist das Auto.

In ähnlicher Weise geht es darum, ein Modell für einige Daten zu erstellen (nennen wir diese Daten ), basierend auf einigen anderen Datensätzen (nennen wir sie ). Wenn sich nicht ändert, ist es wie ein Auto, das sich nicht bewegt, und es macht keinen Sinn zu diskutieren, ob das Auto (Modell) gut funktioniert oder nicht, also nehmen wir an, dass sich ändert. $y$ $x_1, x_2, ..., x_i$ $y$ $y$

Genau wie das Auto hat ein Modell mit guter Qualität eine gute Beziehung zwischen den Ergebnissen variierend und den Eingaben variierend. Im Gegensatz zu einem Auto bewirkt nicht notwendigerweise eine Änderung von , aber wenn das Modell nützlich sein soll, muss sich in enger Beziehung zu ändern . Mit anderen Worten, die erklären einen Großteil der Varianz in . $y$ $x_i$ $x_i$ $y$ $x_i$ $y$ $x_i$ $y$

PS Ich konnte keine Winnie The Pooh-Analogie finden, aber ich habe es versucht.

PPS [EDIT:] Beachten Sie, dass ich diese spezielle Frage anspreche. Denken Sie nicht, dass Ihr Modell eine hervorragende Leistung erbringt, wenn Sie 100% der Varianz ausmachen. Sie müssen auch über eine Überanpassung nachdenken, bei der Ihr Modell so flexibel ist, dass es sehr genau zu den Trainingsdaten passt - einschließlich der zufälligen Macken und Kuriositäten. Um die Analogie zu verwenden, möchten Sie ein Auto mit guter Lenkung und guten Bremsen, aber Sie möchten, dass es auch auf der Straße funktioniert, nicht nur auf der Teststrecke, die Sie benutzen.

Wayne
quelle