Verständnis der Form des Konfidenzintervalls für die Polynomregression (MLR)

11

Ich habe Schwierigkeiten, die Form des Konfidenzintervalls einer Polynomregression zu erfassen.

Hier ist ein künstliches Beispiel: . Die linke Abbildung zeigt das UPV (nicht skalierte Vorhersagevarianz) und das rechte Diagramm zeigt das Konfidenzintervall und die (künstlichen) gemessenen Punkte bei X = 1,5, X = 2 und X = 3. $\hat{Y}=a+b\cdot X+c\cdot X^2$

Details der zugrunde liegenden Daten:

Der Datensatz besteht aus drei Datenpunkten (1,5; 1), (2; 2,5) und (3; 2,5).
Jeder Punkt wurde 10 Mal "gemessen" und jeder gemessene Wert gehört zu . An den 30 resultierenden Punkten wurde eine MLR mit einem Poynomialmodell durchgeführt. $y \pm 0.5$
Das Konfidenzintervall wurde mit den Formeln und (Beide Formeln stammen aus Myers, Montgomery, Anderson-Cook, "Response Surface Methodology", vierte Ausgabe, Seite 407 und 34)
$U. P. V. = \frac{V. ein r [\hat{y} (x_{0})]]}{{\hat{σ}}^{2}} = x_{0}^{'} ({X.}^{'} X.)^{- - 1} x_{0}$ $UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0$ $\hat{y} (x_{0}) - - t_{α /. 2, d f (e r r Ö r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} ({X.}^{'} X.)^{- - 1} x_{0}}$ $\hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0}$ $\leq μ_{y | x_{0}} \leq \hat{y} (x_{0}) + t_{α / 2, d f (e r r o r)} \sqrt{{\hat{σ}}^{2} \cdot x_{0}^{'} (X^{'} X)^{- 1} x_{0}} .$ $\leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} .$

$t_{\alpha /2, df(error)}=2$ und $\hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075$ .

Ich interessiere mich nicht besonders für die absoluten Werte des Konfidenzintervalls, sondern für die Form des UPV, die nur von abhängt . $x_0'(X'X)^{-1}x_0$

Abbildung 1:

Die sehr hohe vorhergesagte Varianz außerhalb des Entwurfsraums ist normal, da wir extrapolieren
aber warum ist die Varianz zwischen X = 1,5 und X = 2 kleiner als an den gemessenen Punkten?
und warum wird die Varianz für Werte über X = 2 breiter, nimmt dann aber nach X = 2,3 ab und wird wieder kleiner als am gemessenen Punkt bei X = 3?

Wäre es nicht logisch, wenn die Varianz an den gemessenen Punkten klein und zwischen ihnen groß wäre?

Bearbeiten: gleiche Prozedur, jedoch mit Datenpunkten [(1,5; 1), (2,25; 2,5), (3; 2,5)] und [(1,5; 1), (2; 2,5), (2,5; 2,2), (3; 2.5)].

Figur 2:

Figur 3:

Es ist interessant festzustellen, dass in Abbildung 1 und 2 das UPV für die Punkte genau gleich 1 ist. Dies bedeutet, dass das Konfidenzintervall genau gleich . Mit zunehmender Anzahl von Punkten (Abbildung 3) können wir UPV-Werte für die gemessenen Punkte erhalten, die kleiner als 1 sind. $\hat{y} \pm t_{\alpha /2, df(error)}\cdot \sqrt{MSE}$

regression confidence-interval John Tokka Tacos
quelle

2

Können Sie Ihren Beitrag so bearbeiten, dass er die Daten enthält, mit denen Sie arbeiten?

Stephan Kolassa

@StephanKolassa Ich habe versucht zu erklären, welche Daten ich verwendet habe. Trotzdem ist die Frage allgemeiner und nicht an ein bestimmtes Beispiel gebunden.

John Tokka Tacos

Wenn Sie die Daten angeben, ist es einfacher, eine Antwort zu veranschaulichen.

Stephan Kolassa

6

Die beiden Hauptmethoden zum Verständnis eines solchen Regressionsphänomens sind algebraisch - durch Manipulieren der Normalgleichungen und -formeln für ihre Lösung - und geometrisch. Algebra ist, wie in der Frage selbst dargestellt, gut. Es gibt jedoch mehrere nützliche geometrische Formulierungen der Regression. In diesem Fall bietet die Visualisierung der -Daten im -Raum Einblicke $(x,y)$ $(x,x^2,y)$ , die ansonsten möglicherweise schwer zu bekommen sind.

Wir zahlen den Preis für das Betrachten dreidimensionaler Objekte, was auf einem statischen Bildschirm schwierig ist. (Ich finde endlos rotierende Bilder ärgerlich und füge Ihnen daher keine davon zu, auch wenn sie hilfreich sein können.) Daher spricht diese Antwort möglicherweise nicht alle an. Aber diejenigen, die bereit sind, die dritte Dimension mit ihrer Fantasie hinzuzufügen, werden belohnt. Ich schlage vor, Ihnen dabei mit sorgfältig ausgewählten Grafiken zu helfen.

Beginnen wir mit der Visualisierung der unabhängigen Variablen. Im quadratischen Regressionsmodell

\begin{matrix} (1) & y_{ich} = β_{0} + β_{1} (x_{ich}) + β_{2} (x_{ich}^{2}) + Error, \end{matrix}

$y_i = \beta_0 + \beta_1 (x_i) + \beta_2 (x_i^2) + \text{error},\tag{1}$

Die beiden Terme und können zwischen den Beobachtungen variieren: Sie sind die unabhängigen Variablen . Wir können alle geordneten Paare als Punkte in einer Ebene mit Achsen darstellen, die und Es ist auch aufschlussreich, alle Punkte auf der Kurve möglicher geordneter Paare zu zeichnen $(x_i)$ $(x_i^2)$ $(x_i,x_i^2)$ $x$ $x^2.$ $(t,t^2):$

Visualisieren Sie die Antworten (abhängige Variable) in einer dritten Dimension, indem Sie diese Figur nach hinten kippen und die vertikale Richtung für diese Dimension verwenden. Jede Antwort wird als Punktsymbol dargestellt. Diese simulierten Daten bestehen aus einem Stapel von zehn Antworten für jede der drei Stellen, die in der ersten Figur gezeigt sind; Die möglichen Höhen jedes Stapels werden mit grauen vertikalen Linien angezeigt: $(x,x^2)$

Die quadratische Regression passt eine Ebene an diese Punkte an.

(Woher wissen wir das? Weil für jede Auswahl von Parametern die Menge der Punkte im Raum, die Gleichung erfüllen, die Nullmenge von ist die Funktion die eine Ebene senkrecht zum Vektor definiert Dieses Bit der analytischen Geometrie kauft uns auch eine quantitative Unterstützung für das Bild: Da die in diesen Abbildungen verwendeten Parameter und und beide im Vergleich zu groß sind diese Ebene nahezu vertikal und ausgerichtet diagonal in der -Ebene.) $(\beta_0,\beta_1,\beta_2),$ $(x,x^2,y)$ $(1)$ $-\beta_1(x)-\beta_2(x^2)+(1)y-\beta_0,$ $(-\beta_1,-\beta_2,1).$ $\beta_1=-55/8$ $\beta_2=15/2,$ $1,$ $(x,x^2)$

Hier ist die Ebene der kleinsten Quadrate, die an diese Punkte angepasst ist:

Auf der Ebene, von der wir annehmen könnten, dass sie eine Gleichung der Form ich die Kurve zur Kurve "" angehoben " und zeichnete das in schwarz. $y=f(x,x^2),$ $(t,t^2)$

t \to (t, t^{2}, f (t, t^{2}))

$t\to (t, t^2, f(t,t^2))$

Lassen Sie uns alles weiter nach hinten kippen, sodass nur die und Achse angezeigt werden und die Achse unsichtbar von Ihrem Bildschirm herunterfällt: $x$ $y$ $x^2$

Sie können sehen, wie die angehobene Kurve genau die gewünschte quadratische Regression ist: Sie ist der Ort aller geordneten Paare wobei der angepasste Wert ist, wenn die unabhängige Variable auf $(x,\hat y)$ $\hat y$ $x.$

Das Konfidenzband für diese angepasste Kurve zeigt, was mit der Anpassung passieren kann, wenn die Datenpunkte zufällig variiert werden. Ohne den Standpunkt zu ändern, habe ich fünf angepasste Ebenen (und ihre angehobenen Kurven) in fünf unabhängige neue Datensätze eingezeichnet (von denen nur einer angezeigt wird):

Damit Sie dies besser sehen können, habe ich die Flugzeuge fast transparent gemacht. Offensichtlich neigen die angehobenen Kurven dazu, gegenseitige Schnittpunkte in der Nähe von und $x \approx 1.75$ $x \approx 3.$

Schauen wir uns dasselbe an, indem wir über dem dreidimensionalen Diagramm schweben und leicht nach unten und entlang der diagonalen Achse der Ebene schauen . Damit Sie sehen können, wie sich die Ebenen ändern, habe ich auch die vertikale Dimension komprimiert.

Der vertikale goldene Zaun zeigt alle Punkte über der Kurve , sodass Sie leichter sehen können, wie er sich auf alle fünf angepassten Ebenen hebt. Konzeptionell wird das Konfidenzband durch Variieren der Daten ermittelt, wodurch sich die angepassten Ebenen ändern, wodurch sich die angehobenen Kurven ändern, von wo aus sie bei jedem Wert von eine Hüllkurve möglicher angepasster Werte verfolgen $(t,t^2)$ $(x,x^2).$

Jetzt glaube ich, dass eine klare geometrische Erklärung möglich ist. Da die Punkte der Form fast in ihrer Ebene ausgerichtet sind, drehen sich alle angepassten Ebenen (und wackeln ein kleines Stückchen) um eine gemeinsame Linie, die über diesen Punkten liegt. (Sei die Projektion dieser Linie bis zur -Ebene: Sie nähert sich der Kurve in der ersten Abbildung sehr genau an.) Wenn diese Ebenen variiert werden, ändert sich der Betrag, um den sich die angehobene Kurve ändert ( vertikal) an jeder gegebenen Stelle ist direkt proportional zu der Entfernung von $(x_i,x_i^2)$ $\mathcal L$ $(x,x^2)$ $(x,x^2)$ $(x,x^2)$ $\mathcal L.$

Diese Figur kehrt zur ursprünglichen planaren Perspektive zurück, um relativ zur Kurve in der Ebene unabhängiger Variablen anzuzeigen . Die beiden Punkte auf der Kurve, die am nächsten liegen, sind rot markiert. Hier sind ungefähr die angepassten Ebenen am nächsten, da die Antworten zufällig variieren. Daher neigen die angehobenen Kurven bei den entsprechenden Werten (um und ) dazu, in der Nähe dieser Punkte am wenigsten zu variieren. $\mathcal L$ $t\to(t,t^2)$ $\mathcal L$ $x$ $1.7$ $2.9$

Algebraisch gesehen ist das Finden dieser "Knotenpunkte" eine Frage der Lösung einer quadratischen Gleichung: Somit werden höchstens zwei von ihnen existieren. Wir können daher allgemein erwarten, dass die Konfidenzbänder einer quadratischen Anpassung an -Daten bis zu zwei Stellen haben können, an denen sie am nächsten zusammenrücken - aber nicht mehr. $(x,y)$

Diese Analyse gilt konzeptionell für die Polynomregression höheren Grades sowie für die multiple Regression im Allgemeinen. Obwohl wir nicht mehr als drei Dimensionen wirklich "sehen" können, garantiert die Mathematik der linearen Regression, dass die aus zwei- und dreidimensionalen Darstellungen des hier gezeigten Typs abgeleitete Intuition in höheren Dimensionen genau bleibt.

whuber
quelle

Vielen Dank für diese tolle Antwort! Mir ist nie in den Sinn gekommen, dass die quadratische Regression eine Ebene an die Punkte anpasst. Diese geometrischen Formulierungen sind sehr intuitiv und haben mir sehr geholfen.

John Tokka Tacos

1

Dies ist eine großartige Antwort - wir sollten Ihre besten Beiträge zusammenstellen und daraus ein Open-Source-Buch machen

Xavier Bourret Sicotte

1

@ Xavier Danke für die freundlichen Worte. Ich habe über so etwas nachgedacht und begrüße alle konstruktiven Vorschläge und Kritik.

whuber

1

Intuitiv

In einem sehr intuitiven und groben Sinne können Sie die Polynomkurve als zwei zusammengenähte lineare Kurven sehen (eine ansteigende, eine abnehmende). Bei diesen linearen Kurven erinnern Sie sich möglicherweise an die schmale Form in der Mitte .

Die Punkte links vom Peak haben relativ wenig Einfluss auf die Vorhersagen rechts vom Peak und umgekehrt.

Sie können also zwei schmale Bereiche auf beiden Seiten des Gipfels erwarten (wo Änderungen in den Steigungen beider Seiten relativ wenig Einfluss haben).
Der Bereich um den Peak ist relativ unsicherer, da eine Änderung der Steigung der Kurve in diesem Bereich einen größeren Effekt hat. Sie können viele Kurven mit einer großen Verschiebung des Peaks zeichnen, die noch einigermaßen durch die Messpunkte verläuft

Illustration

Unten sehen Sie eine Abbildung mit verschiedenen Daten, die leichter zeigt, wie dieses Muster (man könnte sagen einen Doppelknoten) entstehen kann:

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

Formal

^{Fortsetzung folgt: Ich werde später einen Abschnitt mit einer formelleren Erklärung einfügen. Man sollte in der Lage sein, den Einfluss eines bestimmten Messpunktes auf das Konfidenzintervall an verschiedenen Stellen auszudrücken . In diesem Ausdruck sollte man klarer (expliziter) sehen, wie eine Änderung eines bestimmten (zufälligen) Messpunkts mehr Einfluss auf den Fehler in dem weiter von den Messpunkten entfernten interpolierten Bereich hat $x$

Ich kann derzeit kein gutes Bild des Wellenmusters der Vorhersageintervalle erfassen, aber ich hoffe, dass diese grobe Idee Whubers Kommentar, dieses Muster in quadratischen Anpassungen nicht zu erkennen, ausreichend berücksichtigt. Es geht nicht so sehr um quadratische Anpassungen und mehr um Interpolation im Allgemeinen. In diesen Fällen ist die Genauigkeit für Vorhersagen weniger stark, wenn sie unabhängig von Interpolation oder Extrapolation weit entfernt von den Punkten ausgedrückt werden. (Sicherlich wird dieses Muster stärker reduziert, wenn mehr Messpunkte, verschiedene , hinzugefügt werden.) $x$}

Sextus Empiricus
quelle

1

Es fällt mir schwer, diese Charakterisierung oder eine ihrer Schlussfolgerungen zu glauben, weil ich mir ziemlich sicher bin, dass sich die quadratische Regression einfach nicht so verhält. Könnten Sie mich überzeugen, indem Sie sie begründen?

whuber

1

Ich denke, es hängt von der Position der Punkte ab. Im Beispiel befinden sich die Punkte auf beiden Seiten des Peaks. Dann könnten Sie die Position des Peaks als eine Art Extrapolation betrachten. Ich werde später ein extremeres Beispiel machen. (Ich frage mich auch, wie die Regression durchgeführt wird, aber ich stelle mir vor, dass der Fehler in den Koeffizienten als korreliert angesehen wird oder dass Sie dieses Muster tatsächlich nicht erhalten.)

Sextus Empiricus

(x_{i}, x_{i}^{2})

$(x_i, x_i^2)$

x

$x$

x^{2}

$x^2$

Verständnis der Form des Konfidenzintervalls für die Polynomregression (MLR)

Antworten:

Intuitiv

Illustration

Formal