Form des Konfidenzintervalls für vorhergesagte Werte in der linearen Regression

69

Ich habe festgestellt, dass das Konfidenzintervall für vorhergesagte Werte in einer linearen Regression um den Mittelwert des Prädiktors und Fett um den minimalen und den maximalen Wert des Prädiktors eng ist. Dies ist in den Diagrammen dieser 4 linearen Regressionen zu sehen:

Bildbeschreibung hier eingeben

Anfangs dachte ich, dies liege daran, dass die meisten Werte der Prädiktoren um den Mittelwert des Prädiktors konzentriert waren. Dann bemerkte ich jedoch, dass die enge Mitte des Konfidenzintervalls auch dann auftreten würde, wenn viele Werte von um die Extreme des Prädiktors konzentriert wären, wie in der linearen Regression unten links, bei der viele Werte des Prädiktors um das Minimum von konzentriert sind der Prädiktor.

Kann jemand erklären, warum die Konfidenzintervalle für die vorhergesagten Werte in einer linearen Regression in der Mitte eng und in den Extremen fett sind?

Luciano
quelle

Antworten:

86

Ich werde es in intuitiven Begriffen diskutieren.

Sowohl Konfidenzintervalle als auch Vorhersageintervalle in der Regression berücksichtigen die Tatsache, dass der Achsenabschnitt und die Steigung unsicher sind - Sie schätzen die Werte aus den Daten, aber die Populationswerte können unterschiedlich sein (wenn Sie eine neue Stichprobe nehmen, werden Sie anders geschätzt) Werte).

Eine Regressionslinie verläuft durch , und es ist am besten, die Diskussion über Änderungen der Anpassung um diesen Punkt zu zentrieren - das heißt, über die Linie nachzudenken (in dieser Formulierung ist ).(x¯,y¯)y=a+b(xx¯)a^=y¯

Wenn die Linie durch diesen Punkt verläuft, die Steigung jedoch etwas höher oder niedriger ist (dh wenn die Höhe der Linie im Mittelwert festgelegt ist, die Steigung jedoch etwas anders ist), was würde das bedeuten? aussehen wie?(x¯,y¯)

Sie werden sehen, dass sich die neue Linie in der Nähe der Enden weiter von der aktuellen Linie entfernt als in der Nähe der Mitte. Dadurch entsteht eine Art schräges X , das sich im Mittel kreuzt (wie jede der lila Linien unten in Bezug auf die rote Linie) , die purpurroten Linien stellen die geschätzte Neigung zwei Standardfehler der Steigung).±

Bildbeschreibung hier eingeben

Wenn Sie eine Sammlung solcher Linien zeichnen, deren Steigung geringfügig von der Schätzung abweicht, sehen Sie die Verteilung der vorhergesagten Werte in der Nähe der Enden "auffächern" (stellen Sie sich beispielsweise den Bereich zwischen den beiden grau schattierten violetten Linien vor). weil wir erneut eine Stichprobe gemacht haben und viele solcher Hänge in die Nähe des geschätzten gezogen haben, können wir uns ein Bild davon machen, indem wir eine Linie durch den Punkt ziehen ( ). Hier ist ein Beispiel mit 2000 Resamples mit einem parametrischen Bootstrap:x¯,y¯

Bildbeschreibung hier eingeben

Wenn Sie stattdessen wegen der Unsicherheit in den konstanten nehmen (was die Linie passiert nahe, aber nicht ganz durch ), dass die Linie nach oben und unten bewegt, so Intervalle für den Mittelwert an jedem wird über und unter der eingepassten Linie sitzen.(x¯,y¯)x

Bildbeschreibung hier eingeben

(Hier wird die violetten Linien sind zwei Standardfehler des konstanten Term auf beiden Seiten der geschätzten Linie).±

Wenn Sie beides gleichzeitig tun (die Linie kann ein kleines Stück nach oben oder unten verlaufen, und die Steigung kann etwas steiler oder flacher sein), erhalten Sie aufgrund der Unsicherheit in der Kurve eine gewisse Streuung im Mittelwert von konstant, und aufgrund der Unsicherheit der Steigung kommt es zu einer zusätzlichen Auffächerung, die die charakteristische hyperbolische Form Ihrer Parzellen erzeugt.x¯

Das ist die Intuition.


Nun, wenn Sie möchten, können wir eine kleine Algebra betrachten (aber es ist nicht wesentlich):

Es ist eigentlich die Quadratwurzel der Summe der Quadrate dieser beiden Effekte - Sie können es in der Formel des Konfidenzintervalls sehen. Bauen wir die Teile auf:

Der bekannte Standardfehler mit ist (Denken Sie daran, dass hier der erwartete Wert von beim Mittelwert von , nicht der übliche Achsenabschnitt; es ist nur ein Standardfehler eines Mittelwerts). Dies ist der Standardfehler der Position der Linie am Mittelwert ( ).abσ/nayxx¯

Der Standardfehler bei bekannten ist . Die Auswirkung der Unsicherheit der Steigung bei einem bestimmten Wert wird multipliziert mit der Entfernung vom Mittelwert ( ) (da die Änderung des Pegels die Änderung der Steigung multipliziert mit der Entfernung ist, die Sie zurücklegen) .baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

Jetzt ist der Gesamteffekt nur die Quadratwurzel der Summe der Quadrate dieser beiden Dinge (warum? Weil sich Varianzen nicht korrelierter Dinge addieren, und wenn Sie Ihre Linie in der Form schreiben Sind die Schätzungen von und nicht korreliert, so ist der Gesamtstandardfehler die Quadratwurzel der Gesamtvarianz, und die Varianz ist die Summe der Varianzen der Komponenten - das heißt, wir habeny=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

Eine kleine einfache Manipulation ergibt den üblichen Ausdruck für den Standardfehler der Schätzung des Mittelwertes bei :x

σ1n+(xx¯)2i=1n(xix¯)2

Wenn Sie das als eine Funktion von zeichnen, sehen Sie, dass es eine Kurve (sieht aus wie ein Lächeln) mit einem Minimum bei bildet, das größer wird, wenn Sie ausziehen. Dies wird zu der angepassten Linie addiert / von dieser subtrahiert (nun, ein Vielfaches davon, um das gewünschte Konfidenzniveau zu erhalten).xx¯

[Bei Vorhersageintervallen gibt es auch die Variation der Position aufgrund der Prozessvariabilität; Dies fügt einen weiteren Begriff hinzu, der die Grenzen nach oben und unten verschiebt und eine viel größere Spreizung bewirkt. Da dieser Begriff normalerweise die Summe unter der Quadratwurzel dominiert, ist die Krümmung viel weniger ausgeprägt.]

Glen_b
quelle
Danke Glen_b, das ist sehr intuitiv. Mir war nicht in den Sinn gekommen, dass das Konfidenzintervall dafür verantwortlich ist.
Luciano
1

Die akzeptierte Antwort bringt in der Tat die notwendige Intuition. Es fehlt nur die Visualisierung der Kombination von linearen und winkligen Unsicherheiten, was sich sehr gut auf die Darstellungen in der Frage bezieht. Also geht es los. Nennen wir a'und b'die Unsicherheiten aund bjeweils Mengen häufig von jedem gängigen Statistikpaket zurückgegeben. Dann haben wir, abgesehen von der besten Anpassung a*x + b, vier mögliche Linien zu zeichnen (in diesem Fall von 1 Kovariate x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Dies sind die vier farbigen Linien in der folgenden Grafik. Die schwarze dicke Linie in der Mitte repräsentiert die beste Passform ohne Unsicherheiten. Um die "hyperbolischen" Schattierungen zu zeichnen, sollte man die Maximal- und Minimalwerte dieser vier Linien kombinieren, die tatsächlich vier Liniensegmente sind, keine Kurven dort (ich frage mich, wie genau diese Fency-Diagramme die Kurve zeichnen, scheint nicht Irgendwelche genau zu mir).

Ich hoffe, dies ergänzt die bereits nette Antwort von @Glen_b.

Bildbeschreibung hier eingeben

ouranos
quelle