Form und Berechnung von Konfidenzbändern in der linearen Regression verstehen

33

Ich versuche, den Ursprung der gekrümmten Form von Konfidenzbändern zu verstehen, die mit einer linearen OLS-Regression verbunden sind, und wie sie sich auf die Konfidenzintervalle der Regressionsparameter (Steigung und Achsenabschnitt) bezieht, zum Beispiel (unter Verwendung von R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

Bildbeschreibung hier eingeben

Es scheint, dass das Band mit den Grenzen der Linien zusammenhängt, die mit dem 2,5% -Abschnitt und dem 97,5% -Abschnitt sowie mit dem 97,5% -Abschnitt und dem 2,5% -Abschnitt berechnet wurden (obwohl nicht ganz):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

Bildbeschreibung hier eingeben

Was ich nicht verstehe, sind zwei Dinge:

  1. Was ist mit der Kombination aus 2,5% Steigung und 2,5% Achsenabschnitt sowie 97,5% Steigung und 97,5% Achsenabschnitt? Diese geben Linien, die deutlich außerhalb des oben eingezeichneten Bandes liegen. Vielleicht verstehe ich die Bedeutung eines Konfidenzintervalls nicht, aber wenn meine Schätzungen in 95% der Fälle innerhalb des Konfidenzintervalls liegen, scheinen diese Ergebnisse möglich zu sein?
  2. Was bestimmt den Mindestabstand zwischen oberer und unterer Grenze (dh nahe dem Punkt, an dem sich die beiden oben hinzugefügten Linien schneiden)?

Ich denke, beide Fragen stellen sich, weil ich nicht weiß / verstehe, wie diese Bänder tatsächlich berechnet werden.

Wie kann ich die oberen und unteren Grenzen anhand der Konfidenzintervalle der Regressionsparameter berechnen (ohne sich auf predict () oder eine ähnliche Funktion zu verlassen, dh von Hand)? Ich habe versucht, die predict.lm-Funktion in R zu entschlüsseln, aber die Kodierung ist mir ein Rätsel. Ich würde mich über Hinweise auf relevante Literatur oder Erklärungen freuen, die für Statistik-Anfänger geeignet sind.

Vielen Dank.

David
quelle
4
Sie haben zwei gute Antworten unten. Wenn Sie weitere Informationen wünschen, können Sie meine Antwort hier lesen: Lineares Regressionsvorhersageintervall , das Vorhersageintervalle betrifft, aber die Idee ist sehr ähnlich.
gung - Wiedereinsetzung von Monica
2
In diesem Beitrag finden Sie eine ausführliche intuitive Erklärung: Form des Konfidenzintervalls für vorhergesagte Werte in der linearen Regression
Glen_b
TA für die hilfreichen Antworten und die hervorragenden Links.
David
Bitte sehen Sie: stats.stackexchange.com/a/397504/144543
ouranos

Antworten:

18

Der Standardfehler der Regressionsgeraden am Punkt (dh ) wird von Hand berechnet ( Yech! ) Unter Verwendung von:XsY.^X

sY.^X=sY.|X1n+(X-X¯)2ich=1n(Xich-X¯)2 ,

wobei der Standardfehler der Schätzung (dh ) von Hand berechnet wird ( Double Yech! ) unter Verwendung von:sY.|X

sY.|X=ich=1n(Y.ich-Y.^)2n-2 .

Das Konfidenzband um die Regressionsgerade wird dann erhalten als .Y.^±tν=n-2,α/2sY.^

Beachten Sie, dass das Konfidenzband für die Regressionsgerade nicht dasselbe ist wie das Vorhersageband für die Regressionsgerade (die Vorhersage von bei einem Wert von ist unsicherer als die Schätzung der Regressionsgerade). Und wie Sie nur schwer verstehen können, sind die Konfidenzintervalle für den Achsenabschnitt und die Steigung noch andere Größen.XY.X

Außerdem verstehen Sie Konfidenzintervalle nicht: "Wenn in 95% der Fälle meine Schätzungen innerhalb des Konfidenzintervalls liegen, scheinen diese ein mögliches Ergebnis zu sein?" Konfidenzintervalle nicht ‚95% der Schätzungen enthält,‘ und nicht für jede einzelne Probe (mit dem gleichen Studiendesign hergestellt), 95% von den (separat für jede Probe berechnet) 95% Konfidenzintervall würde den ‚wahren Populationsparameter‘ enthält (dh die wahre Steigung, der wahre Achsenabschnitt usw.), die und schätzen. & agr;β^α^

Alexis
quelle
1
Gibt es ein Lehrbuch, in dem erklärt wird, woher diese Formeln stammen?
Michael Goerz
1
@MichaelGoerz Einführende Statistiken, Biostatistik, Ökonometrie usw., die die lineare Regression der kleinsten Quadrate behandeln, sollten vorhanden sein.
Alexis
Ich habe Wasserman - All of Statistics, James et al. - Eine Einführung in das statistische Lernen, und Hastie et al. - Die Elemente des statistischen Lernens. Ich konnte in keinem von ihnen die Gleichungen für die Vertrauensbereiche der linearen Regression finden. Haben Sie eine Kapitel- / EQ-Nummer für eines dieser Bücher oder ein anderes allgemein verfügbares Buch?
Michael Goerz
2
Keines der Bücher, die Sie erwähnen, ist die Art von Büchern, über die Alexis spricht. Fox 'Buch über angewandte Regression hat es, wenn ich mich richtig erinnere.
Glen_b
1
@MichaelGoerz Wie Pagano, M. und Gauvreau, K. (2000). Prinzipien der Biostatistik . Duxbury Press, Pacific Grove, CA, 2. Auflage und Glantz, SA (2011). Grundierung der Biostatistik . McGraw-Hill Medical, New York, NY, 7. Auflage, obwohl es sich nicht um regressionsspezifische Texte handelt.
Alexis
16

Gute Frage. Es ist wichtig, diese Konzepte zu verstehen und sie sind nicht einfach.

Die 95% -Konfidenzbänder, die Sie um die Regressionslinie sehen, werden durch die 95% -Konfidenzintervalle generiert, in denen der wahre Wert für für jedes einzelne x in diesen Bereich fällt. Nehmen Sie also einen vertikalen Slice, etwa bei x = 50. Die Regression besagt, dass bei x = 50 ungefähr 25 ist. Die Konfidenzintervallberechnung besagt, dass wir zu 95% davon überzeugt sind, dass der wahre Wert für bei ist Dieser Punkt liegt innerhalb des grauen Bereichs des Diagramms (also ungefähr 15 und 35 für das obige Diagramm).ˉ y ˉ yy¯y¯y¯

Wenn wir alle Konfidenzintervalle für jedes mögliche x kombinieren, erhalten wir die grauen Bänder, die Sie in der Ausgabe sehen.

Funktionell bedeutet dies, dass wir zu 95% davon überzeugt sind, dass die wahre Regressionslinie irgendwo in dieser Grauzone liegt.

Da die Konfidenzbänder anhand der 95% -Konfidenzintervalle für jeden einzelnen Punkt berechnet werden, hängt dies sehr eng mit dem 95% -Konfidenzintervall für den Achsenabschnitt zusammen. Tatsächlich stimmen bei x = 0 die Kanten der Grauzone genau mit dem 95% -KI für den Achsenabschnitt überein, da wir auf diese Weise die Konfidenzbänder erzeugt haben. Deshalb stoßen die Linien, die Sie oben hinzugefügt haben, links am Rand des grauen Streifens an.

Die Steigung ist jedoch etwas anders. Wie Sie oben gesehen haben, trägt dies zwar zu den Grenzwerten bei, aber die Steigung und der Achsenabschnitt sind in einer linearen Regression nicht trennbar. Sie können also nicht wirklich sagen: "Nun, was ist, wenn der Achsenabschnitt auf dem Minimum des CI-Bereichs und die Steigung auch auf dem Minimum lag?" Diese Linie würde Punkte erzeugen, die für viele x weit außerhalb unserer 95% -KI liegen. Dies bedeutet, dass wir zu 95% davon überzeugt sind, dass dies nicht unsere wahre Regressionslinie ist.

x¯sy^x(x-x¯)x=x¯

Es gibt hier einen anständigen Powerpoint, mit dem Sie einige der folgenden Dinge visualisieren können: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
quelle
2
Ich glaube, ich habe es behoben - die Yhats durch Ybars ersetzt. Ist das korrekter? Ich vermassle immer was.
Duncan
Ta. Eine Sache, die mir unklar bleibt, ist, wie man die folgenden beiden Aussagen konsistent macht: "Was dies funktional bedeutet, ist, dass wir zu 95% davon überzeugt sind, dass die wahre Regressionslinie irgendwo in dieser Grauzone liegt." vs "[...] die Konfidenzintervalle für den Achsenabschnitt und die Steigung sind noch andere Größen." Wenn die erste Aussage korrekt ist, muss es eine (mathematische?) Beziehung zwischen den CIs von Achsenabschnitt und Steigung und dem oben aufgetragenen Band geben. Ich vermute, dies bezieht sich auf einen Teil meiner Frage: Wie kann ich (wenn möglich) das obige Band unter Verwendung der CIs von Steigung und Schnitt berechnen?
David
1
x¯
Netter verständlicher Beitrag und ein netter Link! +1
theforestecologist