Konfidenz- und Vorhersageintervalle des linearen Regressionsmodells

9

Okay, ich versuche die lineare Regression zu verstehen. Ich habe einen Datensatz und alles sieht ganz gut aus, aber ich bin verwirrt. Dies ist meine lineare Modellzusammenfassung:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

Der p-Wert ist also sehr niedrig, was bedeutet, dass es sehr unwahrscheinlich ist, dass die Korrelation zwischen x, y zufällig entsteht. Wenn ich es zeichne und dann die Regressionslinie zeichne, sieht es so aus: http://s14.directupload.net/images/120923/l83eellv.png (Hatte es als Bild, aber ich bin - als neuer Benutzer - derzeit nicht darf es posten) Blaue Linien = Konfidenzintervall Grüne Linien = Vorhersageintervall

Nun, viele Punkte fallen nicht in das Konfidenzintervall. Warum sollte das passieren? Ich denke, keiner der Datenpunkte fällt auf die Regressionslinie b / c, sie sind nur ziemlich weit voneinander entfernt, aber was ich nicht sicher bin: Ist das ein echtes Problem? Sie befinden sich immer noch um die Regressionslinie und Sie können ein Muster vollständig sehen. Aber ist das genug? Ich versuche es herauszufinden, aber ich stelle mir immer wieder dieselben Fragen.

Was ich bisher gedacht habe: Das Konfidenzintervall besagt, dass in 95% der Fälle der wahre Mittelwert in das CI fällt, wenn Sie die CIs immer wieder berechnen. Also: Es ist kein Problem, dass die dp nicht hineinfallen, da dies nicht wirklich die Mittel sind. Das Vorhersageintervall besagt andererseits, dass, wenn Sie die PIs immer wieder berechnen, in 95% der Fälle der wahre Wert in das Intervall fällt. Es ist also sehr wichtig, die Punkte darin zu haben (die ich habe). Dann habe ich gelesen, dass der PI immer einen größeren Bereich haben muss als der CI. Warum das? Das habe ich getan:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

und dann habe ich es geplant von:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Wenn ich nun CI und PI für zusätzliche Daten berechne, spielt es keine Rolle, wie breit ich den Bereich wähle, ich erhalte genau die gleichen Linien wie oben. Ich kann es nicht verstehen. Was bedeutet das? Dies wäre dann:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

für new x habe ich verschiedene sequenzen gewählt. Wenn die Sequenz eine andere Anzahl von Beobachtungen aufweist als die Variablen in meiner Regression, wird eine Warnung angezeigt. Warum sollte das so sein?

Lisa
quelle

Antworten:

3

Ich verstehe einige Ihrer Fragen, aber andere sind nicht klar. Lassen Sie mich einige Fakten beantworten und darlegen, und vielleicht klärt das all Ihre Verwirrung auf.

Die Passform ist bemerkenswert gut. Die Konfidenzintervalle sollten sehr eng sein. Es gibt zwei Arten von Konfidenzregionen, die berücksichtigt werden können: Die bsimultanoues-Region, die die gesamte wahre Regressionsfunktion mit dem gegebenen Konfidenzniveau abdecken soll.

Die anderen, die Sie betrachten, sind die Konfidenzintervalle für die angepassten Regressionspunkte. Sie sollen nur den angepassten Wert von y bei den angegebenen Werten der Kovariate (n) abdecken. Sie sollen keine y-Werte bei anderen Werten der Kovariaten abdecken. In der Tat, wenn die Intervalle sehr eng sind, wie sie in Ihrem Fall sein sollten, werden sie nicht viele der Datenpunkte abdecken, wenn Sie von den festen Werten der Kovariate (n) wegkommen. Für diese Art der Abdeckung müssen Sie die simultanen Konfidenzkurven (obere und untere Grenzkurven) erhalten.

Nun ist es wahr, dass das Intervall breiter ist, wenn Sie ay bei einem bestimmten Wert einer Kovariate vorhersagen und dasselbe Konfidenzniveau für das Vorhersageintervall wünschen, das Sie für das Konfidenzintervall für y bei dem angegebenen Wert der Kovariate verwendet haben. Der Grund dafür ist, dass das Modell Ihnen mitteilt, dass eine Variabilität hinzugefügt wird, da ein neues y einen eigenen unabhängigen Fehler aufweist, der im Intervall berücksichtigt werden muss. Diese Fehlerkomponente geht nicht in die Schätzungen ein, die auf den in der Anpassung verwendeten Daten basieren.

Michael R. Chernick
quelle
Es tut mir leid, ich verstehe immer noch nicht ganz. Sie haben zwei Arten von Konfidenzintervallen erklärt, aber welche meinen Sie, wenn Sie "die, die ich betrachte" sagen? b / c Ich habe sowohl die Vorhersage als auch das Konfidenzintervall aufgezeichnet und habe Probleme, den Unterschied zu verstehen. Außerdem habe ich meinem vorherigen Beitrag einige R-Befehle hinzugefügt, um zu verdeutlichen, was ich getan habe
Lisa
Die Kurven machen nicht klar, ob die Konfidenzbänder durch die Erstellung simultaner Konfidenzkurven erhalten werden oder nicht, oder stellen einfach eine reibungslose Verbindung der einzelnen Konfidenzintervalle her. Wenn sie gleichzeitig wären, würden Sie nicht so viele der angepassten Punkte außerhalb der Kurve sehen. Aber wie ich schon sagte, könnte es mit den einzelnen Intervallen passieren. Ich habe mir die Bearbeitung mit dem R-Code noch nicht angesehen.
Michael R. Chernick
Ich kenne R nicht gut genug, um die R-spezifischen Fragen zu beantworten. Was ich nicht weiß, dass ein R-Experte Ihnen sagen kann, ob die Konfidenzkurven und Vorhersagekurven die einzelnen Konfidenzintervalle verbinden oder die simultanen Kurven erzeugen. Tut Ihr Code auch das, was Sie beabsichtigen?
Michael R. Chernick