Okay, ich versuche die lineare Regression zu verstehen. Ich habe einen Datensatz und alles sieht ganz gut aus, aber ich bin verwirrt. Dies ist meine lineare Modellzusammenfassung:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
Der p-Wert ist also sehr niedrig, was bedeutet, dass es sehr unwahrscheinlich ist, dass die Korrelation zwischen x, y zufällig entsteht. Wenn ich es zeichne und dann die Regressionslinie zeichne, sieht es so aus: http://s14.directupload.net/images/120923/l83eellv.png (Hatte es als Bild, aber ich bin - als neuer Benutzer - derzeit nicht darf es posten) Blaue Linien = Konfidenzintervall Grüne Linien = Vorhersageintervall
Nun, viele Punkte fallen nicht in das Konfidenzintervall. Warum sollte das passieren? Ich denke, keiner der Datenpunkte fällt auf die Regressionslinie b / c, sie sind nur ziemlich weit voneinander entfernt, aber was ich nicht sicher bin: Ist das ein echtes Problem? Sie befinden sich immer noch um die Regressionslinie und Sie können ein Muster vollständig sehen. Aber ist das genug? Ich versuche es herauszufinden, aber ich stelle mir immer wieder dieselben Fragen.
Was ich bisher gedacht habe: Das Konfidenzintervall besagt, dass in 95% der Fälle der wahre Mittelwert in das CI fällt, wenn Sie die CIs immer wieder berechnen. Also: Es ist kein Problem, dass die dp nicht hineinfallen, da dies nicht wirklich die Mittel sind. Das Vorhersageintervall besagt andererseits, dass, wenn Sie die PIs immer wieder berechnen, in 95% der Fälle der wahre Wert in das Intervall fällt. Es ist also sehr wichtig, die Punkte darin zu haben (die ich habe). Dann habe ich gelesen, dass der PI immer einen größeren Bereich haben muss als der CI. Warum das? Das habe ich getan:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
und dann habe ich es geplant von:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Wenn ich nun CI und PI für zusätzliche Daten berechne, spielt es keine Rolle, wie breit ich den Bereich wähle, ich erhalte genau die gleichen Linien wie oben. Ich kann es nicht verstehen. Was bedeutet das? Dies wäre dann:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
für new x habe ich verschiedene sequenzen gewählt. Wenn die Sequenz eine andere Anzahl von Beobachtungen aufweist als die Variablen in meiner Regression, wird eine Warnung angezeigt. Warum sollte das so sein?
quelle