Was bedeutet diese Unschärfe um die Linie in diesem Diagramm?

8

Ich habe mit ggplot2 mit den folgenden Befehlen herumgespielt, um eine Zeile an meine Daten anzupassen:

ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + 
stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + 
stat_sum_single(median) + 
stat_sum_single(mean, colour="blue") + 
geom_smooth(level = 0.95, aes(group=1), method="lm")

Die roten Punkte sind Medianwerte, blau sind die Mittelwerte und die vertikalen roten Linien zeigen die Fehlerbalken. Als letzten Schritt habe ich geom_smootheine Linie mit linearer Glättung angepasst method="lm". Zusammen mit der Linie wurde auch um die Linie ein stumpfer Farbton erzeugt. Während ich herausgefunden habe, wie ich es aus der Dokumentation entfernen kann, habe ich folgende Option verwendet, um es auszuschalten:

se: display confidence interval around smooth? 

Kann mir bitte jemand sagen, was ich aus dem Schatten um die Linie verstehen soll? Insbesondere versuche ich zu verstehen, wie man es interpretiert. Es muss vielleicht eine gute Passform für die Leitung sein, aber jede zusätzliche Information könnte für mich sehr nützlich sein. Irgendwelche Vorschläge?

Geben Sie hier die Bildbeschreibung ein

Legende
quelle

Antworten:

6

Ich vermute, dass es in Ihrer tatsächlichen Figur sehr wenig bedeutet; Sie haben eine Form von Stripplot / Diagramm gezeichnet. Da wir jedoch keine Daten oder kein reproduzierbares Beispiel haben, werde ich nur beschreiben, was diese Linien / Regionen im Allgemeinen zeigen.

Im Allgemeinen ist die Linie das angepasste lineare Modell, das die Beziehung Das schattierte Band ist ein punktweises 95% -Konfidenzintervall für die angepassten Werte (die Linie) ). Dieses Konfidenzintervall enthält die wahre Populationsregressionslinie mit einer Wahrscheinlichkeit von 0,95. Mit anderen Worten, es besteht eine 95% ige Sicherheit, dass die wahre Regressionslinie innerhalb des schattierten Bereichs liegt. Es zeigt uns die Unsicherheit, die unserer Schätzung der tatsächlichen Beziehung zwischen Ihrer Antwort und der Prädiktorvariablen innewohnt.

veinl^=β0+β1N.um
Gavin Simpson
quelle
Vielen Dank für Ihre Antwort und Zeit. Ich werde einige Zeit damit verbringen, Ihren ersten Kommentar zu verstehen, warum er in meinem Diagramm wenig bedeutet. Anstatt ein Balkendiagramm mit dem Mittelwert zu zeichnen, habe ich ein Streifendiagramm gezeichnet, um einen Eindruck davon zu bekommen, wie viele Punkte ebenfalls verwendet wurden. Aber bitte korrigieren Sie mich, wenn ich mich irre. Meine letzte Frage wäre, ob es eine Beziehung zwischen diesem 95% -Konfidenzintervall und dem 95% -Konfidenzintervall gibt, das durch die Fehlerbalken angezeigt wird. Was bedeutet es konkret, dass sich die angepasste Linie über oder unter den Fehlerbalken befindet? Oder sind sie völlig unabhängig und sollten separat interpretiert werden?
Legende
Wenn die x-Variable kategorisch ist, ist es möglicherweise nicht sinnvoll, sie als linearen Term mit 1 Freiheitsgrad zu behandeln, wie er bei der Berechnung der angepassten Linie behandelt wurde. Außerdem scheinen Ihre Daten nicht die Annahme einer konstanten Varianz für die Residuen des Modells aufzuweisen. Das Stripchart ist nicht das Problem, es ist, ob die Regression dieser Daten sinnvoll ist. Die angepasste Linie befindet sich in der Nähe (oder kann sogar jemand kann mich korrigieren) einer am besten angepassten Linie durch die Gruppenmittel.
Gavin Simpson
Vielen Dank für Ihren Einblick. Ich werde mehr über die Annahme der konstanten Varianz für Residuen lesen.
Legende
2
Hmmm. Ich bin mir nicht ganz sicher, ob Ihre Erklärung korrekt ist. Standardmäßig wird ein Konfidenzintervall von 95% punktweise gezeichnet. Ich denke nicht, dass dies das Gleiche ist wie zu sagen, dass die wahre Regressionslinie mit einer Wahrscheinlichkeit von 95% innerhalb der schattierten Region liegt.
Hadley
@ Hadley schlägt Kopf ja, das wäre ein gleichzeitiges Konfidenzintervall. Werde Dich auf dem Laufenden halten.
Gavin Simpson