Differenz zwischen Konfidenzintervallen und Vorhersageintervallen

80

Für ein Prognoseintervall in der linearen Regression verwenden Sie noch E [ Y | x ] = ^ β 0 + β 1 x das Intervall zu erzeugen. Sie verwenden dies auch, um ein Konfidenzintervall von E [ Y | zu generieren x 0 ] . Was ist der Unterschied zwischen den beiden?E^[Y.|X]=β0^+β^1XE[Y.|X0]

Frage
quelle
7
"zu erzeugendas Intervall" nicht. E^[Y|x]=β0^+β^1X
Glen_b
Ich sehe in keiner der obigen Antworten einen Grund für die Abweichung zwischen den beiden Methoden. Regressionsergebnisse werden in der Regel basierend auf parametrischen Student-t-Verteilungsparametern geschätzt, und in der Regel führt die Regression, insbesondere von schlecht an die Datenregressionsmodelle angepassten, zu Residuen, die nicht studentisiert sind, z parametrische Maße der Datenstreuung, die größer sind als die entsprechenden erwarteten gemessenen Quantile. Eine Faustregel, die ich für nützlich befunden habe: Wenn ich Reste mit Ausreißern, langen Schwänzen und u sehe
Carl

Antworten:

75

Ihre Frage ist nicht ganz richtig. Ein Konfidenzintervall gibt einen Bereich für , wie Sie sagen. Ein Vorhersageintervall gibt einen Bereich für y selbst an. Natürlich unsere beste Schätzung für y ist E [ y | x ] , so dass die Intervalle werden beide um den gleichen Wert zentriert werden, x β .E[yX]yyE[yX]xβ^

Wie @Greg sagt, werden die Standardfehler unterschiedlich sein - wir schätzen den erwarteten Wert von genauer, als wir y selbst schätzen . Das Schätzen von y erfordert das Einbeziehen der Varianz, die aus dem wahren Fehlerterm stammt.E[yx]yy

Stellen Sie sich zur Veranschaulichung des Unterschieds vor, wir könnten perfekte Schätzungen unserer Koeffizienten erhalten. Dann wäre unsere Schätzung von E [ y x ] perfekt. Aber wir wären uns immer noch nicht sicher, was y selbst ist, da es einen wahren Fehlerbegriff gibt, den wir berücksichtigen müssen. Unser Konfidenzintervall wäre nur ein Punkt, weil wir E [ y x ] genau richtig schätzen , aber unser Vorhersageintervall wäre breiter, weil wir den wahren Fehlerterm berücksichtigen.βE[yX]yE[yX]

Daher ist ein Vorhersageintervall breiter als ein Konfidenzintervall.

Charlie
quelle
40

Der Unterschied zwischen einem Vorhersageintervall und einem Konfidenzintervall ist der Standardfehler.

Der Standardfehler für ein Konfidenzintervall im Mittelwert berücksichtigt die Unsicherheit aufgrund der Stichprobe. Die Linie, die Sie aus Ihrer Stichprobe berechnet haben, unterscheidet sich von der Linie, die berechnet worden wäre, wenn Sie die gesamte Grundgesamtheit gehabt hätten. Der Standardfehler berücksichtigt diese Unsicherheit.

Der Standardfehler für ein Vorhersageintervall für eine Einzelbeobachtung berücksichtigt die Unsicherheit aufgrund der Stichprobe wie oben, berücksichtigt jedoch auch die Variabilität der Einzelpersonen um den vorhergesagten Mittelwert. Der Standardfehler für das Vorhersageintervall ist breiter als für das Konfidenzintervall und daher ist das Vorhersageintervall breiter als das Konfidenzintervall.

Greg Snow
quelle
39

Ich fand die folgende Erklärung hilfreich:

Konfidenzintervalle geben Auskunft darüber, wie gut Sie den Mittelwert ermittelt haben. Angenommen, die Daten werden tatsächlich zufällig aus einer Gaußschen Verteilung abgetastet. Wenn Sie dies mehrmals tun und aus jeder Stichprobe ein Konfidenzintervall des Mittelwerts berechnen, würden Sie erwarten, dass etwa 95% dieser Intervalle den wahren Wert des Populationsmittelwerts enthalten. Der entscheidende Punkt ist, dass das Konfidenzintervall Sie über die wahrscheinliche Position des wahren Populationsparameters informiert.

Prognoseintervalle zeigen an , wo Sie den nächsten abgetasteten Datenpunkt erwarten können. Angenommen, die Daten werden tatsächlich zufällig aus einer Gaußschen Verteilung abgetastet. Sammeln Sie eine Stichprobe von Daten und berechnen Sie ein Vorhersageintervall. Dann probieren Sie einen weiteren Wert aus der Population. Wenn Sie dies oft tun, würden Sie erwarten, dass der nächste Wert in 95% der Stichproben innerhalb dieses Vorhersageintervalls liegt. Der entscheidende Punkt ist, dass das Vorhersageintervall Sie über die Verteilung der Werte informiert, nicht über die Unsicherheit bei der Bestimmung der Grundgesamtheit bedeuten.

Vorhersageintervalle müssen sowohl die Unsicherheit bei der Kenntnis des Wertes des Bevölkerungsmittelwerts als auch die Datenstreuung berücksichtigen. Ein Vorhersageintervall ist also immer breiter als ein Konfidenzintervall.

Quelle: http://www.graphpad.com/support/faqid/1506/

vonjd
quelle
Was zum Teufel ist hier mit "Datenstreuung" gemeint?
Tel.
2
@tel: Offensichtlich die Varianz
vonjd
36

Eine ist eine Vorhersage einer zukünftigen Beobachtung, und die andere ist eine vorhergesagte mittlere Antwort. Ich werde eine detailliertere Antwort geben, um hoffentlich den Unterschied zu erklären und zu erklären, woher er kommt und wie sich dieser Unterschied in größeren Intervallen für die Vorhersage als für das Vertrauen manifestiert.

X0

  1. Wir können den Preis für ein bestimmtes neues Haus vorhersagen, das mit den Merkmalen auf den Markt kommt ( "was ist der vorhergesagte Preis für dieses Haus xX0X0

    y=X0Tβ+ϵ
    E(ϵ)=0
    y^=X0Tβ^
    β^ϵ
  2. X0X0

    y^=X0Tβ^
    β^

veinr(X0Tβ^)=X0T(XTX)-1X0σ2

X0Tβ^+ϵϵσ2β^

  1. X0

    y^0±tn-p(α/2)σ^X0T(XTX)-1X0+1
  2. X0

    y^0±tn-p(α/2)σ^X0T(XTX)-1X0

tn-pα/2n-pα/2

Hoffentlich wird dadurch ein bisschen klarer, warum das Vorhersageintervall immer breiter ist und was der zugrunde liegende Unterschied zwischen den beiden Intervallen ist. Dieses Beispiel wurde von Faraway, Linear Models mit R, Sec angepasst. 4.1.

jpgard
quelle
2
Es ist schön zu sehen, dass ein alter Thread durch eine klare und nachdenkliche Reaktion erheblich verbessert wird. Willkommen auf unserer Webseite!
Whuber
Sollte dies nicht sein ... x0 + 1 / n +1 (für das Vorhersageintervall (1)) und ... x0 + 1 / n (für das Konfidenzintervall (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956 17.11.17
12

Kurze Antwort:

Ein Vorhersageintervall ist ein Intervall, das einer zufälligen Variablen zugeordnet ist, die noch beobachtet werden muss (Vorhersage).

Ein Konfidenzintervall ist ein Intervall, das einem Parameter zugeordnet ist, und ist ein häufig verwendetes Konzept.

Prüfen vollständige Antwort hier von Rob Hyndman, der Schöpfer von Prognose - Paket in R.

pablo_sci
quelle
3

Diese Antwort richtet sich an Leser, die die vorherigen Antworten nicht vollständig verstanden haben. Lassen Sie uns ein konkretes Beispiel diskutieren. Angenommen, Sie versuchen, das Gewicht der Menschen anhand ihrer Größe, ihres Geschlechts (männlich, weiblich) und ihrer Ernährung (normal, kohlenhydratarm, vegetarisch) vorherzusagen. Derzeit leben mehr als 8 Milliarden Menschen auf der Erde. Natürlich können Sie viele tausend Menschen mit der gleichen Größe und den beiden anderen Parametern, aber unterschiedlichem Gewicht finden. Ihre Gewichte sind sehr unterschiedlich, weil einige von ihnen an Fettleibigkeit leiden und andere unter Hunger leiden können. Die meisten dieser Leute werden irgendwo in der Mitte sein.

Eine Aufgabe besteht darin, das Durchschnittsgewicht aller Personen vorherzusagen, die dieselben Werte für alle drei erklärenden Variablen haben. Hier verwenden wir das Konfidenzintervall. Ein weiteres Problem besteht darin, das Gewicht einer bestimmten Person vorherzusagen. Und wir kennen die Lebensumstände dieses Individuums nicht. Hier muss das Vorhersageintervall verwendet werden. Es ist um denselben Punkt zentriert, muss aber viel breiter als das Konfidenzintervall sein.

Serhii Kushchenko
quelle