Für ein Prognoseintervall in der linearen Regression verwenden Sie noch E [ Y | x ] = ^ β 0 + β 1 x das Intervall zu erzeugen. Sie verwenden dies auch, um ein Konfidenzintervall von E [ Y | zu generieren x 0 ] . Was ist der Unterschied zwischen den beiden?
80
Antworten:
Ihre Frage ist nicht ganz richtig. Ein Konfidenzintervall gibt einen Bereich für , wie Sie sagen. Ein Vorhersageintervall gibt einen Bereich für y selbst an. Natürlich unsere beste Schätzung für y ist E [ y | x ] , so dass die Intervalle werden beide um den gleichen Wert zentriert werden, x β .E[y∣x] y y E[y∣x] xβ^
Wie @Greg sagt, werden die Standardfehler unterschiedlich sein - wir schätzen den erwarteten Wert von genauer, als wir y selbst schätzen . Das Schätzen von y erfordert das Einbeziehen der Varianz, die aus dem wahren Fehlerterm stammt.E[y∣x] y y
Stellen Sie sich zur Veranschaulichung des Unterschieds vor, wir könnten perfekte Schätzungen unserer Koeffizienten erhalten. Dann wäre unsere Schätzung von E [ y ∣ x ] perfekt. Aber wir wären uns immer noch nicht sicher, was y selbst ist, da es einen wahren Fehlerbegriff gibt, den wir berücksichtigen müssen. Unser Konfidenzintervall wäre nur ein Punkt, weil wir E [ y ∣ x ] genau richtig schätzen , aber unser Vorhersageintervall wäre breiter, weil wir den wahren Fehlerterm berücksichtigen.β E [ y∣ x ] y E [ y∣ x ]
Daher ist ein Vorhersageintervall breiter als ein Konfidenzintervall.
quelle
Der Unterschied zwischen einem Vorhersageintervall und einem Konfidenzintervall ist der Standardfehler.
Der Standardfehler für ein Konfidenzintervall im Mittelwert berücksichtigt die Unsicherheit aufgrund der Stichprobe. Die Linie, die Sie aus Ihrer Stichprobe berechnet haben, unterscheidet sich von der Linie, die berechnet worden wäre, wenn Sie die gesamte Grundgesamtheit gehabt hätten. Der Standardfehler berücksichtigt diese Unsicherheit.
Der Standardfehler für ein Vorhersageintervall für eine Einzelbeobachtung berücksichtigt die Unsicherheit aufgrund der Stichprobe wie oben, berücksichtigt jedoch auch die Variabilität der Einzelpersonen um den vorhergesagten Mittelwert. Der Standardfehler für das Vorhersageintervall ist breiter als für das Konfidenzintervall und daher ist das Vorhersageintervall breiter als das Konfidenzintervall.
quelle
Ich fand die folgende Erklärung hilfreich:
Quelle: http://www.graphpad.com/support/faqid/1506/
quelle
Eine ist eine Vorhersage einer zukünftigen Beobachtung, und die andere ist eine vorhergesagte mittlere Antwort. Ich werde eine detailliertere Antwort geben, um hoffentlich den Unterschied zu erklären und zu erklären, woher er kommt und wie sich dieser Unterschied in größeren Intervallen für die Vorhersage als für das Vertrauen manifestiert.
Wir können den Preis für ein bestimmtes neues Haus vorhersagen, das mit den Merkmalen auf den Markt kommt ( "was ist der vorhergesagte Preis für dieses Haus xX0 X0
Hoffentlich wird dadurch ein bisschen klarer, warum das Vorhersageintervall immer breiter ist und was der zugrunde liegende Unterschied zwischen den beiden Intervallen ist. Dieses Beispiel wurde von Faraway, Linear Models mit R, Sec angepasst. 4.1.
quelle
Kurze Antwort:
Ein Vorhersageintervall ist ein Intervall, das einer zufälligen Variablen zugeordnet ist, die noch beobachtet werden muss (Vorhersage).
Ein Konfidenzintervall ist ein Intervall, das einem Parameter zugeordnet ist, und ist ein häufig verwendetes Konzept.
Prüfen vollständige Antwort hier von Rob Hyndman, der Schöpfer von Prognose - Paket in R.
quelle
Diese Antwort richtet sich an Leser, die die vorherigen Antworten nicht vollständig verstanden haben. Lassen Sie uns ein konkretes Beispiel diskutieren. Angenommen, Sie versuchen, das Gewicht der Menschen anhand ihrer Größe, ihres Geschlechts (männlich, weiblich) und ihrer Ernährung (normal, kohlenhydratarm, vegetarisch) vorherzusagen. Derzeit leben mehr als 8 Milliarden Menschen auf der Erde. Natürlich können Sie viele tausend Menschen mit der gleichen Größe und den beiden anderen Parametern, aber unterschiedlichem Gewicht finden. Ihre Gewichte sind sehr unterschiedlich, weil einige von ihnen an Fettleibigkeit leiden und andere unter Hunger leiden können. Die meisten dieser Leute werden irgendwo in der Mitte sein.
Eine Aufgabe besteht darin, das Durchschnittsgewicht aller Personen vorherzusagen, die dieselben Werte für alle drei erklärenden Variablen haben. Hier verwenden wir das Konfidenzintervall. Ein weiteres Problem besteht darin, das Gewicht einer bestimmten Person vorherzusagen. Und wir kennen die Lebensumstände dieses Individuums nicht. Hier muss das Vorhersageintervall verwendet werden. Es ist um denselben Punkt zentriert, muss aber viel breiter als das Konfidenzintervall sein.
quelle