Vorhersageintervalle mit Heteroskedastizität

8

Ich benutze R, um eine lineare Regression durchzuführen. Ich habe Möglichkeiten gesehen, Vorhersageintervalle zu berechnen, aber diese hängen von homoskedastischen Daten ab. Gibt es eine Möglichkeit, Vorhersageintervalle mit heteroskedastischen Daten zu berechnen?

r regression least-squares heteroscedasticity prediction-interval Andy
quelle

4

Dies würde von der Art der Heteroskedastizität abhängen. Wenn Sie ein Vorhersageintervall wünschen, benötigen Sie normalerweise eine parametrische Spezifikation wie:

y_{i} \sim N (x_{i}^{'} β, σ_{i} (x_{i}, z_{i}))

$y_i \sim N(\mathbf{x}_i'\beta,\sigma_i(\mathbf{x}_i,\mathbf{z}_i ))$ dh wird normalerweise mit dem Mittelwert , verteilt. und Standardabweichung , wobei die Standardabweichung eine bekannte Funktion von oder vielleicht einer anderen Menge von Variablen Auf diese Weise können Sie die Standardabweichung für jede Beobachtung schätzen .

y_{i}

$y_i$

x_{i}^{'} β

$\mathbf{x}_i'\beta$

σ_{i} (x_{i}, z_{i})

$\sigma_i(\mathbf{x}_i,\mathbf{z}_i )$

x_{i}

$\mathbf{x}_i$

z_{i}

$\mathbf{z}_i$

i^{t h}

$i^{th}$

Beispiele für mögliche Funktionen sind: (Studien über Unternehmensgewinne, ein Beispiel aus Greenes "Ökonometrischer Analyse", 7. Ausgabe CH 9), wobei ist die Beobachtung der abhängigen Variablen oder, wenn mit Zeitreihendaten gearbeitet wird, GARCH- und / oder stochastische Volatilitätsspezifikationen. $\sigma^2_i(\mathbf{x}_i)=\sigma^2x_{i,k}$ $x_{i,k}$ $i^{th}$ $k^{th}$

Sie können die Schätzungen als Standardfehler für Ihre Vorhersageintervalle verwenden, wenn Sie möchten. Ich werde hier auf eine formelle Behandlung verzichten, da die Berücksichtigung von Schätzfehlern in kompliziert sein kann, aber bei einer ausreichend großen Stichprobe das Ignorieren des Schätzfehlers keine Auswirkung hat das Vorhersageintervall so viel. Kurz gesagt, es ist nicht notwendig, diese Dose Würmer hier zu öffnen. Eine detailliertere Erklärung all dieser und weiterer Beispiele finden Sie in Wooldridges Buch "Introductory Econometrics: A Modern Approach" , Kapitel 8. $\hat \sigma_i(\mathbf{x}_i,\mathbf{z}_i )$ $\hat \sigma_i(\mathbf{x}_i,\mathbf{z}_i )$

Das Problem ist, dass Menschen, die sich auf heteroskedastische oder "robuste" Regression beziehen, sich normalerweise auf die Situation beziehen, in der die genaue Natur der Heteroskedastizität (die Funktion ) ist nicht bekannt. In diesem Fall wird ein weißer oder zweistufiger Schätzer verwendet. Diese bieten konsistente Schätzungen für jedoch nicht für , sodass Sie auf natürliche Weise keine Vorhersageintervalle schätzen können. $\sigma_i(\mathbf{x}_i,\mathbf{z}_i )$ $var(\hat \beta)$ $\sigma_i$ Ich würde argumentieren, dass Vorhersageintervalle in diesem Zusammenhang sowieso nicht sinnvoll sind. Die Idee hinter diesen Sandwich-Typ-Schätzern besteht darin, den Standardfehler der Koeffizienten konsistent zu schätzen $\hat \beta$ ohne die Last, genaue Vorhersageintervalle für jede einzelne Beobachtung anzubieten, wodurch die Schätzungen "robuster" werden.

Bearbeiten:

Um klar zu sein, berücksichtigt das oben Gesagte nur die Regression der kleinsten Quadrate. Andere Formen der nichtparametrischen Regression, wie beispielsweise die Quantilregression, können Mittel zum Erhalten eines Vorhersageintervalls ohne parametrische Angabe des verbleibenden Standardfehlers bieten.

Zachary Blumenfeld
quelle

4

Die nichtparametrische Quantilregression bietet einen sehr allgemeinen Ansatz, der sowohl Heteroskedastizität als auch Nichtlinearität berücksichtigt. Siehe Abschnitt 9: http://www.econ.uiuc.edu/~roger/research/rq/vig.pdf

UPDATE: Eine vernünftige Annäherung für ein 90% -Vorhersageintervall ist der Abstand zwischen der Regressionskurve des 5. Perzentils und der Regressionskurve des 95. Perzentils. (Abhängig von den Details der Kurvenschätzungstechnik und der Sparsamkeit der Daten möchten Sie möglicherweise eher das 4. und 96. Perzentil verwenden, um "konservativ" zu sein.) Die Intuition für diese Art von nichtparametrischem Vorhersageintervall finden Sie hier auf Wikipedia .

Diese Antwort ist nur ein Ausgangspunkt. Es wurde ein erheblicher Teil der Arbeit an Vorhersageintervallen für die Quantilregression geleistet . Oder machen Sie einfach nichtparametrische Regressionsvorhersageintervalle .

zkurtz
quelle

Stimmt, aber wie erhalten Sie Vorhersageintervalle bei der Quantilregression?

Zachary Blumenfeld

2

Wenn die Regression Ihrer Antwort auf Ihre erklärende Variable eine gerade Linie ist und Ihre Varianz mit der erklärenden Variablen zunimmt, wird ein gewichtetes Regressionsmodell mit $w = 1 / x_ {i}$ oder $w = 1 / x_ {i} ^ {2}$ (wenn Ihre nicht konstante Varianz extremer ist) als Gewicht benötigt. Dies gewichtet Ihre Varianz mit Ihrem x-Wert, so dass eine proportionale Beziehung besteht.

Hier ist Code mit den im Modell und in der Vorhersage enthaltenen Gewichten. Beachten Sie, dass Sie die Gewichte sowohl zu Ihrem ursprünglichen als auch zu Ihrem neuen Datensatz hinzufügen müssen.

Vielen Dank an @PopcornKing für seinen ursprünglichen Code aus der Berechnung von Vorhersageintervallen aus heteroskedastischen Daten .

library(ggplot2)
dummySamples <- function(n, slope, intercept, slopeVar){
  x = runif(n)
  y = slope*x+intercept+rnorm(n, mean=0, sd=slopeVar*x)
  return(data.frame(x=x,y=y))
}

myDF <- dummySamples(20000,3,0,5)
plot(myDF$x, myDF$y)
w = 1/myDF$x**2
t = lm(y~x, data=myDF, weights=w) 
summary(t)

newdata = data.frame(x=seq(0,1,0.01))
w = 1/newdata$x**2
p1 = predict.lm(t, newdata, interval = 'prediction', weights=w)
a <- ggplot()
a <- a + geom_point(data=myDF, aes(x=x,y=y), shape=1)
a <- a + geom_abline(intercept=t$coefficients[1], slope=t$coefficients[2])         
a <- a + geom_abline(intercept=t$coefficients[1],   slope=t$coefficients[2], color='blue')  
a <- ggplot()
a <- a + geom_point(data=myDF, aes(x=x,y=y), shape=1)
a <- a + geom_abline(intercept=t$coefficients[1], slope=t$coefficients[2],  color='blue')
newdata$lwr = p1[,c("lwr")]
newdata$upr = p1[,c("upr")]
a <- a + geom_ribbon(data=newdata, aes(x=x,ymin=lwr, ymax=upr),   fill='yellow', alpha=0.3)
a

LindsayL
quelle

Vorhersageintervalle mit Heteroskedastizität

Antworten:

Bearbeiten: