Wie erhalte ich einen Konfidenzwert für Vorhersagen?

Unabhängig vom Modell können Sie immer den nicht parametrischen Bootstrap verwenden, um ein Konfidenzintervall für jeden Parameter zu erstellen, einschließlich Vorhersagen (die selbst Zufallsvariablen sind, aber als Erwartungen angegeben werden). Hier ist das allgemeine Verfahren:

Lassen $N$ Geben Sie die Anzahl der Beobachtungen in Ihren Trainingsdaten an $X$ , und $x_j$ bezeichnen die spezifische Beobachtung, deren Vorhersage, $\hat{y}_j$ , Sie möchten ein CI für.
Lassen $K$ bezeichnen eine bestimmte Anzahl von Resampling-Iterationen (muss sein $\ge 20$ für ein CI mit Abdeckung $\ge 95\%$ )
Zum $i$ im $K$ , zeichne ein $N$ Zufallsstichproben aus $X$ mit Ersatz. Bezeichne dies $X_i^{*}$
Trainiere ein Modell weiter $X_i^{*}$ und verwenden Sie dieses Modell, um eine Vorhersage zu bilden $x_j$ . Nennen Sie das $\hat{y}^{*}_{ji}$
Schätzen Sie die Verteilungsparameter für $\hat{y}_j$ aus Ihrer Probe. EIN $100 - \alpha$ CI wird von der gegeben $\frac{\alpha}{2}$ und $100 - \frac{\alpha}{2}$ Perzentile von $\hat{y}^{*}_{j}$ .

David Marx
quelle

Gibt es eine Möglichkeit, dieses Konfidenzintervall für ein bereits trainiertes Modell zu erhalten?

Rodrigo Nader

Nicht, dass ich davon Wüste. Wenn Sie so tun, als wären Ihre Residuen iid (wahrscheinlich nicht mit diesen Modellen), können Sie die Verteilung der Residuen direkt abschätzen und daraus Vorhersageintervalle ableiten. Ich bin mir nicht sicher, ob das Ihren Bedürfnissen entspricht. Wenn Sie versuchen zu ermitteln, bei welchen Vorhersagen Ihr Modell mehr oder weniger "sicher" ist, erhalten Sie dies nicht.

David Marx

@davidmarx warum brauchen wir die iid-Annahme? Wenn wir über genügend Validierungsdaten verfügen, können wir dann die Fehler nicht als zu schätzenden Parameter betrachten und ein zweites Regressionsmodell für ihre Schätzung erstellen?

Ihadanny

Wie erhalte ich einen Konfidenzwert für Vorhersagen?

Antworten: