Ich möchte Vorhersageintervalle für Vorhersagen berechnen, die durch kNN-Regression gemacht wurden. Ich kann keine explizite Referenz zur Bestätigung finden, daher lautet meine Frage: Ist dieser Ansatz zur Berechnung der Vorhersageintervalle korrekt?
Ich habe einen Referenzdatensatz, in dem jede Zeile ein Ort ist (z. B. Stadt). Ich habe zwei Merkmale (z. B. x1 und x2), die eine Stichprobe aus der Bevölkerung dieses Ortes beschreiben (z. B. könnte x1 das Durchschnittseinkommen der Einwohner sein). Die Stichprobengröße ist für jeden Standort unterschiedlich. Ich sage eine Zielvariable (z. B. y, z. B. die Gesamtzahl der Autos in dieser Stadt) basierend auf x1 und x2 voraus.
Eine Vorhersage für einen neuen Ort Z wird gemacht, indem k nächste Nachbarn von Z in Bezug auf x1 und x2 (die euklidische Entfernung) gefunden und über die Zielvariable dieser k Nachbarn gemittelt werden.
Ich berechne Vorhersageintervalle als y * + - t * s, wobei s die Standardabweichung des Ziels unter k nächsten Nachbarn ist und t aus der Standardnormalverteilung stammt (z. B. für das 95% -Vorhersageintervall t = 1,96). Ich ignoriere x1 und x2 und ignoriere die Tatsache, dass x1 und x2 über verschiedene Stichproben geschätzt werden. Ist der Ansatz sinnvoll?