Ich habe mehrere Datensätze in der Größenordnung von Tausenden von Punkten. Die Werte in jedem Datensatz sind X, Y, Z und beziehen sich auf eine Koordinate im Raum. Der Z-Wert repräsentiert einen Höhenunterschied am Koordinatenpaar (x, y).
In meinem GIS-Bereich wird der Höhenfehler in RMSE normalerweise durch Subtrahieren des Grundwahrheitspunkts von einem Messpunkt (LiDAR-Datenpunkt) referenziert. Normalerweise werden mindestens 20 Kontrollpunkte für die Bodenbearbeitung verwendet. Mit diesem RMSE-Wert kann gemäß den NDEP-Richtlinien (National Digital Elevation Guidelines) und den FEMA-Richtlinien ein Maß für die Genauigkeit berechnet werden: Genauigkeit = 1,96 * RMSE.
Diese Genauigkeit wird wie folgt angegeben: "Die grundlegende vertikale Genauigkeit ist der Wert, anhand dessen die vertikale Genauigkeit gerecht bewertet und zwischen Datensätzen verglichen werden kann. Die grundlegende Genauigkeit wird bei einem Konfidenzniveau von 95 Prozent als Funktion des vertikalen RMSE berechnet."
Ich verstehe, dass 95% der Fläche unter einer Normalverteilungskurve innerhalb von 1,96 * Standardabweichung liegen, dies bezieht sich jedoch nicht auf RMSE.
Im Allgemeinen stelle ich folgende Frage: Wie kann ich mit RMSE, das aus 2 Datensätzen berechnet wurde, RMSE mit einer bestimmten Genauigkeit in Beziehung setzen (dh 95 Prozent meiner Datenpunkte liegen innerhalb von +/- X cm)? Wie kann ich mithilfe eines Tests, der mit einem so großen Datensatz gut funktioniert, feststellen, ob mein Datensatz normal verteilt ist? Was ist "gut genug" für eine Normalverteilung? Sollte p <0,05 für alle Tests sein oder sollte es der Form einer Normalverteilung entsprechen?
Ich habe im folgenden Artikel einige sehr gute Informationen zu diesem Thema gefunden:
http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf
quelle
Antworten:
Schauen Sie sich eine nahezu doppelte Frage an: Konfidenzintervall von RMSE ?
Ein guter Anfang wäre die Beobachtung der empirischen
z
Werteverteilung. Hier ist ein reproduzierbares Beispiel.Auf den ersten Blick sieht es normal aus, oder? (Eigentlich wissen wir, dass es normal ist, weil der
rnorm
Befehl, den wir verwendet haben).Wenn man kleine Proben über den Datensatz analysieren möchte, gibt es den Shapiro-Wilk-Normalitätstest.
Man kann den SW-Test auch viele Male über verschiedene kleine Proben wiederholen und dann die Verteilung von betrachten
p-values
.Beachten Sie, dass Normalitätstests für große Datenmengen nicht so nützlich sind, wie in dieser Antwort von Greg Snow erläutert .
Machen wir also einen QQ-Plot:
Wenn Punkte in der
y=x
Linie ausgerichtet sind , bedeutet dies, dass die empirische Verteilung mit der theoretischen Verteilung übereinstimmt, die in diesem Fall die Normalverteilung ist.quelle