Wie funktioniert die Kriging-Interpolation?

Diese Antwort besteht aus einem einleitenden Abschnitt, den ich kürzlich für einen Artikel geschrieben habe, der eine (bescheidene) räumlich-zeitliche Erweiterung von "Universal Kriging" (UK) beschreibt, die selbst eine bescheidene Verallgemeinerung von "Ordinary Kriging" ist. Es besteht aus drei Unterabschnitten: Die Theorie gibt ein statistisches Modell und Annahmen an; Die Schätzung überprüft kurz die Parameterschätzung der kleinsten Quadrate. und Vorhersage zeigt, wie Kriging in das GLS-Framework (Generalized Least Squares) passt. Ich habe mich bemüht, die den Statistikern, insbesondere den Besuchern dieser Website, vertraute Notation zu übernehmen und Konzepte zu verwenden, die hier ausführlich erläutert werden.

Zusammenfassend ist Kriging die beste lineare unverzerrte Vorhersage (BLUP) eines zufälligen Feldes. Dies bedeutet, dass der vorhergesagte Wert an jedem nicht abgetasteten Ort als lineare Kombination der an abgetasteten Orten beobachteten Werte und Kovariaten erhalten wird. Der dortige (unbekannte, zufällige) Wert hat eine angenommene Korrelation mit den Stichprobenwerten (und die Stichprobenwerte sind untereinander korreliert). Diese Korrelationsinformationen lassen sich leicht in die Varianz der Vorhersage übersetzen. Man wählt Koeffizienten in der linearen Kombination (die "Kriging-Gewichte"), die diese Varianz so klein wie möglich machen, unter der Bedingung einer Null-Vorspannung in der Vorhersage. Die Details folgen.

Theorie

Das Vereinigte Königreich umfasst zwei Verfahren - eines zur Schätzung und eines zur Vorhersage -, die im Rahmen eines GLS-Modells für ein Untersuchungsgebiet durchgeführt werden. Das GLS-Modell nimmt an, dass die das Ergebnis zufälliger Abweichungen um einen Trend sind und dass diese Abweichungen korreliert sind. Ein Trend ist im allgemeinen Sinne eines Wertes gemeint, der durch eine lineare Kombination von unbekannten Koeffizienten (Parametern) . (In diesem Beitrag bezeichnet die Primzahl die Matrixtransponierung und alle Vektoren werden als Spaltenvektoren betrachtet.) $z_i,\ (i = 1, 2, ..., n)$ $p$ $\beta=(\beta_1,\beta_2,\ldots,\beta_p)^\prime$ $^\prime$

An jedem Ort innerhalb eines Untersuchungsgebiets steht ein Tupel numerischer Attribute als "unabhängige Variablen" oder "Kovariaten" bezeichnet werden. (Typischerweise ist ein "konstanter Term", und können räumliche Koordinaten sein, und das zusätzliche kann räumliche Informationen sowie andere Zusatzinformationen darstellen, die an allen Stellen im Untersuchungsgebiet verfügbar sind, wie z. B. die Porosität von a Grundwasserleiter oder Entfernung zu einem Pumpbrunnen.) An jedem Datenort ist zusätzlich zu seinen Kovariaten die zugehörige Beobachtung $\mathbf y = (y_1, y_2, \ldots, y_p)^\prime$ $y_1 = 1$ $y_2$ $y_3$ $y_i$ $i$ $y_i = (y_{i1}, y_{i2}, \ldots, y_{ip})^\prime$ $z_i$ wird als Realisierung einer Zufallsvariablen . Im Gegensatz dazu werden die als Werte betrachtet, die durch die durch die Beobachtungen dargestellten Punkte oder kleinen Bereiche bestimmt werden oder diese charakterisieren (die Daten „unterstützen“). Die werden nicht als Realisierungen von Zufallsvariablen betrachtet und müssen nicht mit den Eigenschaften eines der . $Z_i$ $y_i$ $y_i$ $Z_i$

Die lineare Kombination drückt den erwarteten Wert von in Form der Parameter , bei denen es sich um den Wert des Trends an Position . Der Schätzprozess verwendet die Daten, um Werte , die die unbekannten Parameter , während der Vorhersageprozess die Daten an den Orten , um einen Wert an einem nicht abgetasteten Ort zu berechnen , die hier als indiziert ist . Die Schätzziele sind festgelegt ( dh

E [Z_{i}] = {y^{'}}_{i} β = y_{i 1} β_{1} + y_{i 2} β_{2} + \dots + y_{i p} β_{p}

${\bf{E}}\left[ {Z_i } \right] = {\bf{y'}}_i {\bf{\beta }} = y_{i1} \beta _1 + y_{i2} \beta _2 + \cdots + y_{ip} \beta _p$

Z_{i}

$Z_i$

β

$\beta$

i

$i$

{\hat{β}}_{i}

$\hat\beta_i$

β_{i}

$\beta_i$

i = 1, 2, \dots, n

$i = 1, 2, \ldots, n$

i = 0

$i = 0$ , nicht zufällige) Parameter, während das Ziel der Vorhersage zufällig ist, weil der Wert eine zufällige Schwankung um seinen Trend . In der Regel werden Vorhersagen für mehrere Standorte unter Verwendung derselben Daten getroffen, indem Standort variiert wird . Beispielsweise werden häufig Vorhersagen getroffen, um eine Oberfläche entlang eines regelmäßigen Rasters von Punkten abzubilden, die für die Konturierung geeignet sind.

z_{0}

$z_0$

y_{0}^{'} β

$y_0^\prime\beta$

0

$0$

Einschätzung

Beim klassischen Kriging wird davon ausgegangen, dass die zufälligen Schwankungen erwartete Werte von Null haben und ihre Kovarianzen bekannt sind. Schreiben Sie die Kovarianz zwischen und als . Unter Verwendung dieser Kovarianz wird die Schätzung unter Verwendung von GLS durchgeführt. Die Lösung lautet wie folgt: wobei ist der der Beobachtungen, (die "Entwurfsmatrix") ist die mal Matrix, deren Zeilen die Vektoren sind $Z_i$ $Z_i$ $Z_j$ $c_{ij}$

\hat{β} = H z, H = {({Y^{'} C}^{- 1} Y)}^{- 1} {Y^{'} C}^{- 1}

$\hat\beta=\bf{Hz},\ {\bf{H}} = \left( {{\bf{Y'C}}^{{\bf{ - 1}}} {\bf{Y}}} \right)^{{\bf{ - 1}}} {\bf{Y'C}}^{{\bf{ - 1}}}$

z = (z_{1}, z_{2}, \dots, z_{n})

${\bf {z}} = (z_1, z_2, \ldots, z_n)$

n

$n$

Y = (y_{i j})

${\bf Y} = (y_{ij})$

n

$n$

p

$p$

y_{i}^{'}, 1 \leq i \leq n

$y_i^\prime, 1 \le i \le n$ und ist die mal- Kovarianzmatrix, die als invertierbar angenommen wird (Draper & Smith (1981), Abschnitt 2.11). . Die by Matrix , die die Daten auf die Parameterschätzungen projiziert , wird als "hat-Matrix" bezeichnet. Die Formulierung von als Anwendung der Hat-Matrix auf die Daten zeigt explizit, wie die Parameterschätzungen linear von den Daten abhängen. Die Kovarianzen

C = (c_{i j})

$\mathbf C = (c_{ij})$

n

$n$

n

$n$

p

$p$

n

$n$

H

$\mathbf H$

z

$\mathbf z$

\hat{β}

$\hat \beta$

\hat{β}

$\hat\beta$

C = (c_{i j})

$\mathbf C = (c_{ij})$ werden klassisch unter Verwendung eines Variogramms berechnet, das die Kovarianz in Bezug auf die Datenpositionen angibt, obwohl es unerheblich ist, wie die Kovarianz tatsächlich berechnet wird.

Prognose

UK sagt ähnlicher Weise mittels einer linearen Kombination der Daten Die werden als "Kriging-Gewichte" für die Vorhersage von . Großbritannien erreicht diese Vorhersage von indem es zwei Kriterien erfüllt. Erstens sollte die Vorhersage unvoreingenommen sein, die durch die Forderung , dass die lineare Kombination der Zufallsvariablen ausgedrückt wird gleich im Durchschnitt: Diese Erwartung wird über die Verbindung $z_0$

{\hat{z}}_{0} = λ_{1} z_{1} + λ_{2} z_{2} + \dots + λ_{n} z_{n} = λ^{'} z .

$\hat z_0 = \lambda _1 z_1 + \lambda _2 z_2 + \cdots + \lambda _n z_n = {\bf{\lambda 'z}}.$

λ_{i}

$\lambda_i$

z_{0}

$z_0$

z_{0}

$z_0$

Z_{i}

$Z_i$

Z_{0}

$Z_0$

0 = E [{\hat{Z}}_{0} - Z_{0}] = E [λ^{'} Z - Z_{0}] .

$0 = {\bf{E}}\left[ {\hat Z_0 - Z_0 } \right] = {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right].$

n + 1

$n+1$ -Variatenverteilung von und . Die Linearität der Erwartung zusammen mit der (1) impliziert:

Z_{0}

$Z_0$

Z = (Z_{1}, Z_{2}, \dots, Z_{n})

$\mathbf Z = (Z_1, Z_2, \ldots, Z_n)$

\begin{aligned} 0 & = E [λ^{'} Z - Z_{0}] = λ^{'} E [Z] - E [Z_{0}] = λ^{'} (Y β) - {y^{'}}_{0} β = (λ^{'} Y - {y^{'}}_{0}) β \\ = β^{'} (Y^{'} λ - y_{0}) \end{aligned}

$\eqalign{ 0 &= {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right] = {\bf{\lambda 'E}}\left[ {\bf{Z}} \right] - {\bf{E}}\left[ {Z_0 } \right] = {\bf{\lambda '}}\left( {{\bf{Y\beta }}} \right) - {\bf{y'}}_0 {\bf{\beta }} = \left( {{\bf{\lambda 'Y}} - {\bf{y'}}_0 } \right){\bf{\beta }}\\ &= {\bf{\beta '}}\left( {{\bf{Y'\lambda }} - {\bf{y}}_0 } \right) }$

egal was mag. Dies ist der Fall, sofern $\beta$

{\hat{Y}}^{'} λ = y_{0} .

$\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0.$

Unter allen möglichen Lösungen dieses unterbestimmten Gleichungssystems wählt UK um die Varianz des Vorhersagefehlers zu minimieren . In diesem Sinne ist Großbritannien unter allen unvoreingenommenen linearen Prädiktoren „am besten“. Da diese letzte Beziehung impliziert, dass der Vorhersagefehler im Durchschnitt Null ist, ist die Varianz einfach die Erwartung des quadratischen Vorhersagefehlers: wobei ist der Vektor der Kovarianzen zwischen $\lambda$ $\hat Z_0 - Z_0$

V a r ({\hat{Z}}_{0} - Z_{0}) = E [{({\hat{Z}}_{0} - Z_{0})}^{2}] = E [{(λ^{'} Z - Z_{0})}^{2}] = c_{00} - 2 {λ^{'} c}_{0} + λ^{'} C λ

${\rm{Var}}\left( {\hat Z_0 - Z_0 } \right) = {\bf{E}}\left[ {\left( {\hat Z_0 - Z_0 } \right)^2 } \right] = {\bf{E}}\left[ {\left( {{\bf{\lambda 'Z}} - Z_0 } \right)^2 } \right] = c_{00} - 2{\bf{\lambda 'c}}_0 + {\bf{\lambda 'C\lambda }}$

c_{0} = (c_{01}, c_{02}, \dots, c_{0 n})^{'}

$\mathbf c_0 = (c_{01}, c_{02}, \ldots, c_{0n})^\prime$

Z_{0}

$Z_0$ und das und ist die Varianz von .

Z_{i}, i \geq 1

$Z_i,\ i \ge 1$

c_{00}

$c_{00}$

Z_{0}

$Z_0$

Um die Varianz zu minimieren, differenzieren Sie in Bezug auf und führen Sie einen Vektor von Lagrange-Multiplikatoren , um ihn in die Einschränkung . Dies ergibt ein System von linearen Gleichungen, die in Blockmatrixform als wobei ein für $\lambda$ $p$ $\mu$ $\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0$ $n+p$

(\begin{matrix} C & Y \\ Y^{'} & 0 \end{matrix}) (\begin{matrix} λ \\ μ \end{matrix}) = (\begin{matrix} c_{0} \\ y_{0} \end{matrix})

$\left( {\begin{array}{*{20}c} {\bf{C}} & {\bf{Y}} \\ {{\bf{Y'}}} & {\bf{0}} \\ \end{array}} \right)\left( {\begin{array}{*{20}c} {\bf{\lambda }} \\ {\bf{\mu }} \\ \end{array}} \right) = \left( {\begin{array}{*{20}c} {{\bf{c}}_{\bf{0}} } \\ {{\bf{y}}_{\bf{0}} } \\ \end{array}} \right)$

0

$\mathbf 0$

p

$p$

p

$p$ Matrix von Nullen. Schreiben für die durch - Einheitsmatrix, die einzigartige Lösung für ist gegeben durch

1

$\mathbf 1$

n

$n$

n

$n$

λ

$\lambda$

λ = {H^{'} y}_{0} + C^{- 1} (1 - Y H) c_{0} .

${\bf{\lambda }} = {\bf{H'y}}_0 + {\bf{C}}^{ - 1} \left( {{\bf{1}} - {\bf{YH}}} \right){\bf{c}}_0.$

(Leser, die mit multipler Regression vertraut sind, finden es möglicherweise lehrreich, diese Lösung mit der kovarianzbasierten Lösung der gewöhnlichen Normalgleichungen der kleinsten Quadrate zu vergleichen , die fast genau gleich aussieht, jedoch keine Lagrange-Multiplikatorterme enthält.)

Diese Beziehung zeigt die Kriging-Gewichte als die Summe eines Terms, der nur von der Hutmatrix und den Kovariaten am Vorhersageort abhängt , plus einen Term, der von den Kovarianzen abhängt unter den Daten und dem . Wenn Sie es in die rechte Seite der Varianzgleichung einsetzen, erhalten Sie die Kriging-Vorhersagevarianz, mit der Vorhersagegrenzen um . $\lambda$ $[\mathbf H^\prime\, \mathbf y_0]$ $Z_0$ $\hat z_0$

whuber
quelle

Vielen Dank, genau das, wonach ich suche. Sie haben dieses Problem für mich gelöst, jetzt verstehe ich Kriging. Ich bin sehr dankbar für Ihre Hilfe, vielen Dank.

Dania

Fantastische Erklärung. Eine Frage: Was bedeutet ? Wie ist es definiert? Ist es Teil der Gegebenheiten? Was bedeutet die Primzahl? Diese Variable wird eingeführt, ohne definiert zu sein, daher bin ich etwas verwirrt darüber, wie sie definiert ist.

{\hat{Y}}^{'}

$\hat{\mathbf Y}^\prime$

@DW Die Primzahl bezeichnet die Transponierung in diesem Beitrag. Wenn wir also die Transponierung der Definition in der Antwort nehmen, können wir diese Matrix beschreiben als " ist die mal Matrix, deren Spalten die Vektoren . " Dadurch wird der Datensatz der Kovariaten eingekapselt.

Y^{'} = (y_{j i})

${\bf Y}^\prime = (y_{ji})$

p

$p$

n

$n$

y_{i}, 1 \leq i \leq n

$y_i, 1 \le i \le n$

whuber

Wie funktioniert die Kriging-Interpolation?

Antworten:

Theorie

Einschätzung

Prognose