Wie funktioniert die Kriging-Interpolation?

10

Ich arbeite an einem Problem, bei dem ich Kriging verwenden muss, um den Wert einiger Variablen basierend auf einigen umgebenden Variablen vorherzusagen. Ich möchte den Code selbst implementieren. Ich habe zu viele Dokumente durchgesehen, um zu verstehen, wie es funktioniert, aber ich war so verwirrt. Im Allgemeinen verstehe ich, dass es sich um einen gewichteten Durchschnitt handelt, aber ich konnte den Prozess der Berechnung des Gewichts nicht vollständig verstehen und dann den Wert einer Variablen vorhersagen.

Kann mir bitte jemand in einfachen Worten die mathematischen Aspekte dieser Interpolationsmethoden und ihre Funktionsweise erklären?

Dania
quelle
3
Das Implementieren von Code ist ein großartiges Lernwerkzeug, kann jedoch nicht für die Bearbeitung tatsächlicher Probleme empfohlen werden. Wenn Sie den Code schreiben, debuggen und testen lassen, werden Sie feststellen, dass er um eine Größenordnung mehr Aufwand erfordert, um zusätzliche Tools für die Analyse räumlicher Erkundungsdaten, die Variografie, die Kreuzvalidierung des Variogramms, die Nachbarschaftssuche und die Nachprüfung bereitzustellen. Verarbeitung der kriged Ergebnisse. Ein vernünftiger und effektiver Kompromiss wäre, mit Arbeitscode wie GSLib oder GeoRGLM zu beginnen und diesen zu ändern.
whuber
Vielen Dank, es ist eine großartige Idee, aber ich möchte auch den mathematischen Aspekt von Kriging verstehen. Haben Sie eine Ressource, die dies in einfachen Worten klar erklärt? Vielen Dank.
Dania

Antworten:

15

Diese Antwort besteht aus einem einleitenden Abschnitt, den ich kürzlich für einen Artikel geschrieben habe, der eine (bescheidene) räumlich-zeitliche Erweiterung von "Universal Kriging" (UK) beschreibt, die selbst eine bescheidene Verallgemeinerung von "Ordinary Kriging" ist. Es besteht aus drei Unterabschnitten: Die Theorie gibt ein statistisches Modell und Annahmen an; Die Schätzung überprüft kurz die Parameterschätzung der kleinsten Quadrate. und Vorhersage zeigt, wie Kriging in das GLS-Framework (Generalized Least Squares) passt. Ich habe mich bemüht, die den Statistikern, insbesondere den Besuchern dieser Website, vertraute Notation zu übernehmen und Konzepte zu verwenden, die hier ausführlich erläutert werden.

Zusammenfassend ist Kriging die beste lineare unverzerrte Vorhersage (BLUP) eines zufälligen Feldes. Dies bedeutet, dass der vorhergesagte Wert an jedem nicht abgetasteten Ort als lineare Kombination der an abgetasteten Orten beobachteten Werte und Kovariaten erhalten wird. Der dortige (unbekannte, zufällige) Wert hat eine angenommene Korrelation mit den Stichprobenwerten (und die Stichprobenwerte sind untereinander korreliert). Diese Korrelationsinformationen lassen sich leicht in die Varianz der Vorhersage übersetzen. Man wählt Koeffizienten in der linearen Kombination (die "Kriging-Gewichte"), die diese Varianz so klein wie möglich machen, unter der Bedingung einer Null-Vorspannung in der Vorhersage. Die Details folgen.


Theorie

Das Vereinigte Königreich umfasst zwei Verfahren - eines zur Schätzung und eines zur Vorhersage -, die im Rahmen eines GLS-Modells für ein Untersuchungsgebiet durchgeführt werden. Das GLS-Modell nimmt an, dass die das Ergebnis zufälliger Abweichungen um einen Trend sind und dass diese Abweichungen korreliert sind. Ein Trend ist im allgemeinen Sinne eines Wertes gemeint, der durch eine lineare Kombination von unbekannten Koeffizienten (Parametern) . (In diesem Beitrag bezeichnet die Primzahl die Matrixtransponierung und alle Vektoren werden als Spaltenvektoren betrachtet.)zi, (i=1,2,...,n)pβ=(β1,β2,,βp)

An jedem Ort innerhalb eines Untersuchungsgebiets steht ein Tupel numerischer Attribute als "unabhängige Variablen" oder "Kovariaten" bezeichnet werden. (Typischerweise ist ein "konstanter Term", und können räumliche Koordinaten sein, und das zusätzliche kann räumliche Informationen sowie andere Zusatzinformationen darstellen, die an allen Stellen im Untersuchungsgebiet verfügbar sind, wie z. B. die Porosität von a Grundwasserleiter oder Entfernung zu einem Pumpbrunnen.) An jedem Datenort ist zusätzlich zu seinen Kovariaten die zugehörige Beobachtungy=(y1,y2,,yp)y1=1y2y3yiiyi=(yi1,yi2,,yip)ziwird als Realisierung einer Zufallsvariablen . Im Gegensatz dazu werden die als Werte betrachtet, die durch die durch die Beobachtungen dargestellten Punkte oder kleinen Bereiche bestimmt werden oder diese charakterisieren (die Daten „unterstützen“). Die werden nicht als Realisierungen von Zufallsvariablen betrachtet und müssen nicht mit den Eigenschaften eines der .ZiyiyiZi

Die lineare Kombination drückt den erwarteten Wert von in Form der Parameter , bei denen es sich um den Wert des Trends an Position . Der Schätzprozess verwendet die Daten, um Werte , die die unbekannten Parameter , während der Vorhersageprozess die Daten an den Orten , um einen Wert an einem nicht abgetasteten Ort zu berechnen , die hier als indiziert ist . Die Schätzziele sind festgelegt ( dh

E[Zi]=yiβ=yi1β1+yi2β2++yipβp
Ziβiβ^iβii=1,2,,ni=0, nicht zufällige) Parameter, während das Ziel der Vorhersage zufällig ist, weil der Wert eine zufällige Schwankung um seinen Trend . In der Regel werden Vorhersagen für mehrere Standorte unter Verwendung derselben Daten getroffen, indem Standort variiert wird . Beispielsweise werden häufig Vorhersagen getroffen, um eine Oberfläche entlang eines regelmäßigen Rasters von Punkten abzubilden, die für die Konturierung geeignet sind. z0y0β0

Einschätzung

Beim klassischen Kriging wird davon ausgegangen, dass die zufälligen Schwankungen erwartete Werte von Null haben und ihre Kovarianzen bekannt sind. Schreiben Sie die Kovarianz zwischen und als . Unter Verwendung dieser Kovarianz wird die Schätzung unter Verwendung von GLS durchgeführt. Die Lösung lautet wie folgt: wobei ist der der Beobachtungen, (die "Entwurfsmatrix") ist die mal Matrix, deren Zeilen die Vektoren sindZiZiZjcij

β^=Hz, H=(YC1Y)1YC1
z=(z1,z2,,zn)nY=(yij)npyi,1in und ist die mal- Kovarianzmatrix, die als invertierbar angenommen wird (Draper & Smith (1981), Abschnitt 2.11). . Die by Matrix , die die Daten auf die Parameterschätzungen projiziert , wird als "hat-Matrix" bezeichnet. Die Formulierung von als Anwendung der Hat-Matrix auf die Daten zeigt explizit, wie die Parameterschätzungen linear von den Daten abhängen. Die KovarianzenC=(cij)nnpnHzβ^β^C=(cij) werden klassisch unter Verwendung eines Variogramms berechnet, das die Kovarianz in Bezug auf die Datenpositionen angibt, obwohl es unerheblich ist, wie die Kovarianz tatsächlich berechnet wird.

Prognose

UK sagt ähnlicher Weise mittels einer linearen Kombination der Daten Die werden als "Kriging-Gewichte" für die Vorhersage von . Großbritannien erreicht diese Vorhersage von indem es zwei Kriterien erfüllt. Erstens sollte die Vorhersage unvoreingenommen sein, die durch die Forderung , dass die lineare Kombination der Zufallsvariablen ausgedrückt wird gleich im Durchschnitt: Diese Erwartung wird über die Verbindungz0

z^0=λ1z1+λ2z2++λnzn=λz.
λiz0z0ZiZ0
0=E[Z^0Z0]=E[λZZ0].
n+1-Variatenverteilung von und . Die Linearität der Erwartung zusammen mit der (1) impliziert: Z0Z=(Z1,Z2,,Zn)
0=E[λZZ0]=λE[Z]E[Z0]=λ(Yβ)y0β=(λYy0)β=β(Yλy0)

egal was mag. Dies ist der Fall, sofernβ

Y^λ=y0.

Unter allen möglichen Lösungen dieses unterbestimmten Gleichungssystems wählt UK um die Varianz des Vorhersagefehlers zu minimieren . In diesem Sinne ist Großbritannien unter allen unvoreingenommenen linearen Prädiktoren „am besten“. Da diese letzte Beziehung impliziert, dass der Vorhersagefehler im Durchschnitt Null ist, ist die Varianz einfach die Erwartung des quadratischen Vorhersagefehlers: wobei ist der Vektor der Kovarianzen zwischenλZ^0Z0

Var(Z^0Z0)=E[(Z^0Z0)2]=E[(λZZ0)2]=c002λc0+λCλ
c0=(c01,c02,,c0n)Z0und das und ist die Varianz von . Zi, i1c00Z0

Um die Varianz zu minimieren, differenzieren Sie in Bezug auf und führen Sie einen Vektor von Lagrange-Multiplikatoren , um ihn in die Einschränkung . Dies ergibt ein System von linearen Gleichungen, die in Blockmatrixform als wobei ein fürλpμY^λ=y0n+p

(CYY0)(λμ)=(c0y0)
0ppMatrix von Nullen. Schreiben für die durch - Einheitsmatrix, die einzigartige Lösung für ist gegeben durch 1nnλ
λ=Hy0+C1(1YH)c0.

(Leser, die mit multipler Regression vertraut sind, finden es möglicherweise lehrreich, diese Lösung mit der kovarianzbasierten Lösung der gewöhnlichen Normalgleichungen der kleinsten Quadrate zu vergleichen , die fast genau gleich aussieht, jedoch keine Lagrange-Multiplikatorterme enthält.)

Diese Beziehung zeigt die Kriging-Gewichte als die Summe eines Terms, der nur von der Hutmatrix und den Kovariaten am Vorhersageort abhängt , plus einen Term, der von den Kovarianzen abhängt unter den Daten und dem . Wenn Sie es in die rechte Seite der Varianzgleichung einsetzen, erhalten Sie die Kriging-Vorhersagevarianz, mit der Vorhersagegrenzen um .λ Z 0 Z 0[Hy0]Z0z^0

whuber
quelle
1
Vielen Dank, genau das, wonach ich suche. Sie haben dieses Problem für mich gelöst, jetzt verstehe ich Kriging. Ich bin sehr dankbar für Ihre Hilfe, vielen Dank.
Dania
Fantastische Erklärung. Eine Frage: Was bedeutet ? Wie ist es definiert? Ist es Teil der Gegebenheiten? Was bedeutet die Primzahl? Diese Variable wird eingeführt, ohne definiert zu sein, daher bin ich etwas verwirrt darüber, wie sie definiert ist. Y^
DW
@DW Die Primzahl bezeichnet die Transponierung in diesem Beitrag. Wenn wir also die Transponierung der Definition in der Antwort nehmen, können wir diese Matrix beschreiben als " ist die mal Matrix, deren Spalten die Vektoren . " Dadurch wird der Datensatz der Kovariaten eingekapselt. pn y i ,1inY=(yji)pnyi,1in
whuber