Ich habe in meiner eigenen Arbeit dieses Muster bemerkt, als ich ein räumliches Korrelogramm in unterschiedlichen Abständen untersuchte und ein U-förmiges Muster in den Korrelationen auftauchte. Insbesondere nehmen starke positive Korrelationen in kleinen Entfernungsbehältern mit der Entfernung ab, erreichen dann eine Grube an einem bestimmten Punkt und klettern dann wieder nach oben.
Hier ist ein Beispiel aus dem Blog Conservation Ecology, Macroecology Playground (3) - Spatial Autocorrelation .
Diese stärkeren positiven Autokorrelationen bei größeren Entfernungen verstoßen theoretisch gegen Toblers erstes Gesetz der Geographie, daher würde ich erwarten, dass es durch ein anderes Muster in den Daten verursacht wird. Ich würde erwarten, dass sie in einer bestimmten Entfernung Null erreichen und dann in weiteren Entfernungen um 0 schweben (was normalerweise in Zeitreihendiagrammen mit AR- oder MA-Termen niedriger Ordnung der Fall ist).
Wenn Sie eine tun Google - Bildsuche Sie ein paar weiteren Beispiele für diese gleiche Art von Muster finden (siehe hier für ein anderes Beispiel). Ein Benutzer auf der GIS-Site hat zwei Beispiele veröffentlicht, in denen das Muster für Morans I, jedoch nicht für Gearys C ( 1 , 2 ) angezeigt wird . In Verbindung mit meiner eigenen Arbeit sind diese Muster für die Originaldaten beobachtbar, aber wenn ein Modell mit räumlichen Begriffen angepasst und die Residuen überprüft werden, scheinen sie nicht zu bestehen.
Ich habe in der Zeitreihenanalyse keine Beispiele gefunden, die ein ähnlich aussehendes ACF-Diagramm anzeigen. Daher bin ich mir nicht sicher, welches Muster in den Originaldaten dies verursachen würde. Scortchi in diesem Kommentar spekuliert, dass ein sinusförmiges Muster durch ein ausgelassenes saisonales Muster in dieser Zeitreihe verursacht werden kann. Könnte dieselbe Art von räumlichem Trend dieses Muster in einem räumlichen Korrelogramm verursachen? Oder ist es ein anderes Artefakt der Art und Weise, wie die Korrelationen berechnet werden?
Hier ist ein Beispiel aus meiner Arbeit. Die Stichprobe ist ziemlich groß, und die hellgrauen Linien sind ein Satz von 19 Permutationen der Originaldaten, um eine Referenzverteilung zu erzeugen (so dass man sehen kann, dass die Varianz in der roten Linie ziemlich gering sein dürfte). Obwohl die Handlung nicht ganz so dramatisch ist wie die erste, erscheint die Grube und der Anstieg in weiteren Entfernungen ziemlich leicht in der Handlung. (Beachten Sie auch, dass die Grube in meiner nicht negativ ist, wie auch die anderen Beispiele, wenn dies die Beispiele wesentlich unterscheidet, die ich nicht kenne.)
Hier ist eine Kernel-Dichtekarte der Daten, um die räumliche Verteilung zu sehen, die das Korrelogramm erzeugt hat.
quelle
Antworten:
Erläuterung
Ein U-förmiges Korrelogramm tritt häufig auf, wenn seine Berechnung über die gesamte Ausdehnung des Bereichs durchgeführt wird, in dem ein Phänomen auftritt. Es zeigt sich insbesondere bei fahnenartigen Phänomenen in der Natur, wie lokaler Kontamination in Böden oder Grundwasser oder, wie in diesem Fall, wenn das Phänomen mit einer Bevölkerungsdichte verbunden ist, die im Allgemeinen zur Grenze des Untersuchungsgebiets hin abnimmt (Distrikt Columbia, das einen städtischen Kern mit hoher Dichte hat und von Vororten mit niedrigerer Dichte umgeben ist).
Denken Sie daran, dass das Korrelogramm den Ähnlichkeitsgrad aller Daten nach ihrem Ausmaß an räumlicher Trennung zusammenfasst. Höhere Werte sind ähnlicher, niedrigere Werte weniger ähnlich. Die einzigen Punktepaare, an denen die größte räumliche Trennung erreicht werden kann, sind diejenigen, die an diametral gegenüberliegenden Seiten der Karte liegen. Das Korrelogramm vergleicht daher Werte entlang der Grenze miteinander. Wenn Datenwerte insgesamt zur Grenze hin abnehmen, kann das Korrelogramm nur kleine Werte mit kleinen Werten vergleichen. Es wird wahrscheinlich feststellen, dass sie sehr ähnlich sind.
Für jedes fahnenartige oder andere räumlich unimodale Phänomen können wir daher vor dem Sammeln der Daten vorhersehen, dass das Korrelogramm wahrscheinlich abnimmt, bis etwa der halbe Durchmesser des Bereichs erreicht ist, und dann beginnt es zuzunehmen.
Ein sekundärer Effekt: Schätzungsvariabilität
Ein sekundärer Effekt besteht darin, dass mehr Datenpunktpaare verfügbar sind, um das Korrelogramm bei kurzen Entfernungen als bei größeren Entfernungen abzuschätzen. Bei mittleren bis langen Entfernungen nehmen die "Verzögerungspopulationen" solcher Punktpaare ab. Dies erhöht die Variabilität des empirischen Korrelogramms. Manchmal führt diese Variabilität allein zu ungewöhnlichen Mustern im Korrelogramm. Offensichtlich wurde in der oberen Abbildung ("Morans I") ein großer Datensatz verwendet, der diesen Effekt verringert. Die Zunahme der Variabilität zeigt sich jedoch in den größeren Amplituden lokaler Schwankungen in der Darstellung in Entfernungen über etwa 3500: genau der Hälfte maximale Entfernung.
Eine langjährige Faustregel in der räumlichen Statistik besteht daher darin, die Berechnung des Korrelogramms bei Entfernungen zu vermeiden, die größer als der halbe Durchmesser des Untersuchungsgebiets sind, und zu vermeiden, dass so große Entfernungen für die Vorhersage verwendet werden (z. B. Interpolation).
Warum räumliche Periodizität nicht die vollständige Antwort ist
In der Literatur zur räumlichen Statistik wird in der Tat darauf hingewiesen, dass räumlich periodische Muster bei größeren Entfernungen zu einem Rückprall des Korrelogramms führen können. Die Bergbaugeologen nennen dies den "Locheffekt". Es gibt eine Klasse von Variogrammen, die einen sinusförmigen Term enthalten, um ihn zu modellieren. Diese Variogramme führen jedoch auch zu einem starken Abfall mit der Entfernung und können daher die in der ersten Abbildung gezeigte extreme Rückkehr zur vollständigen Korrelation nicht erklären. Darüber hinaus ist es in zwei oder mehr Dimensionen unmöglich, dass ein Phänomen sowohl isotrop (in dem die Richtungskorrelogramme alle gleich sind) als auch periodisch ist. Daher berücksichtigt die Periodizität der Daten allein nicht das, was angezeigt wird.
Was kann getan werden?
Der richtige Weg, um unter solchen Umständen vorzugehen, besteht darin, zu akzeptieren, dass das Phänomen nicht stationär ist, und ein Modell zu übernehmen, das es anhand einer zugrunde liegenden deterministischen Form - einer "Drift" oder eines "Trends" - mit zusätzlichen Schwankungen um diese Drift herum beschreibt die räumliche (und zeitliche) Autokorrelation haben können. Ein anderer Ansatz für Daten wie die Anzahl der Straftaten besteht darin, eine andere verwandte Variable zu untersuchen, z. B. die Kriminalität pro Bevölkerungseinheit.
quelle