Morans I , ein Maß für die räumliche Autokorrelation, ist keine besonders robuste Statistik (es kann empfindlich auf verzerrte Verteilungen der räumlichen Datenattribute reagieren).
Was sind robustere Techniken zur Messung der räumlichen Autokorrelation? Ich interessiere mich besonders für Lösungen, die in einer Skriptsprache wie R leicht verfügbar / implementierbar sind. Wenn Lösungen für bestimmte Umstände / Datenverteilungen gelten, geben Sie diese bitte in Ihrer Antwort an.
EDIT : Ich erweitere die Frage mit ein paar Beispielen (als Antwort auf Kommentare / Antworten auf die ursprüngliche Frage)
Es wurde vorgeschlagen, dass Permutationstechniken (bei denen eine I-Stichprobenverteilung nach Moran unter Verwendung eines Monte-Carlo-Verfahrens erzeugt wird) eine robuste Lösung bieten. Nach meinem Verständnis müssen bei einem solchen Test keine Annahmen über die I-Verteilung von Moran getroffen werden (da die Teststatistik durch die räumliche Struktur des Datensatzes beeinflusst werden kann), aber ich verstehe nicht, wie die Permutationstechnik nicht normal korrigiert verteilte Attributdaten . Ich biete zwei Beispiele an: eines, das den Einfluss von verzerrten Daten auf die lokale I-Statistik von Moran zeigt, das andere auf das globale I von Moran - selbst unter Permutationstests.
Ich werde Zhang et al verwenden. 's (2008) analysiert als erstes Beispiel. In ihrer Arbeit zeigen sie mithilfe von Permutationstests (9999 Simulationen) den Einfluss der Attributdatenverteilung auf das lokale Moran-I . Ich habe die Hotspot-Ergebnisse der Autoren für Blei (Pb) -Konzentrationen (bei 5% Konfidenzniveau) unter Verwendung der Originaldaten (linkes Feld) und einer Protokolltransformation derselben Daten (rechtes Feld) in GeoDa reproduziert. Boxplots der ursprünglichen und logarithmisch transformierten Pb-Konzentrationen werden ebenfalls dargestellt. Hier verdoppelt sich die Anzahl der signifikanten Hot Spots nahezu, wenn die Daten transformiert werden. Dieses Beispiel zeigt , dass die lokale Statistik ist auf Attributdaten Verteilung empfindlich - auch bei Monte Carlo - Techniken!
Das zweite Beispiel (simulierte Daten) zeigt, welchen Einfluss verzerrte Daten auf das globale I des Moran haben können , selbst wenn Permutationstests verwendet werden. Ein Beispiel in R lautet wie folgt:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Beachten Sie den Unterschied in den P-Werten. Die verzerrten Daten zeigen an, dass bei einem Signifikanzniveau von 5% (p = 0,167) keine Clusterbildung vorliegt, wohingegen die normalverteilten Daten dies anzeigen (p = 0,013).
Chaosheng Zhang, Lin Luo, Valerie Ledwith, Weilin Xu, I und GIS von Moran zur Identifizierung von Pb-Hotspots in städtischen Böden von Galway, Irland, Science of The Total Environment, Band 398, Ausgabe 1–3, 15. Juli 2008 Seiten 212-221
quelle
Antworten:
(Dies ist zu diesem Zeitpunkt einfach zu unhandlich, um in einen Kommentar umgewandelt zu werden.)
Dies betrifft lokale und globale Tests (kein spezifisches, stichprobenunabhängiges Maß für die Autokorrelation). Ich kann verstehen, dass das spezifische Moran-I- Maß eine verzerrte Schätzung der Korrelation ist (interpretiere es mit dem Pearson-Korrelationskoeffizienten). Ich verstehe immer noch nicht, wie empfindlich der Permutationshypothesentest auf die ursprüngliche Verteilung der Variablen ist ( entweder in Form von Fehlern des Typs 1 oder des Typs 2).
Den Code, den Sie im Kommentar angegeben haben, leicht anpassen (die räumlichen Gewichte
colqueen
fehlten);Wenn man Permutationstests durchführt (in diesem Fall würde ich es gerne als Durcheinander betrachten), sollte der Hypothesentest der globalen räumlichen Autokorrelation nicht von der Verteilung der Variablen beeinflusst werden, da sich die simulierte Testverteilung im Wesentlichen ändern wird mit der Verteilung der ursprünglichen Variablen. Wahrscheinlich könnte man sich interessantere Simulationen einfallen lassen, um dies zu demonstrieren, aber wie Sie in diesem Beispiel sehen können, liegt die beobachtete Teststatistik weit außerhalb der generierten Verteilung sowohl für das Original
PLUMB
als auch für das ProtokollPLUMB
(was einer Normalverteilung viel näher kommt). . Obwohl Sie die protokollierte PLUMB-Testverteilung sehen können, verschiebt sich die Null näher an die Symmetrie um 0.Ich würde dies sowieso als Alternative vorschlagen, um die Verteilung so zu verändern, dass sie ungefähr normal ist. Ich wollte auch vorschlagen, Ressourcen zur räumlichen Filterung (und ähnlich der lokalen und globalen Getis-Ord-Statistik) nachzuschlagen, obwohl ich nicht sicher bin, ob dies bei einer maßstabsfreien Messung hilfreich ist (aber möglicherweise für Hypothesentests nützlich ist). . Ich werde später mit möglicherweise mehr Literatur von Interesse zurückschicken.
quelle