Robuste Alternativen zu Morans I

19

Morans I , ein Maß für die räumliche Autokorrelation, ist keine besonders robuste Statistik (es kann empfindlich auf verzerrte Verteilungen der räumlichen Datenattribute reagieren).

Was sind robustere Techniken zur Messung der räumlichen Autokorrelation? Ich interessiere mich besonders für Lösungen, die in einer Skriptsprache wie R leicht verfügbar / implementierbar sind. Wenn Lösungen für bestimmte Umstände / Datenverteilungen gelten, geben Sie diese bitte in Ihrer Antwort an.


EDIT : Ich erweitere die Frage mit ein paar Beispielen (als Antwort auf Kommentare / Antworten auf die ursprüngliche Frage)

Es wurde vorgeschlagen, dass Permutationstechniken (bei denen eine I-Stichprobenverteilung nach Moran unter Verwendung eines Monte-Carlo-Verfahrens erzeugt wird) eine robuste Lösung bieten. Nach meinem Verständnis müssen bei einem solchen Test keine Annahmen über die I-Verteilung von Moran getroffen werden (da die Teststatistik durch die räumliche Struktur des Datensatzes beeinflusst werden kann), aber ich verstehe nicht, wie die Permutationstechnik nicht normal korrigiert verteilte Attributdaten . Ich biete zwei Beispiele an: eines, das den Einfluss von verzerrten Daten auf die lokale I-Statistik von Moran zeigt, das andere auf das globale I von Moran - selbst unter Permutationstests.

Ich werde Zhang et al verwenden. 's (2008) analysiert als erstes Beispiel. In ihrer Arbeit zeigen sie mithilfe von Permutationstests (9999 Simulationen) den Einfluss der Attributdatenverteilung auf das lokale Moran-I . Ich habe die Hotspot-Ergebnisse der Autoren für Blei (Pb) -Konzentrationen (bei 5% Konfidenzniveau) unter Verwendung der Originaldaten (linkes Feld) und einer Protokolltransformation derselben Daten (rechtes Feld) in GeoDa reproduziert. Boxplots der ursprünglichen und logarithmisch transformierten Pb-Konzentrationen werden ebenfalls dargestellt. Hier verdoppelt sich die Anzahl der signifikanten Hot Spots nahezu, wenn die Daten transformiert werden. Dieses Beispiel zeigt , dass die lokale Statistik ist auf Attributdaten Verteilung empfindlich - auch bei Monte Carlo - Techniken!

Bildbeschreibung hier eingeben

Das zweite Beispiel (simulierte Daten) zeigt, welchen Einfluss verzerrte Daten auf das globale I des Moran haben können , selbst wenn Permutationstests verwendet werden. Ein Beispiel in R lautet wie folgt:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Beachten Sie den Unterschied in den P-Werten. Die verzerrten Daten zeigen an, dass bei einem Signifikanzniveau von 5% (p = 0,167) keine Clusterbildung vorliegt, wohingegen die normalverteilten Daten dies anzeigen (p = 0,013).


Chaosheng Zhang, Lin Luo, Valerie Ledwith, Weilin Xu, I und GIS von Moran zur Identifizierung von Pb-Hotspots in städtischen Böden von Galway, Irland, Science of The Total Environment, Band 398, Ausgabe 1–3, 15. Juli 2008 Seiten 212-221

MannyG
quelle
1
Haben Sie eine Referenz für die Empfindlichkeit gegenüber verzerrten Verteilungen? Interessieren Sie sich für globale Tests zur nicht zufälligen räumlichen Verteilung oder zur Identifizierung lokaler abnormaler Merkmale? Wie ist die Verteilung des Zinsergebnisses (positive Zählvariable?)
Andy W
1
AndyW: 1) Ein Hinweis auf die Empfindlichkeit des Tests ist Fortin und Dales "Spatial Analysis, A guide to ecologists" (S. 125). 2) Ich interessiere mich für Lösungen für globale und lokale Tests. 3) Ich habe keine spezifischen Datenverteilung im Auge behalten.
MannyG
1
Andy, da Morans I auf gewichteten Varianz- und Kovarianzschätzungen basiert, wird es die gleiche Empfindlichkeit für Ausreißer haben wie diese Schätzungen, was (wie allgemein bekannt) beträchtlich ist. Diese Einsicht weist auch den Weg zu vielen möglichen Lösungen für Mannys Problem: Ersetzen Sie Ihre bevorzugten robusten Versionen von Schätzungen der Streuung und Assoziation durch eine robuste gewichtete Korrelation, und schon kann es losgehen.
whuber
1
Es hört sich so an, als ob Sie hier mehrere Konzepte in Einklang bringen, @Andy. Zunächst möchte Manny die Autokorrelation messen . Er führt nicht unbedingt einen Hypothesentest durch. Zweitens ist die Frage beim Testen von Hypothesen eher in Bezug auf die Leistung als auf die Robustheit zu formulieren. Aber (drittens) haben die Konzepte einen Zusammenhang: Eine robuste Teststatistik behält ihre Gültigkeit bei einem breiten Spektrum von Verstößen gegen Verteilungsannahmen (z. B. Kontamination durch Ausreißer), während eine nicht robuste Teststatistik den größten Teil oder den gesamten Wert verlieren kann seine Macht in diesen Situationen.
whuber
1
Im vergangenen Jahr @ FC84, revisited ich dieses Problem und schrieb auf eine vorgeschlagene Lösung. Aber es muss überprüft werden. Ich habe vor, hier irgendwann eine (viel) reduzierte Version dieses Artikels als Antwort anzubieten. Sie können gerne nachlesen, was Sie können, von dem, was ich habe. Verwenden Sie es jedoch mit Vorsicht!
MannyG

Antworten:

2

(Dies ist zu diesem Zeitpunkt einfach zu unhandlich, um in einen Kommentar umgewandelt zu werden.)

Dies betrifft lokale und globale Tests (kein spezifisches, stichprobenunabhängiges Maß für die Autokorrelation). Ich kann verstehen, dass das spezifische Moran-I- Maß eine verzerrte Schätzung der Korrelation ist (interpretiere es mit dem Pearson-Korrelationskoeffizienten). Ich verstehe immer noch nicht, wie empfindlich der Permutationshypothesentest auf die ursprüngliche Verteilung der Variablen ist ( entweder in Form von Fehlern des Typs 1 oder des Typs 2).

Den Code, den Sie im Kommentar angegeben haben, leicht anpassen (die räumlichen Gewichte colqueenfehlten);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Wenn man Permutationstests durchführt (in diesem Fall würde ich es gerne als Durcheinander betrachten), sollte der Hypothesentest der globalen räumlichen Autokorrelation nicht von der Verteilung der Variablen beeinflusst werden, da sich die simulierte Testverteilung im Wesentlichen ändern wird mit der Verteilung der ursprünglichen Variablen. Wahrscheinlich könnte man sich interessantere Simulationen einfallen lassen, um dies zu demonstrieren, aber wie Sie in diesem Beispiel sehen können, liegt die beobachtete Teststatistik weit außerhalb der generierten Verteilung sowohl für das Original PLUMBals auch für das Protokoll PLUMB(was einer Normalverteilung viel näher kommt). . Obwohl Sie die protokollierte PLUMB-Testverteilung sehen können, verschiebt sich die Null näher an die Symmetrie um 0.

Bildbeschreibung hier eingeben

Ich würde dies sowieso als Alternative vorschlagen, um die Verteilung so zu verändern, dass sie ungefähr normal ist. Ich wollte auch vorschlagen, Ressourcen zur räumlichen Filterung (und ähnlich der lokalen und globalen Getis-Ord-Statistik) nachzuschlagen, obwohl ich nicht sicher bin, ob dies bei einer maßstabsfreien Messung hilfreich ist (aber möglicherweise für Hypothesentests nützlich ist). . Ich werde später mit möglicherweise mehr Literatur von Interesse zurückschicken.

Andy W
quelle
Vielen Dank, Andy, für dein detailliertes Konto. Wenn ich Sie richtig verstehe, bedeutet dies, dass sich in einem Permutationstest die Teststatistik (Morans I) nicht im Verhältnis zur resultierenden MC-Verteilung ändert, aber dies stimmt nicht mit meinen Beobachtungen überein. Wenn wir zum Beispiel die Variable HOVAL in demselben Columbus-Datensatz verwenden, reicht der resultierende p-Wert des MC-Moran-I-Tests von 0,029 (mit den ursprünglichen versetzten Daten) bis 0,004 (mit den logarithmisch transformierten Daten), was auf eine sich vergrößernde Lücke zwischen den MC hinweist Verteilungs- und Teststatistik - nicht unerheblich, wenn wir die Schwelle auf 1% festgelegt hätten.
MannyG
1
Ja, Sie interpretieren meinen Punkt richtig. Es ist sicherlich möglich, einen bestimmten Lauf zu finden, bei dem sich die Ergebnisse unterscheiden. Es stellt sich die Frage, ob die Fehlerraten unter verschiedenen Umständen gleich sind oder nicht.
Andy W