Ich habe verallgemeinerte additive Modelle für die Entwaldung erstellt. Um die räumliche Autokorrelation zu berücksichtigen, habe ich Breitengrad und Längengrad als geglätteten Interaktionsterm (dh s (x, y)) eingeschlossen.
Ich habe dies auf das Lesen vieler Artikel gestützt, in denen die Autoren sagten, "um die räumliche Autokorrelation zu berücksichtigen, wurden Punktkoordinaten als geglättete Ausdrücke eingefügt", aber diese haben nie erklärt, warum dies tatsächlich so ist. Es ist ziemlich frustrierend. Ich habe alle Bücher gelesen, die ich über GAMs finden kann, in der Hoffnung, eine Antwort zu finden, aber die meisten (z. B. verallgemeinerte additive Modelle, eine Einführung mit R, SN Wood) berühren das Thema nur, ohne es zu erklären.
Ich würde es wirklich begrüßen, wenn jemand erklären könnte, WARUM die Einbeziehung von Breiten- und Längengraden für die räumliche Autokorrelation verantwortlich ist und was die „Berücksichtigung“ wirklich bedeutet - reicht es einfach aus, sie in das Modell aufzunehmen, oder sollten Sie ein Modell damit vergleichen s (x, y) in und ein Modell ohne? Und zeigt die durch den Begriff erklärte Abweichung das Ausmaß der räumlichen Autokorrelation an?
Antworten:
Das Hauptproblem in jedem statistischen Modell sind die Annahmen, die einem Inferenzverfahren zugrunde liegen. In der Art des von Ihnen beschriebenen Modells werden die Residuen als unabhängig angenommen. Wenn sie eine räumliche Abhängigkeit haben und dies nicht im systematischen Teil des Modells modelliert ist, weisen die Residuen dieses Modells ebenfalls eine räumliche Abhängigkeit auf, oder mit anderen Worten, sie werden räumlich autokorreliert. Eine solche Abhängigkeit würde die Theorie ungültig machen, die zum Beispiel p-Werte aus Teststatistiken im GAM erzeugt; Sie können den p-Werten nicht vertrauen, da sie unter der Annahme der Unabhängigkeit berechnet wurden.
Sie haben zwei Hauptoptionen für den Umgang mit solchen Daten. i) Modellieren Sie die räumliche Abhängigkeit im systematischen Teil des Modells, oder ii) lockern Sie die Annahme der Unabhängigkeit und schätzen Sie die Korrelation zwischen Residuen.
i) wird versucht, indem eine Glättung der räumlichen Orte in das Modell aufgenommen wird. ii) erfordert die Schätzung der Korrelationsmatrix der Residuen häufig während der Modellanpassung unter Verwendung eines Verfahrens wie verallgemeinerte kleinste Quadrate. Wie gut einer dieser Ansätze mit der räumlichen Abhängigkeit umgeht, hängt von der Art und Komplexität der räumlichen Abhängigkeit ab und davon, wie einfach sie modelliert werden kann.
Zusammenfassend lässt sich sagen, dass es sich bei den Residuen eher um unabhängige Zufallsvariablen handelt, wenn Sie die räumliche Abhängigkeit zwischen Beobachtungen modellieren können und daher nicht gegen die Annahmen eines Inferenzverfahrens verstoßen.
quelle
"Räumliche Autokorrelation" bedeutet für verschiedene Menschen verschiedene Dinge. Ein übergeordnetes Konzept ist jedoch, dass ein Phänomen, das an Orten beobachtet wird, in gewisser Weise von (a) Kovariaten, (b) Orten und (c) ihren Werten an nahe gelegenen Orten abhängen kann . (Wo die technischen Definitionen in der Art der zu berücksichtigenden Daten variieren, welcher "bestimmte Weg" postuliert wird und was "in der Nähe" bedeutet: All dies muss quantitativ festgelegt werden, um fortzufahren.)z
Betrachten wir ein einfaches Beispiel für ein solches räumliches Modell, um die Topographie einer Region zu beschreiben. Die gemessene Höhe an einem Punkt sei y ( z ) . Ein mögliches Modell ist, dass y auf eine bestimmte mathematische Weise von den Koordinaten von z abhängt , die ich in dieser zweidimensionalen Situation schreiben werde ( z 1 , z 2 ) . Lassen wir ε (hypothetisch unabhängige) Abweichungen zwischen den Beobachtungen und dem Modell darstellen (von denen wie üblich angenommen wird, dass sie keine Erwartung haben), schreiben wirz y( z ) y z (z1, z2) ε
für ein lineares Trendmodell . Der Lineartrend (dargestellt durch die und β 2 Koeffizienten) ist ein Weg , um die Idee zu erfassen , die in die Nähe Wert y ( z ) und y ( z ' ) , für z die Nähe von z ' , sollen zueinander nahe sein neigen . Wir können dies sogar berechnen, indem wir den erwarteten Wert der Größe der Differenz zwischen y ( z ) und y ( z ′ ) , E [ |, berücksichtigen yβ1 β2 y(z) y(z′) z z′ y(z) y(z′) . Es stellt sich heraus, dass die Mathematikvieleinfacher ist, wenn wir ein etwas anderes Differenzmaß verwenden: Stattdessen berechnen wir die erwartetequadratischeDifferenz:E[|y(z)−y(z′)|]
Dieses Modell ist frei von jeglicher expliziten räumlichen Autokorrelation, da es keinen Term gibt, der direkt mit nahegelegenen Werten y ( z ′ ) in Beziehung setzt .y(z) y(z′)
Ein alternatives, anderes Modell ignoriert den linearen Trend und geht nur von einer Autokorrelation aus. Ein Weg, dies zu tun, besteht in der Struktur der Abweichungen . Das könnten wir annehmenε(z)
und um unsere Erwartung der Korrelation zu berücksichtigen, nehmen wir eine Art "Kovarianzstruktur" für . Damit dies räumlich aussagekräftig ist, nehmen wir an, dass die Kovarianz zwischen ε ( z ) und ε ( z ′ ) gleich E [ ε ( z ) ε ( z ′ ) ] ist, da ε ein Mittelwert von Null hat und mit z abnimmt und z ' werden immer weiter entfernt. Da die Details keine Rolle spielen, nennen wir diese Kovarianz einfach Cε ε(z) ε(z′) E[ε(z)ε(z′)] ε z z′ . Dies ist eine räumliche Autokorrelation. Tatsächlich ist die (übliche Pearson) Korrelation zwischen y ( z ) und y ( z ' ) istC(z,z′) y(z) y(z′)
Vergleich der beiden Ausdrücke fürE[(y(z)−y(z′))2] (β1(z1−z′1)+β2(z2−z2)′)2 −2C2(z,z′) Ci(z,z)
quelle
Die anderen Antworten sind gut. Ich wollte nur etwas über die räumliche Autokorrelation hinzufügen. Manchmal wird diese Behauptung stärker in Anlehnung an "die Berücksichtigung der räumlichen Autokorrelation, die nicht durch die Kovariaten erklärt wird" aufgestellt.
Dies kann ein irreführendes Bild dessen vermitteln, was die räumliche Glättung bewirkt. Es ist nicht so, als gäbe es eine geordnete Warteschlange, in der der Smooth geduldig darauf wartet, dass die Kovariaten zuerst verschwinden, und Smooth dann die „ungeklärten“ Teile aufwischt. In Wirklichkeit haben alle die Möglichkeit, die Daten zu erklären.
Dieses Papier mit einem treffend benannten Titel stellt das Thema wirklich klar dar, obwohl aus Sicht eines CAR-Modells die Prinzipien für GAM-Smooths gelten.
Das Hinzufügen von räumlich korrelierten Fehlern kann den von Ihnen geliebten festen Effekt durcheinander bringen
Die "Lösung" im Papier besteht darin, die Reste zu glätten, anstatt den Raum zu glätten. Das würde dazu führen, dass Ihre Kovariaten erklären, was sie können. Natürlich gibt es viele Anwendungen, bei denen dies keine wünschenswerte Lösung wäre.
quelle
Die räumliche Korrelation besteht einfach darin, wie sich die x- und y-Koordinaten auf die Größe der resultierenden Oberfläche im Raum beziehen. Die Autokorrelation zwischen den Koordinaten kann also als funktionale Beziehung zwischen den benachbarten Punkten ausgedrückt werden.
quelle