Regressionsmodell und räumliche Autokorrelation

15

Ich habe OLS und GWR verwendet, um die Abhängigkeiten zwischen zwei verschiedenen Datenbanken zu überprüfen. Das Residualquadrat für GWR beträgt 0,82 und ist damit das richtige Regressionsmodell zur Bestimmung der Beziehung zwischen den beiden Datensätzen.

Was ich wissen wollte, ist GWR lokale Regression und OLS globale Regression, die wo und wann verwendet werden sollte?

Was bedeutet es auch wirklich, wenn Morans Ich für das GWR-Modell Zufällig ist?

Sam007
quelle

Antworten:

13

Was sind diese Verfahren

Obwohl OLS und GWR viele Aspekte ihrer statistischen Formulierung teilen, werden sie für verschiedene Zwecke verwendet:

  • OLS modelliert formal eine globale Beziehung einer bestimmten Art. In seiner einfachsten Form besteht jeder Datensatz (oder Fall) im Datensatz aus einem Wert x, der vom Experimentator festgelegt wird (häufig als "unabhängige Variable" bezeichnet), und einem anderen Wert y, der beobachtet wird (die "abhängige Variable"). ). OLS nimmt an, dass y ungefähr istauf besonders einfache Weise auf x bezogen: Es gibt nämlich (unbekannte) Zahlen 'a' und 'b', für die a + b * x eine gute Schätzung von y für alle Werte von x ist, an denen der Experimentator interessiert sein könnte . "Gute Schätzung" erkennt an, dass die Werte von y von jeder solchen mathematischen Vorhersage abweichen können und werden, weil (1) sie es wirklich tun - die Natur ist selten so einfach wie eine mathematische Gleichung - und (2) y mit einigen gemessen wird Error. Zusätzlich zur Schätzung der Werte von a und b quantifiziert OLS auch das Ausmaß der Variation in y. Dies gibt OLS die Möglichkeit, die statistische Signifikanz der Parameter a und b festzustellen .

Hier ist eine OLS-Anpassung:

Bildbeschreibung hier eingeben

  • GWR wird verwendet, um lokale Beziehungen zu untersuchen. In dieser Einstellung gibt es noch (x, y) Paare, aber jetzt (1) werden typischerweise sowohl x als auch y beobachtet - beide können nicht vorher von einem Experimentator bestimmt werden - und (2) jeder Datensatz hat einen räumlichen Ort, z . Für jeden Ort, z (nicht unbedingt einen Ort, an dem Daten verfügbar sind), wendet GWR den OLS- Algorithmus auf benachbarte Datenwerte an, um eine ortsspezifische Beziehung zwischen y und x in der Form y = a (z) + b (z) zu schätzen. * x. Die Notation "(z)" betont, dass die Koeffizienten a und b zwischen Orten variieren. Als solches ist GWR eine spezialisierte Version von lokal gewichteten Glätternin denen nur die räumlichen Koordinaten zur Bestimmung von Nachbarschaften verwendet werden. Die Ausgabe wird verwendet, um anzugeben , wie die Werte von x und y in einem räumlichen Bereich variieren. Es ist bemerkenswert, dass es oft keinen Grund gibt zu wählen, welches von 'x' und 'y' die Rolle der unabhängigen und abhängigen Variablen in der Gleichung spielen soll, aber wenn Sie diese Rollen wechseln, ändern sich die Ergebnisse ! Dies ist einer der vielen Gründe, warum GWR eher als explorativ zu betrachten ist - als visuelle und konzeptionelle Hilfe zum Verständnis der Daten - als als formale Methode.

Hier ist ein lokal gewichteter Smooth. Beachten Sie, wie es den scheinbaren "Wackelbewegungen" in den Daten folgen kann, aber nicht jeden Punkt genau durchläuft. (Es kann durch Ändern einer Einstellung in der Prozedur bewirkt werden, dass die Punkte durchlaufen werden, oder kleineren Wackelbewegungen gefolgt werden, genau wie GWR durch Ändern der Einstellungen in der Prozedur dazu gebracht werden kann, räumlichen Daten mehr oder weniger genau zu folgen.)

Lowess

Stellen Sie sich OLS intuitiv so vor, dass es eine starre Form (z. B. eine Linie) an das Streudiagramm von (x, y) Paaren und GWR anpasst, sodass diese Form willkürlich wackelt.

Zwischen ihnen wählen

Im vorliegenden Fall scheint es, obwohl nicht klar ist, was "zwei unterschiedliche Datenbanken" bedeuten könnten, unangemessen zu sein, OLS oder GWR zur "Validierung" einer Beziehung zwischen ihnen zu verwenden. Wenn zum Beispiel die Datenbanken unabhängige Beobachtungen derselben Menge an derselben Menge von Orten darstellen, ist (1) OLS wahrscheinlich ungeeignet, da sowohl x (die Werte in einer Datenbank) als auch y (die Werte in der anderen Datenbank) sein sollten konzipiert als variabel (anstatt x als fest und genau dargestellt zu betrachten) und (2) GWR ist in Ordnung, um zu erforschen , die die Beziehung zwischen x und y, aber es kann nicht verwendet werden , Validierenalles: es ist garantiert, Beziehungen zu finden, egal was passiert. Außerdem ist , wie zuvor bemerkt wurde , zeigen die symmetrischen Rollen von „zwei Datenbanken“ , die entweder als ‚X‘ gewählt werden könnte und die andere als ‚Y‘, was zu zwei möglichen GWR Ergebnisse , die unterschiedlich sind garantiert.

Hier ist eine lokal gewichtete Glättung derselben Daten, die die Rollen von x und y vertauscht. Vergleichen Sie dies mit der vorherigen Darstellung: Beachten Sie, wie viel steiler die Gesamtanpassung ist und wie sie sich auch in den Details unterscheidet.

Lowess 2

Unterschiedliche Techniken sind erforderlich, um festzustellen, dass zwei Datenbanken die gleichen Informationen liefern, oder um ihre relative Verzerrung oder relative Genauigkeit zu bewerten. Die Wahl der Technik hängt von den statistischen Eigenschaften der Daten und dem Zweck der Validierung ab. Beispielsweise werden Datenbanken chemischer Messungen typischerweise unter Verwendung von Kalibrierungstechniken verglichen .

Interpretation von Morans I

Es ist schwer zu sagen, was ein "Morans Ich für das GWR-Modell" bedeutet. Ich vermute, dass eine I-Statistik von Moran für die Residuen einer GWR-Berechnung berechnet wurde. (Die Residuen sind die Differenzen zwischen tatsächlichen und angepassten Werten.) Morans I ist ein globales Maß für die räumliche Korrelation. Wenn es klein ist, deutet es darauf hin, dass Abweichungen zwischen den y-Werten und den GWR-Anpassungen von den x-Werten nur eine geringe oder keine räumliche Korrelation aufweisen. Wenn das GWR auf die Daten "abgestimmt" wird (dies beinhaltet die Entscheidung darüber, was wirklich ein "Nachbar" eines Punktes ist), ist eine geringe räumliche Korrelation in den Residuen zu erwarten, da das GWR (implizit) jede räumliche Korrelation zwischen x und y ausnutzt Werte in seinem Algorithmus.

whuber
quelle
In GWR sagten Sie also, dass das Umkehren der Variablen unterschiedliche Ergebnisse liefert, aber das eine, das ein höheres Restquadrat ergibt, bedeutet nicht, dass es eine stärkere Beziehung zwischen den beiden zeigt?
Sam007,
Sam, ein niedriges Restquadrat an sich bedeutet keine stärkere Beziehung. Insbesondere wenn Sie die Rollen von x und y vertauschen, können Sie die verbleibenden Quadrate nicht einmal vergleichen - sie liegen häufig in unterschiedlichen Einheiten vor. (Zum Beispiel kann es sich bei der einen um eine quadratische Temperatur und bei der anderen um eine quadratische Niederschlagsmenge handeln. Woran erkennt man, welche niedriger ist?) Sie können ein Restquadrat immer reduzieren, indem Sie mehr Parameter in ein Modell aufnehmen, auch wenn sie bedeutungslos sind : zu weit in diese Richtung gehen heißt "Überanpassung". In gewisser Weise ist GWR mit einer kurzen räumlichen Reichweite eine Form der Überanpassung.
Whuber
2
Du denkst vielleicht an R-Quadrat, Sam: Es ist ein Verhältnis. (Ich habe "Residuenquadrat" als genau das verstanden, was es sagt: die Summe der Quadrate der Residuen. Die meisten Statistikprogramme geben diese Statistik zusammen mit den R-Quadrat-Werten an.) Es ist jedoch immer noch gefährlich und in der Regel falsch, verschiedene Modelle zu vergleichen (z. B. wie y in Bezug auf x gegenüber x in Bezug auf y) in Bezug auf R-Quadrat: siehe stats.stackexchange.com/questions/13314 . Da GWR ist explorative, es ist großartig für Suche nach Mustern und Hypothetisieren Beziehungen, sondern (wie in der Regel praktiziert, sowieso) es ist nicht geeignet für mauern Ansprüche.
whuber
1
WOW das war wirklich alles Statistik. Tatsächlich ist der Grund, warum ich es schwierig finde, der, dass ich einen sehr schlechten Hintergrund in der Statistik habe. Deshalb verlasse ich mich nur auf die Modellergebnisse, ohne zu verstehen, was sie genau bedeuten. Die meisten Sachen auf dem R2 gingen über meinen Kopf. Könnten Sie mir ein gutes Einsteigerbuch vorschlagen, um mich anzufangen und mein Fundament in der Statistik aufzubauen?
Sam007,
3

Rsquared sollte nicht zum Vergleichen von Modellen verwendet werden. Verwenden Sie Log Likihood- oder AIC-Werte.

Wenn Ihre Residuen in GWR zufällig sind oder ich denke, dass sie zufällig sind (nicht statistisch gesehen), haben Sie möglicherweise ein bestimmtes Modell. Dies deutet zumindest darauf hin, dass Sie keine korrelierten Residuen haben und dass Sie keine ausgelassenen Variablen haben sollten.

Rich H.
quelle