Ignoriert RandomForest die räumliche Unabhängigkeit?

8

Ich habe 5 Variablen für jedes Land der Welt und ich muss deren Auswirkungen und Wechselwirkungen auf eine unabhängige Variable analysieren. Random Forest wäre für meinen Anwendungsbereich angemessen, da es sich um nichtlineare Beziehungen handelt und die Wichtigkeit von Variablen vorhersagt. Ich frage mich jedoch, ob räumliche Abhängigkeit ein Problem sein kann. Ich habe noch nie eine räumliche Abhängigkeit gesehen, die in HF-Anwendungen diskutiert wurde, selbst wenn sie häufig für räumliche Daten verwendet wurde.

Oritteropus
quelle

Antworten:

8

Es gibt kein Problem mit der räumlichen Autokorrelation Ihrer Antwort oder erklärenden Variablen. Es ist eine völlig nicht parametrische Technik. Ich habe es für die Interpolation von Variablen der strukturellen Vielfalt in meinem Land verwendet, basierend auf In-situ-Daten aus einem regulären Raster, und die Einführung der Koordinaten als Kovariablen führt sogar zu besseren Vorhersagen. Dies liegt daran, dass Random Forest auf einem Divide-and-Conquer-Ansatz (Klassifizierungs- und Regressionsbäume) basiert. Dies bedeutet, dass Ihr Feature-Space in disjunkte Teilmengen unterteilt wird, in denen einfachere Modelle (standardmäßig ein einfacher Durchschnitt bei Regression) gute Vorhersagen liefern können. Die Einführung der Koordinaten als Variablen nutzt in meinem Fall die räumliche Autokorrelation aus, da es sinnvoll ist, dass sich bestimmte geografische Untergruppen des Landes homogen verhalten.

JEquihua
quelle
Obwohl ich der Antwort eher zustimme, sind Ihnen empirische Studien bekannt, die zeigen, dass dies der Fall ist? RF hat definitiv Probleme mit Wichtigkeitswerten und stark korrelierten Variablen (z. B. Strobl et al. ).
Prophet60091
2
Dies ist sehr sinnvoll, da beim Wachsen eines Baums bei jedem Split entschieden werden muss, welche Variable verwendet werden soll. Im Extremfall, wenn Sie zwei perfekt korrelierte Variablen haben, würde das Aufteilungsschema einfach eine davon zufällig auswählen. Wenn Sie also die zufällige Gesamtstruktur neu trainieren, werden Sie feststellen, dass die Wichtigkeitswerte in diesen korrelierten Variablen sehr instabil sind. Sie wären sehr anfällig dafür, Plätze in der Hierarchie zu wechseln.
JEquihua
@JEquihua Ich weiß, dass ich sehr spät zur Party komme, aber ich wäre sehr interessiert zu wissen, wie Sie Koordinaten als Kovariablen aufgenommen haben? Ich verwende das randomForest-Paket in R und kenne keine Optionen zum Einschließen von Kovariablen. Dies ist jedoch sehr sinnvoll, insbesondere bei räumlich autokorrelierten Clusterdaten.
Kristina
Hallo @Kristina. Ich habe sie nur als zusätzliche Funktionen eingeführt, dh lat und lon als zwei verschiedene Spalten in Ihrem Zugtisch. Dies funktioniert nur, wenn Ihre Zugdaten Ihren geografischen Raum gut repräsentieren. In meinem Beispiel hatte ich ungefähr 25.000 Punkte in einem regelmäßigen Raster über meinem Interessengebiet.
JEquihua
@JEquihua Danke für deine Antwort! Ich habe es schon einmal versucht, hatte jedoch den Eindruck, dass dies das Modell stark verzerrte. Dies kann jedoch daran liegen, dass meine Daten mehrere unabhängige Regionen (Meeresschutzgebiete auf der ganzen Welt) enthalten. Haben Sie Vorschläge, wie Sie am besten damit umgehen können, da ich den Standort sehr gerne angeben möchte? Vielen Dank!
Kristina