Ich habe einen Datensatz mit Ereignissen, die im selben Zeitraum aufgetreten sind. Jedes Ereignis hat einen Typ (es gibt nur wenige verschiedene Typen, weniger als zehn) und einen Ort, der als 2D-Punkt dargestellt wird.
Ich möchte prüfen, ob eine Korrelation zwischen Ereignistypen oder zwischen Typ und Ort besteht. Beispielsweise treten Ereignisse vom Typ A normalerweise nicht dort auf, wo Ereignisse vom Typ B auftreten. Oder vielleicht gibt es in einigen Gebieten meistens Ereignisse vom Typ C.
Welche Tools könnte ich verwenden, um dies durchzuführen? Als Anfänger in der statistischen Analyse bestand meine erste Idee darin, eine Art PCA (Principal Component Analysis) für diesen Datensatz zu verwenden, um festzustellen, ob jeder Ereignistyp eine eigene Komponente hat oder ob einige dieselbe gemeinsam haben (dh korreliert sind).
Ich muss erwähnen, dass mein Datensatz in der Größenordnung von 500'000 Punkten , was die Handhabung etwas erschwert .
BEARBEITEN: Wie in den Antworten unten und in den Kommentaren angegeben, müssen Sie dies als markierten Punktprozess modellieren und dann mit R das gesamte Schwerheben ausführen, wie in diesem Workshop-Bericht ausführlich erläutert: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Antworten:
Die Art der Daten, die Sie beschreiben, wird normalerweise als "markierte Punktmuster" bezeichnet. R verfügt über eine Aufgabenansicht für räumliche Statistiken, die viele gute Pakete für diese Art der Analyse bietet, von denen die meisten wahrscheinlich nicht in der Lage sind, mit der Art der riesigen Daten umzugehen, die Sie verwenden haben :(
Dies sind zwei ziemlich unterschiedliche Arten von Fragen: Die zweite fragt nach der Positionierung einer Art von Marke / Ereignis. Schlagworte, nach denen Sie in diesem Zusammenhang suchen sollten, sind z. B. Intensitätsschätzung oder K-Funktionsschätzung, wenn Sie Clustermuster (Ereignisse einer Art neigen dazu, sich zu gruppieren) oder Abstoßung (Ereignisse einer Art neigen dazu, getrennt zu sein) entdecken möchten. Der erste fragt nach der Korrelation zwischen verschiedenen Arten von Ereignissen. Dies wird normalerweise mit Markierungskorrelationsfunktionen gemessen.
Ich denke, eine Unterabtastung der Daten, um eine besser nachvollziehbare Datengröße zu erhalten, ist gefährlich (siehe Kommentar zu @ hamners Antwort), aber vielleicht könnten Sie Ihre Daten aggregieren: Teilen Sie das Beobachtungsfenster in eine überschaubare Anzahl von Zellen gleicher Größe und tabellieren Sie die Ereigniszahlen in jeder. Jede Zelle wird dann durch die Position ihres Zentrums und einen 10-Vektor von Zählungen für Ihre 10 Markentypen beschrieben. Sie sollten in der Lage sein, die Standardmethoden für markierte Punktprozesse für diesen aggregierten Prozess zu verwenden.
quelle
Erstens die Größe des Datensatzes. Ich empfehle, kleine, nachvollziehbare Stichproben des Datensatzes zu entnehmen (entweder durch zufällige Auswahl von N Datenpunkten oder durch zufällige Auswahl mehrerer relativ kleiner Rechtecke in der XY-Ebene und durch Entnahme aller Punkte, die in diese Ebene fallen) und anschließend Ihre Analysetechniken für diese Teilmenge zu verfeinern. Sobald Sie eine Vorstellung von der Funktionsweise der Analyse haben, können Sie diese auf größere Teile des Datensatzes anwenden.
PCA wird hauptsächlich als Technik zur Reduzierung der Dimensionalität verwendet. Ihr Datensatz besteht nur aus drei Dimensionen (von denen eine kategorisch ist), daher bezweifle ich, dass dies hier zutreffen würde.
Versuchen Sie, mit Matlab oder R zu arbeiten, um die Punkte zu visualisieren, die Sie in der XY-Ebene analysieren (oder deren relative Dichte, wenn Sie mit dem gesamten Datensatz arbeiten), sowohl für einzelne Typen als auch für alle kombinierten Typen, und um zu sehen, welche Muster visuell entstehen. Dies kann zu einer genaueren Analyse führen.
quelle