Bestimmen Sie eine unbekannte Anzahl realer Standorte aus GPS-basierten Berichten

9

Ich arbeite an einer Software, die anhand mehrerer GPS-basierter Berichte reale Standorte (z. B. Geschwindigkeitskameras) ermitteln soll . Ein Benutzer fährt, wenn er einen Ort meldet, daher sind die Meldungen sehr ungenau. Um dieses Problem zu lösen, muss ich Berichte über denselben Standort gruppieren und einen Durchschnitt berechnen.

Meine Frage ist, wie man diese Berichte gruppiert . Ich habe über Expectation-Maximation-Algorithmen und k-means Clustering gelesen , aber wie ich verstanden habe, müsste ich die Anzahl der realen Standorte im Voraus bestimmen.

Gibt es andere Algorithmen, die nicht die genaue Anzahl der realen Positionen benötigen, sondern stattdessen einige Randbedingungen verwenden (z. B. minimale Entfernung)?

Ein Bericht enthält Längen- , Breitengrad- und Genauigkeitsangaben (in Metern). Es gibt keinen Namen oder etwas anderes, mit dem Duplikate identifiziert werden könnten.

Ein weiteres Hindernis könnte sein, dass es häufig vorkommt, dass es nur einen Bericht für einen Standort in der realen Welt gibt. Das macht es schwierig, Ausreißer von guten Daten zu unterscheiden.

Christian Strempfer
quelle
1
Ich bin mir nicht sicher, was Sie meinen, wenn Sie sagen "... wie ich verstanden habe, müsste ich die Anzahl der realen Standorte im Voraus bestimmen ..." Vorausgesetzt, ich habe Sie richtig verstanden, gibt es nichts in den Algorithmen, was von Natur aus erforderlich ist diese. Planen Sie möglicherweise, die Anzahl der Clusterkomponenten basierend auf der Anzahl der Berichte zu erhöhen?
Pat
1
2. Frage :). Wenn Ihre Berichte von jemandem stammen, der fährt, kann es zu erheblichen Positionsänderungen zwischen ihnen kommen. Kommen die Berichte mit einem Zeitstempel, der Ihnen sagt, wann sie aufgenommen wurden?
Pat
2
Hallo Pat. Ich spreche von Staus oder Speed ​​Cams, um es klarer zu machen. 1. Das "k" in k-means Clustering steht für die Anzahl der Cluster. In meinem Fall hätte ich einen Cluster für jeden Standort, während ich nicht weiß, wie viele verschiedene Standorte es gibt. 2. Ja, sie enthalten auch einen Zeitstempel. Aber ich verstehe nicht, warum das wichtig sein sollte, weil mir nur die Position wichtig ist.
Christian Strempfer
1
1. Ahh, ich verstehe. Sie haben also eine unbekannte Anzahl von Standorten und jeder Standort generiert einen oder mehrere Berichte. Sie sehen jedoch nur einen Strom von Berichten. Sie möchten anhand der beobachteten Berichte ableiten, wie viele Standorte es gibt und an welcher Position sie sich befinden. Habe ich es 2. Ich Sorge über Zeitstempel , weil Sie sagen , dass der Benutzer wird fahren , wenn sie einen Bericht geben. Wenn die Berichte nicht sehr schnell hintereinander eingehen oder die Geschwindigkeit sehr niedrig ist (möglich, wenn es sich um einen Stau handelt), sieht ein einzelner Standort wie eine zerlumpte Reihe von Berichten aus, die der Straße folgen. Zeitstempel können hier möglicherweise helfen
Pat
1
1. Ja, du hast es. 2. Es handelt sich um eine manuelle Aufgabe, daher sollte ein Standort während einer Reise nur einmal pro Benutzer gemeldet werden. Aber Sie haben Recht, ich muss mit Duplikaten umgehen, wenn ein Benutzer versehentlich zweimal klickt und Berichte bei schneller Fahrt ungenau sind. Deshalb habe ich den Randzustand eines minimalen Abstands zwischen Standorten erwähnt. Ignorieren wir Staus, die sich über einige Kilometer erstrecken können, und nehmen an, dass ein Standort sehr klein ist.
Christian Strempfer

Antworten:

1

Ich habe eine Software gefunden, die Ihnen vielleicht helfen kann. Es sieht so aus, als hätte jemand das gleiche Problem wie Sie und er hat ihm in diesem Forum eine Lösung gegeben. Sie müssen also ArcGIS verwenden. Wenn Sie jedoch nach einem Algorithmus suchen, schlagen sie dieses Dokument vor . Ich denke, das Papier ist detailliert genug, um einen guten Start für Ihren Algorithmus zu bieten.

eyanquenb
quelle
2
Da sich alle Informationen in dieser Antwort in den Links befinden und die Links möglicherweise verrotten, fassen Sie bitte zumindest zusammen, was die Forenbeiträge und das Papier empfehlen.
whuber