Annäherung an die Multisensor-Datenfusion

7

Das Problem

Ich versuche, die 3D-Pose einer Person abzuschätzen, die mit einer einzelnen Kamera und 5 abgenutzten IMUs (Extremitäten der Extremitäten und oberer Rücken) beobachtet wird. Die Kamerarahmen werden in formbasierte Merkmalsvektoren konvertiert, und die IMUs liefern jeweils 4D-Quaternionsdarstellungen ihrer Ausrichtung.

Ich habe die 3D-Pose mit jeder Modalität wiederhergestellt, indem ich eine Zuordnung vom Eingabe-Feature-Raum zum Ausgabe-Pose-Raum gelernt habe. Jetzt möchte ich bessere Ergebnisse erzielen, indem ich beide Modalitäten auf irgendeine Weise durch Sensorfusion kombiniere.

Ich habe versucht, die Merkmalsvektoren jeder Modalität anzuhängen und auch einen gewichteten Durchschnitt ihrer Ausgaben zu verwenden. Dies sind sehr einfache Ansätze, die im Durchschnitt nur zu sehr geringen Verbesserungen führten.

Frage

Welche anderen Ansätze kann ich versuchen, diese beiden unangemessenen Datenquellen zu kombinieren?

Gibt es eine Vorverarbeitung für die Funktionen, die durchgeführt werden sollten?

Hinweis: Ich bevorzuge es, wenn möglich weiterhin einen lernbasierten Ansatz zu verwenden. (dh ich möchte die Physik / Kinematik / etc nicht explizit modellieren)

sensor Josh
quelle

3

Der Kalman-Filter wird normalerweise für die Datenfusion verwendet. Sie müssen jedoch noch viel arbeiten! Das Modellieren des Systems spart viel Zeit.

Wir haben einen Kalman-Filter verwendet, bei dem ich für die Verfolgung von Personen mit IR-Sensorarray-Bildern gearbeitet habe. Ungefähr zwei Mannjahre Arbeit flossen in das Projekt ein.

Leon Heller
quelle

Ich hatte gehofft, die Verwendung des Kalman-Filters zu vermeiden. Ich habe es in der Vergangenheit für einige grundlegende Tracking-Anwendungen verwendet. Die Formulierung eines Zustandsübergangsmodells für die menschliche Pose wird angesichts der Komplexität der menschlichen Kinematik zu einem sehr schwierigen Problem führen. Stattdessen dachte ich daran, die Features in einen gemeinsamen Meta-Raum zu projizieren und dann zu versuchen, sie irgendwie zu integrieren. oder noch einfacher: Verwenden eines Ansatzes für die nächsten Nachbarn, um Posen zu finden, die beiden Sensortypen am nächsten liegen, und Interpolieren oder Lernen einer Abbildung unter Verwendung dieses reduzierten (gemeinsamen) Beispielsatzes. Irgendwelche anderen Ideen?

Josh

1

Nur einige Ideen, nicht sicher, wie nützlich sie sind:

Wenn Sie einen Ansatz des maschinellen Lernens verwenden möchten, besteht die Herausforderung darin, das richtige Kriterium zu finden.

Am einfachsten ist es, mit den Wahrheitsdaten zu arbeiten, aber ich nehme an, das haben Sie nicht.

Die andere generische Methode für maschinelles Lernen ist die Verwendung eines Glättungskriteriums. Eine Möglichkeit, die ich mir vorstellen kann, besteht darin, alle gemessenen Parameter (zu einem bestimmten Zeitpunkt) aus einem kleineren Satz (untere Dimension) von Variablen vorherzusagen. Sowohl die Transformation von der Eingabe zu einer niedrigdimensionalen Variablen (Matrix oder parametrisierte Funktion) als auch die Werte für den kleineren Satz von Variablen können beispielsweise durch ein generisches nichtlineares Optimierungsverfahren gelernt werden. Sie müssen nur das Kriterium definieren.

Wenn das funktioniert, funktioniert zumindest eine Sensorfusion. Sie müssten jedoch eine Transformation von den erlernten, niederdimensionalen Samples zu den gewünschten Ausgabevariablen durchführen.

Anstelle oder in Kombination mit weniger Variablen können Sie auch Smoothnes im Laufe der Zeit für den Satz der gelernten Variablen erzwingen. Es sollte möglich sein, dies in die obige Lernmethode aufzunehmen.

Wenn die erlernten Variablen eine Bedeutung haben sollen, können Sie eine Strafe in das Kriterium aufnehmen, um zu erzwingen, dass sie den Eingabebeispielen ähnlich sind.

Informationen zu den Lernmethoden: Der einfachste Weg, um zu beginnen, besteht darin, ein Kriterium zu definieren und mit einem nichtlinearen Standardoptimierer (z. B. aus dem Scipy-Paket von Matlab oder Python) zu optimieren.

Herr weiß
quelle

Annäherung an die Multisensor-Datenfusion

Antworten: