Das Problem
Ich versuche, die 3D-Pose einer Person abzuschätzen, die mit einer einzelnen Kamera und 5 abgenutzten IMUs (Extremitäten der Extremitäten und oberer Rücken) beobachtet wird. Die Kamerarahmen werden in formbasierte Merkmalsvektoren konvertiert, und die IMUs liefern jeweils 4D-Quaternionsdarstellungen ihrer Ausrichtung.
Ich habe die 3D-Pose mit jeder Modalität wiederhergestellt, indem ich eine Zuordnung vom Eingabe-Feature-Raum zum Ausgabe-Pose-Raum gelernt habe. Jetzt möchte ich bessere Ergebnisse erzielen, indem ich beide Modalitäten auf irgendeine Weise durch Sensorfusion kombiniere.
Ich habe versucht, die Merkmalsvektoren jeder Modalität anzuhängen und auch einen gewichteten Durchschnitt ihrer Ausgaben zu verwenden. Dies sind sehr einfache Ansätze, die im Durchschnitt nur zu sehr geringen Verbesserungen führten.
Frage
Welche anderen Ansätze kann ich versuchen, diese beiden unangemessenen Datenquellen zu kombinieren?
Gibt es eine Vorverarbeitung für die Funktionen, die durchgeführt werden sollten?
Hinweis: Ich bevorzuge es, wenn möglich weiterhin einen lernbasierten Ansatz zu verwenden. (dh ich möchte die Physik / Kinematik / etc nicht explizit modellieren)
Nur einige Ideen, nicht sicher, wie nützlich sie sind:
Wenn Sie einen Ansatz des maschinellen Lernens verwenden möchten, besteht die Herausforderung darin, das richtige Kriterium zu finden.
Am einfachsten ist es, mit den Wahrheitsdaten zu arbeiten, aber ich nehme an, das haben Sie nicht.
Die andere generische Methode für maschinelles Lernen ist die Verwendung eines Glättungskriteriums. Eine Möglichkeit, die ich mir vorstellen kann, besteht darin, alle gemessenen Parameter (zu einem bestimmten Zeitpunkt) aus einem kleineren Satz (untere Dimension) von Variablen vorherzusagen. Sowohl die Transformation von der Eingabe zu einer niedrigdimensionalen Variablen (Matrix oder parametrisierte Funktion) als auch die Werte für den kleineren Satz von Variablen können beispielsweise durch ein generisches nichtlineares Optimierungsverfahren gelernt werden. Sie müssen nur das Kriterium definieren.
Wenn das funktioniert, funktioniert zumindest eine Sensorfusion. Sie müssten jedoch eine Transformation von den erlernten, niederdimensionalen Samples zu den gewünschten Ausgabevariablen durchführen.
Anstelle oder in Kombination mit weniger Variablen können Sie auch Smoothnes im Laufe der Zeit für den Satz der gelernten Variablen erzwingen. Es sollte möglich sein, dies in die obige Lernmethode aufzunehmen.
Wenn die erlernten Variablen eine Bedeutung haben sollen, können Sie eine Strafe in das Kriterium aufnehmen, um zu erzwingen, dass sie den Eingabebeispielen ähnlich sind.
Informationen zu den Lernmethoden: Der einfachste Weg, um zu beginnen, besteht darin, ein Kriterium zu definieren und mit einem nichtlinearen Standardoptimierer (z. B. aus dem Scipy-Paket von Matlab oder Python) zu optimieren.
quelle