Wie kann Handlungserkennung erreicht werden?

7

Zum Beispiel möchte ich mein neuronales Netzwerk trainieren, um die Art der Aktionen zu erkennen (z. B. in kommerziellen Filmen oder einigen realen Videos), damit ich mein Netzwerk in welchem ​​Video oder Film (und in welchen Frames) jemanden "fragen" kann fuhr ein Auto, küsste, aß, hatte Angst oder telefonierte.

Was sind die derzeit erfolgreichen Ansätze für diese Art von Problem?

Kenorb
quelle

Antworten:

5

Es gibt verschiedene Ansätze, wie dies erreicht werden kann.

Eine aktuelle Studie aus dem Jahr 2015 zur Aktionserkennung in realistischen Sportvideos PDF verwendet das Aktionserkennungs-Framework, das auf den drei Hauptschritten der Merkmalsextraktion (Form-, Post- oder Kontextinformationen), des Wörterbuchlernens zur Darstellung eines Videos und der Klassifizierung ( BoW-Framework ) basiert .

Einige Beispiele für Methoden:

  • Raum-zeitliche Strukturen menschlicher Posen

    K. Soomro und AR Zamir - Aktionserkennung - Figur

  • eine gemeinsame Formbewegung

    K. Soomro und AR Zamir - Aktionserkennung - Figur

  • Multitasking Sparse Learning (MTSL)

  • Hierarchische Raum-Zeit-Segmente

    K. Soomro und AR Zamir - Extrahierte Segmente aus Videobildern

  • Räumlich-zeitliche verformbare Teilemodelle (SDPM)

    K. Soomro und AR Zamir - Ergebnisse der Aktionslokalisierung

Hier sind die Ergebnisse basierend auf dem Training von 10 Aktionsklassen basierend auf dem UCF-Sportdatensatz:

UCF-Sportdatensatz: Beispielrahmen von 10 Aktionsklassen zusammen mit ihren Begrenzungsrahmenanmerkungen der Menschen, die gelb dargestellt sind

Quelle: Aktionserkennung in realistischen Sportvideos .

Kenorb
quelle
5

Diese Studie aus dem Jahr 2012 verwendet 3D Convolutional Neural Networks (CNN) zur automatisierten Erkennung menschlicher Handlungen in Überwachungsvideos. Das 3D-CNN-Modell extrahiert Merkmale sowohl aus der räumlichen als auch aus der zeitlichen Dimension, indem es 3D-Faltungen durchführt, wodurch die in mehreren benachbarten Frames codierten Bewegungsinformationen erfasst werden. Ein sehr ähnlicher Deep-Learning-Ansatz basierend auf 3D-CNN wird in der Studie von LIRIS und Orange Labs aus dem Jahr 2011 demonstriert .


Diese Oxford-Studie aus dem Jahr 2014 verwendet ebenfalls einen ähnlichen Ansatz, jedoch mit Zwei-Strom-CNN, das räumliche und zeitliche Netzwerke enthält, die trotz begrenzter Trainingsdaten eine gute Leistung erzielen können. Es erkennt Bewegungsbewegungen in Form eines dichten optischen Flusses. Zum Beispiel:

Optischer Fluss mit ConvNets


Eine andere Studie aus dem Jahr 2007 demonstriert eine Methode zur Erkennung menschlicher Stürze basierend auf einer Kombination aus Bewegungsverlauf und Variation der menschlichen Form durch Analyse der Videobilder. Es verwendet Motion History Image (MHI), um die Bewegung der Person zu quantifizieren.

Bewegungsverlaufsbild (MHI)

Quelle: harishrithish7 / Fallerkennung bei GitHub


Ein alternativer allgemeiner Ansatz könnte die Aktionserkennung basierend auf der Haltung unter Verwendung von DNN sein. Siehe: Wie werden Haltungen und Gesten erkannt?

Kenorb
quelle
3D CNN ist eine großartige Lösung für das Problem. Aber es fließt auch, 3D-CNN mit stereoskopischen Kameras macht es perfekt. Das einzige Problem, mit dem wir konfrontiert werden, ist die z-Tiefe und der Fokus der Kamera. Die Kamera muss auf das Objekt x fokussieren, das vom 3D-CNN-SC gesteuert wird System, ich benutze dies seit den letzten Monaten, ich habe jetzt entschieden, dass die Öffentlichkeit meine Methode ausprobieren kann.
Dean Van Greunen
3

Das MIT hat eine unvollständige Version der Action-Video-Erkennung recherchiert und implementiert.

Mit MATLAB, NNetworks und einer Vielzahl von Schulungsvideos.

Meine vorgeschlagenen Kommentare zu meiner vorherigen Antwort weisen auf die Verwendung eines mehrfach verbundenen NNets hin, des bildbasierten NNet von verus MIT.

Dean Van Greunen
quelle
2

Ein neuronales Netzwerk kann verwendet werden, muss jedoch trainiert werden, um die Informationen (Muster von Daten, Pixeln oder Gruppierungen mit losem Bereich wie Farbe und Ort) an einem bestimmten Ort im Netzwerk zu erwarten. Zunächst muss jedoch ein Bildverarbeitungssystem implementiert werden. Dann eine Gesichtserkennung, mehrere partielle individuelle Körperfixierungen (Finden von Körperteilen und deren Partner für eine Person), dann Training in einigen Zuständen und Sie werden es schaffen. Das MIT hat Nachforschungen angestellt und eine scheinbar genaue Implementierung vorgenommen.

Ich bin seit 7 Jahren KI-Forscher und Software-Ingenieur.

Dean Van Greunen
quelle
Scheinbar genau, was ein unvollständiges, aber funktionierendes System bedeutet
Dean Van Greunen
Führen Sie diesbezüglich eine Google-Suche durch oder besuchen Sie die MIT-Website unter ihrem Videobereich. Für mehr Informationen.
Dean Van Greunen
1

Noch keine allgemeine Filmsuche

Es gab Erfolge beim Erkennen einer sehr engen Folge einer sehr engen Reihe möglicher Aktionen, aber nichts wie ein allgemeines Filmsuchsystem, das eine Reihe von Übereinstimmungen mit der Startzeit, der Endzeit und der Filminstanz für jede Übereinstimmung zu einer zurückgeben kann der in dieser Frage aufgeführten Suchkriterien.

  • Jemand fuhr ein Auto
  • Küssen
  • Essen
  • erschrocken
  • Telefonieren

Liste normalisieren

Zuallererst ist "hatte Angst" nicht die Beschreibung einer Handlung. Es sollte sein: "Angst bekommen." Zweitens ist "Telefonieren" keine richtige Aktionsbeschreibung. Es sollte eine konjunktive Aktion sein, wie "In ein Telefon sprechen UND dasselbe Telefon hören". Um die Liste im Format homogen zu gestalten, sollte der erste Punkt "Autofahren" sein, da der Schauspieler in jedem anderen Fall ein Mensch ist.

  • Autofahren
  • Küssen
  • Essen
  • Angst bekommen
  • In ein Telefon sprechen und dasselbe Telefon hören.

Realistische Erwartungen an das Systemdesign

Es ist unrealistisch zu glauben, dass ein künstliches neuronales Netz für sich trainiert werden kann, um als Ausgabe den Satz von Start- und Stoppbereichen und zugehörigen Filminstanzen aus einer Datenbank von Filmen und einem der oben genannten Listenelemente als Eingabe zurückzugeben. Dies erfordert ein komplexes System mit vielen ANNs und anderen ML-Geräten und möglicherweise andere AI-Komponenten, die überhaupt keine Netzwerke vom Aktivierungstyp sind. Natürlich sollten Faltungskerne und verschiedene Arten von Codierern als wichtige Systemkomponenten betrachtet werden.

Sie benötigen eine große Menge an Trainingsdaten, um die oben genannten sechs Fälle abzudecken (der letzte der fünf Punkte sind tatsächlich zwei verschiedene Aktionen, die wir normalerweise zuordnen und als eine betrachten). Wenn Sie mehr Aktionen erkennen möchten, benötigen Sie auch eine große Menge an Trainingsdaten.

Verben und Substantive

Der Grund, warum diese Frage für mich interessant ist, ist, dass das Erkennen von AKTIONEN nicht dasselbe ist wie das Erkennen von EINZELTEILEN. Alle Säugetiere lernen zuerst EINZELTEILE und später MASSNAHMEN. In der kindlichen Sprachentwicklung stehen Substantive sprachlich vor Verben. Dies liegt daran, dass genau wie das Erkennen von Kanten für das Erkennen von Formen, das für das Erkennen von Objekten erforderlich ist, das Erkennen von Bewegungen für das Erkennen von Aktionen erforderlich ist.

Verben wie "Essen" sind eine Abstraktion über die Bewegung hinaus, und beim Essen ist die Bewegung komplex. Essen ist auch nicht dasselbe wie Kaugummi, daher muss die erkannte Sequenz wie folgt sein:

  1. Einführen von Lebensmitteln in das Gesicht durch den Mund
  2. Kauen
  3. Schlucken

Die Wahrscheinlichkeit einer Sequenz ist das Produkt der Wahrscheinlichkeit ihrer Teile, so dass Mathematik einfach und leicht zu implementieren ist. Parallelität ist im Allgemeinen auch relativ einfach zu handhaben, wie im Fall von Konjunktivaktionen wie dem Telefonieren und Abhören desselben Telefons.

Ein realistischer Ansatz

Sicherlich muss eine Verallgemeinerung (und insbesondere eine Merkmalsextraktion) bei der Objekterkennung, Kollisionserkennung, Bewegungserkennung, Gesichtserkennung und anderen Ebenen gleichzeitig erfolgen. Eine komplexe Topologie, bei der möglicherweise Equalibria wie beim GAN-Design verwendet wird, ist höchstwahrscheinlich erforderlich, um Elemente von Kriterien zusammenzustellen, die der Filmabfragezeichenfolge zugeordnet sind, und um Fenster über die Frames jedes Films auszuführen.

Um einen Dienst bereitzustellen, der innerhalb weniger Tage oder Wochen Ergebnisse zurückgibt, sind wahrscheinlich ein Cluster und DSP-Hardware erforderlich (möglicherweise mithilfe von GPUs).

Sonderfälle, mit denen das menschliche Gehirn umgeht

Es kann schwierig sein zu bestimmen, wie lange eines der beiden Elemente der Parallelität nicht erkannt werden kann, bevor die Konjunktion ungültig wird. (Wie lange kann man nicht in das Telefon sprechen, bevor sich herausstellt, dass es nicht mehr als Telefongespräch gilt?)

Wenn im Film nur das Schlucken gezeigt wird, kann ein Mensch auf das Essen schließen. Diese Art der Zuverlässigkeit von Schlussfolgerungen aus spärlichen Daten ist eine große KI-Herausforderung, die in verschiedenen Zusammenhängen in der Literatur diskutiert wird.

Die Entstehung assoziierter Technologie - Eine Projektion

Ich vermute, dass die Systemtopographie, die aus ANNs, Encodern, Faltungskernen und anderen Komponenten besteht, um die Suche nach einer ausgewählten Gruppe von Aktionen durchzuführen, innerhalb der nächsten zehn Jahre entstehen wird. Die Arbeit scheint in der Literatur in diese Richtung zu gehen.

Ein System, das seine eigenen Trainingsinformationen erhält, sein Wissen nachhaltig erweitert und allgemeine Suchvorgänge durchführt, wenn die zunehmende Breite und Komplexität zwischen vierzig und zweihundert Jahren liegen kann. Es ist schwer vorherzusagen.

Grobe überoptimistische Vorhersagen

Jede Generation scheint das Wissenswachstum als exponentielle Funktion zu betrachten und neigt dazu, unrealistische Vorhersagen über das Aufkommen bestimmter begehrter technologischer Fähigkeiten zu treffen. Die meisten Vorhersagen schlagen dramatisch fehl. Ich bin zu der Überzeugung gelangt, dass das exponentielle Wachstum eine Illusion ist, die durch den inversen exponentiellen Zerfall des Interesses in der Vergangenheit in Bezug auf die Zeit erzeugt wurde.

Wir verlieren den Überblick über die Energie und die Wachstumsrate der vor uns liegenden Epochen, weil sie sozial irrelevant werden. Menschen in der Wissenschaftsgeschichte wie Whitehead, Kuhn und Ellul wissen, dass sich die Technologie seit mindestens einigen hundert Jahren schnell weiterentwickelt hat. Vernadski folgerte in seiner The Biosphere dass das Leben möglicherweise nicht entstanden ist, dass es wie Materie und Energie immer existiert haben könnte. Ich frage mich, ob sich die Technologie in den letzten 50.000 Jahren im Wesentlichen konstant bewegt hat.

Deutschland beschloss, seine Energieerzeugung aus Solarmodulen jedes Jahr zu verdoppeln, und veröffentlichte seinen exponentiellen Erfolg, bis vor einigen Jahren eine erneute Verdoppelung hundert Milliarden Dollar mehr kosten würde, als sie ausgeben mussten. Sie haben aufgehört, die exponentiellen Wachstumsgraphen zu veröffentlichen.

FauChristian
quelle