Wie kann Handlungserkennung erreicht werden?

Zum Beispiel möchte ich mein neuronales Netzwerk trainieren, um die Art der Aktionen zu erkennen (z. B. in kommerziellen Filmen oder einigen realen Videos), damit ich mein Netzwerk in welchem ​​Video oder Film (und in welchen Frames) jemanden "fragen" kann fuhr ein Auto, küsste, aß, hatte Angst...