Gibt es in der Literatur Artikel, die sich mit der folgenden Objekterkennungsaufgabe befassen?
Die Aufgabe kann wie folgt beschrieben werden:
Bei einer Reihe von Bildern sind die Beschriftungen nur Koordinaten (x, y), die die Objektpositionen darstellen, die wir erkennen möchten. Eine Koordinate befindet sich nicht unbedingt in der Mitte des Objekts und das Objekt kann eine beliebige Größe haben.
Die Aufgabe besteht darin, ein Objekt zu erkennen, das entweder eine Person, ein Boot oder ein Auto ist. Die Beschriftungen geben jedoch nicht die Kategorie der Objekte an. Die Beschriftungen sind lediglich Koordinaten, die sich in der Nähe der interessierenden Objekte befinden.
Die Bilder werden stündlich aufgenommen und sind Schnappschüsse derselben Szene. Daher können Hintergrundsubtraktionstechniken hilfreich sein.
Es gibt ungefähr 2000 Bilder derselben Szene und jedes Bild hat normalerweise 2 interessierende Objekte.
Ich frage mich, ob eine solche Aufgabe schon einmal angegangen wurde.
Schweinefunktionen und SVM haben große Erfolge bei der Erkennung von Menschen in Bildern gezeigt. In der einschlägigen Literatur werden jedoch Trainingsdaten verwendet, bei denen die interessierenden Objekte mit einem Begrenzungsrahmen anstelle einer einzelnen Koordinate gekennzeichnet sind.
Die drei Hauptherausforderungen sind:
- Die Auswahl des Begrenzungsrahmens für den Klassifizierer ist schwierig, da Objekte beliebiger Größe sein können.
- Schnappschüsse der Szene werden jede Stunde aufgenommen (die Kamera kann sich ebenfalls leicht bewegen); Die Verwendung der Hintergrundsubtraktion ist daher nicht einfach.
- Wir haben nicht viele beschriftete Daten.
Es wäre interessant zu sehen, wie die Menschen mit diesen Herausforderungen umgegangen sind.
Vielen Dank!
Antworten:
Der Stand der Technik bei solchen Problemen wird heutzutage über tiefe neuronale Netze erreicht. Zwei beliebte und neuere Ansätze zur Lösung des Problems der Erkennung und Lokalisierung von Objekten sind unter anderem das YOLO-Papier und das schnellere RCNN , mit denen ein Klassifikator über viele Bereiche unterschiedlicher Größe in einem Bild ausgeführt wird.
Da Menschen, Boote und Autos beliebte Objektklassen sind, würde ich zunächst versuchen, herauszufinden, was vorhandene vorgefertigte Netzwerke für Ihr Problem tun können, und sie dann bei Bedarf anhand Ihrer Daten neu trainieren.
quelle