Verwenden Sie AI oder Neural Network zur Logoerkennung

10

Ich versuche, ein TV-Kanal-Logo in einer Videodatei zu .mp4erkennen. Geben Sie also einfach ein Eingabevideo an , um festzustellen, ob dieses Logo in einem bestimmten Frame vorhanden ist, z. B. im ersten Frame, oder nicht.

Wir haben dieses Logo im Voraus (obwohl es möglicherweise nicht die gleiche Größe von 100% hat) und der Standort ist immer festgelegt.

Ich habe bereits einen auf Pattern Matching basierenden Ansatz. Dafür muss das Muster jedoch% 100 gleich groß sein. Ich möchte Deep Learning und Neural Network nutzen, um dies zu erreichen. Wie kann ich das machen? Ich glaube, CNN kann eine höhere Effizienz haben?

Tina J.
quelle
1
Willkommen bei AI! Tolles Thema.
DukeZhou
1
@DukeZhou Tnx! Ich hoffe, ich bekomme richtige Antworten mit Zeigern auf einige Beispielcodes.
Tina J

Antworten:

5

Um eine Bilderkennung durchzuführen, müssen Sie eine Möglichkeit finden, ein Bild mit bestimmten Funktionen darzustellen.

Eines der bestimmenden Merkmale eines guten Bilderkennungsalgorithmus ist seine Fähigkeit, hervorstechende Regionen zu erkennen, dh Regionen, die die meisten Informationen enthalten

Im Moment wird viel Wert auf Deep Learning für die inhaltsbasierte Bildklassifizierung gelegt. Sie können anständige Ergebnisse erzielen, indem Sie Deep Learning mit drei oder mehr CNN-Schichten implementieren, wobei jede Schicht für das Extrahieren eines oder mehrerer Merkmale des Bildes verantwortlich ist.

Seth Simba
quelle
Vielen Dank. Ich bin selbst kein CNN-Typ. Aber gibt es einen Zeiger auf einen Quellcode, der anhand eines Logo-Bilds erkennen kann, ob es existiert oder nicht?
Tina J
3
Hey, bitte schau dir DeepLogo on Github von Satoj Kovic an. Es ist auf Python geschrieben und verwendet CNNs, um Markenlogos zu erkennen. Ich habe den Link unten gepostet. Prost. github.com/satojkovic/DeepLogo
Seth Simba
3

Da es sich um eine Videoeingabe handelt und die Logos normalerweise stationär sind, weil sie von Hardware oder Software über die Live- oder aufgezeichneten Frames gelegt werden, ist die Aufgabe nicht schwierig. Logos haben normalerweise auch begrenzte Farbpaletten und scharfe Kanten. Die Merkmale ihrer Schriftarten, wenn sie Wörter oder Akronyme buchstabieren, sind normalerweise auch konsistent. Dies sind Allgemeingültigkeiten, die beim tiefen Lernen ausgenutzt werden können.

Wie bei der anderen ähnlichen Frage dieses Autors kann eine Kombination aus LSTM- und CNN-Ebenen trainiert werden, um das Logo zu finden und zu isolieren. Mit einigen Bildtricks kann das Bild hinter dem Logo auch mit einer angemessenen Genauigkeit und Zuverlässigkeit aus den Pixeln um das Logo durch ähnliche Lerntechniken rekonstruiert werden.

Dies sind einige Ausgangspunkte für die Entwicklung.

Douglas Daseeco
quelle