Was ist der Unterschied zwischen Objekterkennung, semantischer Segmentierung und Lokalisierung?

23

Ich habe diese Wörter in ziemlich vielen Veröffentlichungen gelesen und möchte einige schöne Definitionen für diese Begriffe haben, die deutlich machen, was der Unterschied zwischen Objekterkennung und semantischer Segmentierung und Lokalisierung ist. Es wäre schön, wenn Sie Quellen für Ihre Definitionen angeben könnten.

Martin Thoma
quelle
1
Testen Sie die Folien hier: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

Antworten:

18

Ich habe viele Artikel über Objekterkennung, Objekterkennung, Objektsegmentierung, Bildsegmentierung und semantische Bildsegmentierung gelesen und hier sind meine Schlussfolgerungen, die nicht stimmen könnten:

Objekterkennung: In einem bestimmten Bild müssen Sie alle Objekte erkennen (eine eingeschränkte Klasse von Objekten hängt von Ihrem Datensatz ab), sie mit einem Begrenzungsrahmen lokalisieren und diesen Begrenzungsrahmen mit einem Etikett versehen. Im folgenden Bild sehen Sie eine einfache Ausgabe einer Objekterkennung nach dem neuesten Stand der Technik.

Objekterkennung

Objekterkennung: Es ist wie bei der Objekterkennung, aber in dieser Aufgabe gibt es nur zwei Klassen von Objektklassifizierungen, dh Objektbegrenzungsrahmen und Nicht-Objektbegrenzungsrahmen. Zum Beispiel Autoerkennung: Sie müssen alle Autos in einem bestimmten Bild mit ihren Begrenzungsrahmen erkennen.

Objekterkennung

Objektsegmentierung: Wie bei der Objekterkennung werden alle Objekte in einem Bild erkannt, aber Ihre Ausgabe sollte dieses Objekt anzeigen, das die Pixel des Bildes klassifiziert.

Objektsegmentierung

Bildsegmentierung: In der Bildsegmentierung segmentieren Sie Bereiche des Bildes. Ihre Ausgabe beschriftet keine Segmente und Bereiche eines Bildes, die miteinander konsistent sind und sich in demselben Segment befinden sollten. Das Extrahieren von Superpixeln aus einem Bild ist ein Beispiel für diese Aufgabe oder die Segmentierung von Vordergrund und Hintergrund.

Bildsegmentierung

Semantische Segmentierung: Bei der semantischen Segmentierung müssen Sie jedes Pixel mit einer Klasse von Objekten (Auto, Person, Hund, ...) und Nicht-Objekten (Wasser, Himmel, Straße, ...) kennzeichnen. Mit anderen Worten, in der semantischen Segmentierung kennzeichnen Sie jeden Bildbereich.

semantische Segmenation

e_soroush
quelle
gute Antwort. Ich werde bemerken, dass cs231n.stanford.edu/slides/winter1516_lecture8.pdf Folie 8 eine andere Definition der Objekterkennung verwendet, die mehrere Klassen und mehrere Instanzen innerhalb derselben Klasse erkennt (ich weiß nicht, ob es eine einzige akzeptierte Definition gibt oder nicht, das kann also nur an der Mehrdeutigkeit liegen).
Keith
1
Instanzsegmentierung, wie semantische Segmentierung, aber man muss die Kühe als getrennt
kennzeichnen
2
Die Folien des ersten Kommentars sind jetzt hier: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu
5

Da dieses Problem auch 2019 noch nicht ganz geklärt ist und es neuen ML-Lernern bei der Auswahl helfen könnte, ist hier ein sehr gutes Bild, das die Unterschiede zeigt:

(Lokalisierung ist der Begrenzungsrahmen um die Klasse "Schafe", nachdem eine Klassifizierung des Bildes vorgenommen wurde) Quelle: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea Quelle: Towardsdatascience.com

fogx
quelle
3

Ich glaube, nur "Lokalisierung" bedeutet "Einzelobjektklassifizierung + Lokalisierung unter Verwendung eines 2D- oder 3D-Begrenzungsrahmens".

"Objekterkennung" ist das Lokalisieren und Klassifizieren aller Instanzen bekannter Objektklassen.

Die semantische Segmentierung ist im Grunde genommen eine Klassifizierung pro Pixel.

Auch in Bezug auf Messdaten (Quelle: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

Die Genauigkeit ist das Verhältnis der genau identifizierten Objekte zur Gesamtzahl der vorhergesagten Objekte (Verhältnis von echten Positiven zu echten Positiven plus falschen Positiven).

Rückruf ist das Verhältnis der genau identifizierten Objekte zur Gesamtzahl der tatsächlichen Objekte in den Bildern (Verhältnis von echten Positiven zu echten Positiven plus echten Negativen).

mAP: Ein vereinfachter mittlerer durchschnittlicher Präzisionswert basierend auf dem Produkt aus Präzision und Rückruf für DetectNet. Dies ist ein gutes Maß dafür, wie empfindlich das Netzwerk auf interessante Objekte reagiert und wie gut es Fehlalarme vermeidet.

Andrei Pokrovsky
quelle
2

Der Begriff Lokalisierung ist unklar. Ich werde daher auf die Begriffe Objekterkennung und semantische Segmentierung eingehen.

Bei der Objekterkennung wird jedes Bildpixel klassifiziert, ob es zu einer bestimmten Klasse (z. B. Gesicht) gehört oder nicht. In der Praxis wird dies vereinfacht, indem Pixel zu Begrenzungsrahmen gruppiert werden, wodurch sich das Problem auf die Entscheidung reduziert, ob der Begrenzungsrahmen eng am Objekt anliegt. Da Pixel zu mehreren Objekten gehören können (z. B. Gesicht, Auge), können sie mehrere Beschriftungen gleichzeitig enthalten.

Andererseits beinhaltet die semantische Segmentierung das Zuweisen von Klassenbezeichnungen zu jedem Bildpixel. Sie ermöglichen zwar eine bessere Lokalisierungsgenauigkeit, da sie die Begrenzungsrahmenvereinfachung nicht berücksichtigen, erzwingen jedoch strikt ein einzelnes Etikett pro Pixel.

Facedetector
quelle
-2

Semantische Segmentierung: Es ist die Aufgabe, Teile von Bildern, die zur selben Objektklasse gehören, zu gruppieren. zB: Verkehrszeichen erkennen

Gan
quelle
2
Das Erkennen von Verkehrszeichen ist jedoch eine Objekterkennung. Kannst du den Unterschied erklären?
Reinierpost