Ich habe diese Wörter in ziemlich vielen Veröffentlichungen gelesen und möchte einige schöne Definitionen für diese Begriffe haben, die deutlich machen, was der Unterschied zwischen Objekterkennung und semantischer Segmentierung und Lokalisierung ist. Es wäre schön, wenn Sie Quellen für Ihre Definitionen angeben könnten.
terminology
computer-vision
Martin Thoma
quelle
quelle
Antworten:
Ich habe viele Artikel über Objekterkennung, Objekterkennung, Objektsegmentierung, Bildsegmentierung und semantische Bildsegmentierung gelesen und hier sind meine Schlussfolgerungen, die nicht stimmen könnten:
Objekterkennung: In einem bestimmten Bild müssen Sie alle Objekte erkennen (eine eingeschränkte Klasse von Objekten hängt von Ihrem Datensatz ab), sie mit einem Begrenzungsrahmen lokalisieren und diesen Begrenzungsrahmen mit einem Etikett versehen. Im folgenden Bild sehen Sie eine einfache Ausgabe einer Objekterkennung nach dem neuesten Stand der Technik.
Objekterkennung: Es ist wie bei der Objekterkennung, aber in dieser Aufgabe gibt es nur zwei Klassen von Objektklassifizierungen, dh Objektbegrenzungsrahmen und Nicht-Objektbegrenzungsrahmen. Zum Beispiel Autoerkennung: Sie müssen alle Autos in einem bestimmten Bild mit ihren Begrenzungsrahmen erkennen.
Objektsegmentierung: Wie bei der Objekterkennung werden alle Objekte in einem Bild erkannt, aber Ihre Ausgabe sollte dieses Objekt anzeigen, das die Pixel des Bildes klassifiziert.
Bildsegmentierung: In der Bildsegmentierung segmentieren Sie Bereiche des Bildes. Ihre Ausgabe beschriftet keine Segmente und Bereiche eines Bildes, die miteinander konsistent sind und sich in demselben Segment befinden sollten. Das Extrahieren von Superpixeln aus einem Bild ist ein Beispiel für diese Aufgabe oder die Segmentierung von Vordergrund und Hintergrund.
Semantische Segmentierung: Bei der semantischen Segmentierung müssen Sie jedes Pixel mit einer Klasse von Objekten (Auto, Person, Hund, ...) und Nicht-Objekten (Wasser, Himmel, Straße, ...) kennzeichnen. Mit anderen Worten, in der semantischen Segmentierung kennzeichnen Sie jeden Bildbereich.
quelle
Da dieses Problem auch 2019 noch nicht ganz geklärt ist und es neuen ML-Lernern bei der Auswahl helfen könnte, ist hier ein sehr gutes Bild, das die Unterschiede zeigt:
(Lokalisierung ist der Begrenzungsrahmen um die Klasse "Schafe", nachdem eine Klassifizierung des Bildes vorgenommen wurde) Quelle: Towardsdatascience.com
quelle
Ich glaube, nur "Lokalisierung" bedeutet "Einzelobjektklassifizierung + Lokalisierung unter Verwendung eines 2D- oder 3D-Begrenzungsrahmens".
"Objekterkennung" ist das Lokalisieren und Klassifizieren aller Instanzen bekannter Objektklassen.
Die semantische Segmentierung ist im Grunde genommen eine Klassifizierung pro Pixel.
Auch in Bezug auf Messdaten (Quelle: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
Die Genauigkeit ist das Verhältnis der genau identifizierten Objekte zur Gesamtzahl der vorhergesagten Objekte (Verhältnis von echten Positiven zu echten Positiven plus falschen Positiven).
Rückruf ist das Verhältnis der genau identifizierten Objekte zur Gesamtzahl der tatsächlichen Objekte in den Bildern (Verhältnis von echten Positiven zu echten Positiven plus echten Negativen).
mAP: Ein vereinfachter mittlerer durchschnittlicher Präzisionswert basierend auf dem Produkt aus Präzision und Rückruf für DetectNet. Dies ist ein gutes Maß dafür, wie empfindlich das Netzwerk auf interessante Objekte reagiert und wie gut es Fehlalarme vermeidet.
quelle
Der Begriff Lokalisierung ist unklar. Ich werde daher auf die Begriffe Objekterkennung und semantische Segmentierung eingehen.
Bei der Objekterkennung wird jedes Bildpixel klassifiziert, ob es zu einer bestimmten Klasse (z. B. Gesicht) gehört oder nicht. In der Praxis wird dies vereinfacht, indem Pixel zu Begrenzungsrahmen gruppiert werden, wodurch sich das Problem auf die Entscheidung reduziert, ob der Begrenzungsrahmen eng am Objekt anliegt. Da Pixel zu mehreren Objekten gehören können (z. B. Gesicht, Auge), können sie mehrere Beschriftungen gleichzeitig enthalten.
Andererseits beinhaltet die semantische Segmentierung das Zuweisen von Klassenbezeichnungen zu jedem Bildpixel. Sie ermöglichen zwar eine bessere Lokalisierungsgenauigkeit, da sie die Begrenzungsrahmenvereinfachung nicht berücksichtigen, erzwingen jedoch strikt ein einzelnes Etikett pro Pixel.
quelle
Semantische Segmentierung: Es ist die Aufgabe, Teile von Bildern, die zur selben Objektklasse gehören, zu gruppieren. zB: Verkehrszeichen erkennen
quelle