Ist die semantische Segmentierung nur ein Pleonasmus oder gibt es einen Unterschied zwischen "semantischer Segmentierung" und "Segmentierung"? Gibt es einen Unterschied zu "Szenenbeschriftung" oder "Szenenanalyse"?
Was ist der Unterschied zwischen Pixelebene und pixelweiser Segmentierung?
(Nebenfrage: Wenn Sie diese Art von pixelweiser Annotation haben, erhalten Sie die Objekterkennung kostenlos oder gibt es noch etwas zu tun?)
Bitte geben Sie eine Quelle für Ihre Definitionen an.
Quellen, die "semantische Segmentierung" verwenden
- Jonathan Long, Evan Shelhamer und Trevor Darrell: für die semantische Segmentierung . CVPR, 2015 und PAMI, 2016
- Hong, Seunghoon, Hyeonwoo Noh und Bohyung Han: "Entkoppeltes tiefes neuronales Netzwerk für halbüberwachte semantische Segmentierung." arXiv-Vorabdruck arXiv: 1506.04924 , 2015.
- V. Lempitsky, A. Vedaldi und A. Zisserman: Ein Pylonmodell für die semantische Segmentierung. Fortschritte in neuronalen Informationsverarbeitungssystemen, 2011.
Quellen, die "Szenenbeschriftung" verwenden
- Clement Farabet, Camille Couprie, Laurent Najman und Yann LeCun: Lernen hierarchischer Merkmale für die Szenenbeschriftung . In Pattern Analysis and Machine Intelligence, 2013.
Quelle, die "Pixelebene" verwendet
- Pinheiro, Pedro O. und Ronan Collobert: "Von der Beschriftung auf Bildebene zur Beschriftung auf Pixelebene mit Faltungsnetzwerken." Berichte der IEEE-Konferenz über Computer Vision und Mustererkennung, 2015. (siehe http://arxiv.org/abs/1411.6228 )
Quelle, die "pixelweise" verwendet
- Li, Hongsheng, Rui Zhao und Xiaogang Wang: "Hocheffiziente Vorwärts- und Rückwärtsausbreitung von Faltungs-Neuronalen Netzen zur pixelweisen Klassifizierung." arXiv-Vorabdruck arXiv: 1412.4526 , 2014.
Google Ngrams
"Semantische Segmentierung" scheint in letzter Zeit häufiger verwendet zu werden als "Szenenbeschriftung"
image-processing
computer-vision
object-detection
image-segmentation
semantic-segmentation
Martin Thoma
quelle
quelle
Antworten:
"Segmentierung" ist eine Aufteilung eines Bildes in mehrere "zusammenhängende" Teile, ohne jedoch zu verstehen, was diese Teile darstellen. Eines der bekanntesten Werke (aber definitiv nicht das erste) ist Shi und Malik "Normalized Cuts and Image Segmentation" PAMI 2000 . Diese Arbeiten versuchen, "Kohärenz" in Bezug auf Hinweise auf niedriger Ebene wie Farbe, Textur und Glätte der Grenze zu definieren. Sie können diese Arbeiten auf die Gestalttheorie zurückführen .
Andererseits versucht "semantische Segmentierung" , das Bild in semantisch bedeutsame Teile zu unterteilen, und jeden Teil in eine der vorbestimmten Klassen zu klassifizieren. Sie können das gleiche Ziel auch erreichen, indem Sie jedes Pixel (und nicht das gesamte Bild / Segment) klassifizieren. In diesem Fall führen Sie eine pixelweise Klassifizierung durch, die zum gleichen Endergebnis führt, jedoch auf einem etwas anderen Pfad ...
Man kann also sagen, dass "semantische Segmentierung", "Szenenbeschriftung" und "pixelweise Klassifizierung" im Grunde das gleiche Ziel erreichen: das semantische Verstehen der Rolle jedes Pixels im Bild. Sie können viele Wege gehen, um dieses Ziel zu erreichen, und diese Wege führen zu geringfügigen Nuancen in der Terminologie.
quelle
Ich habe viele Artikel über Objekterkennung, Objekterkennung, Objektsegmentierung, Bildsegmentierung und semantische Bildsegmentierung gelesen und hier sind meine Schlussfolgerungen, die nicht wahr sein könnten:
Objekterkennung: In einem bestimmten Bild müssen Sie alle Objekte erkennen (eine eingeschränkte Objektklasse hängt von Ihrem Datensatz ab), sie mit einem Begrenzungsrahmen lokalisieren und diesen Begrenzungsrahmen mit einer Beschriftung kennzeichnen. Im folgenden Bild sehen Sie eine einfache Ausgabe einer Objekterkennung auf dem neuesten Stand der Technik.
Objekterkennung: Es ist wie bei der Objekterkennung, aber in dieser Aufgabe gibt es nur zwei Klassen von Objektklassifizierungen, dh Objektbegrenzungsrahmen und Nicht-Objektbegrenzungsrahmen. Zum Beispiel Autoerkennung: Sie müssen alle Autos in einem bestimmten Bild mit ihren Begrenzungsrahmen erkennen.
Objektsegmentierung: Wie bei der Objekterkennung erkennen Sie alle Objekte in einem Bild, aber Ihre Ausgabe sollte dieses Objekt anzeigen, das Pixel des Bildes klassifiziert.
Bildsegmentierung: In der Bildsegmentierung segmentieren Sie Bereiche des Bildes. Ihre Ausgabe kennzeichnet keine Segmente und Bereiche eines Bildes, die miteinander übereinstimmen und sich im selben Segment befinden sollten. Das Extrahieren von Superpixeln aus einem Bild ist ein Beispiel für diese Aufgabe oder die Segmentierung von Vordergrund und Hintergrund.
Semantische Segmentierung: Bei der semantischen Segmentierung müssen Sie jedes Pixel mit einer Klasse von Objekten (Auto, Person, Hund, ...) und Nichtobjekten (Wasser, Himmel, Straße, ...) kennzeichnen. Mit anderen Worten, in der semantischen Segmentierung werden Sie jeden Bildbereich beschriften.
Ich denke, Pixel-Level und pixelweise Beschriftung ist im Grunde das gleiche, könnte Bildsegmentierung oder semantische Segmentierung sein. Ich habe auch Ihre Frage in diesem Link als gleich beantwortet .
quelle
Die vorherigen Antworten sind wirklich großartig, ich möchte noch einige Ergänzungen hervorheben:
Objektsegmentierung
Einer der Gründe, warum dies in der Forschungsgemeinschaft in Ungnade gefallen ist, ist, dass es problematisch vage ist. Objektsegmentierung bedeutet einfach, eine einzelne oder eine kleine Anzahl von Objekten in einem Bild zu finden und eine Grenze um sie herum zu ziehen. Für die meisten Zwecke können Sie dennoch davon ausgehen, dass dies bedeutet. Es wurde jedoch auch verwendet, um die Segmentierung von Blobs, die Objekte sein könnten , die Segmentierung von Objekten zu bedeuten aus dem Hintergrund (heute häufiger als Hintergrundsubtraktion oder Hintergrundsegmentierung oder Vordergrunderkennung bezeichnet) und in einigen Fällen sogar austauschbar mit der Objekterkennung unter Verwendung von Begrenzungsrahmen verwendet (dies hörte schnell mit dem Aufkommen von Ansätzen eines tiefen neuronalen Netzwerks zur Objekterkennung auf, könnte aber auch vorher eine Objekterkennung sein bedeuten einfach ein ganzes Bild mit dem Objekt darin beschriften).
Was macht "Segmentierung" "semantisch"?
Simpy, jedes Segment oder bei Deep-Methoden jedes Pixel erhält eine Klassenbezeichnung, die auf einer Kategorie basiert. Die Segmentierung im Allgemeinen ist nur die Aufteilung des Bildes nach einer Regel. Die Mittelwertverschiebungssegmentierung beispielsweise von einem sehr hohen Niveau teilt die Daten entsprechend den Änderungen in der Energie des Bildes. GrafikschnittDie basierte Segmentierung wird ebenfalls nicht gelernt, sondern direkt von den Eigenschaften jedes Bildes getrennt vom Rest abgeleitet. Neuere (auf einem neuronalen Netzwerk basierende) Verfahren verwenden Pixel, die beschriftet sind, um zu lernen, die lokalen Merkmale zu identifizieren, die bestimmten Klassen zugeordnet sind, und klassifizieren dann jedes Pixel basierend darauf, welche Klasse das höchste Vertrauen für dieses Pixel hat. Auf diese Weise ist "Pixel-Labeling" ein ehrlicherer Name für die Aufgabe, und die "Segmentierungs" -Komponente entsteht.
Instanzsegmentierung
Die wohl schwierigste, relevanteste und ursprünglichste Bedeutung der Objektsegmentierung, "Instanzsegmentierung", bedeutet die Segmentierung der einzelnen Objekte innerhalb einer Szene, unabhängig davon, ob sie vom gleichen Typ sind. Einer der Gründe, warum dies so schwierig ist, ist, dass aus Sicht der Vision (und in gewisser Weise aus philosophischer Sicht) nicht ganz klar ist, was eine "Objekt" -Instanz ausmacht. Sind Körperteile Objekte? Sollten solche "Teilobjekte" überhaupt durch einen Instanzsegmentierungsalgorithmus segmentiert werden? Sollten sie nur segmentiert werden, wenn sie vom Ganzen getrennt gesehen werden? Was ist mit zusammengesetzten Objekten, bei denen zwei Dinge klar miteinander verbunden, aber trennbar sein sollten, ein oder zwei Objekte (ist ein Stein, der auf die Spitze eines Stocks geklebt ist, eine Axt, ein Hammer oder nur ein Stock und ein Stein, sofern er nicht richtig hergestellt wurde?). Auch ist es nicht ' t klar, wie Instanzen zu unterscheiden sind. Ist ein Testament eine separate Instanz von den anderen Wänden, an denen es befestigt ist? In welcher Reihenfolge sollten Instanzen gezählt werden? Wie sie erscheinen? Nähe zum Standpunkt? Trotz dieser Schwierigkeiten ist die Segmentierung von Objekten immer noch eine große Sache, da wir als Menschen unabhängig von ihrer "Klassenbezeichnung" ständig mit Objekten interagieren (indem wir zufällige Objekte um Sie herum als Briefbeschwerer verwenden und auf Dingen sitzen, die keine Stühle sind). und so versuchen einige Datensätze, dieses Problem zu lösen, aber der Hauptgrund dafür, dass dem Problem noch nicht viel Aufmerksamkeit geschenkt wird, ist, dass es nicht gut genug definiert ist.
Szenenanalyse / Szenenbeschriftung
Scene Parsing ist der strikte Segmentierungsansatz für die Szenenbeschriftung, der auch einige eigene Unbestimmtheitsprobleme aufweist. In der Vergangenheit bedeutete die Szenenbeschriftung, die gesamte "Szene" (Bild) in Segmente aufzuteilen und allen eine Klassenbeschriftung zu geben. Es wurde jedoch auch verwendet, um Bereichen des Bildes Klassenbeschriftungen zu geben, ohne sie explizit zu segmentieren. In Bezug auf die Segmentierung bedeutet "semantische Segmentierung" nicht die Aufteilung der gesamten Szene. Für die semantische Segmentierung soll der Algorithmus nur die ihm bekannten Objekte segmentieren und wird durch seine Verlustfunktion für das Beschriften von Pixeln ohne Beschriftung bestraft. Beispielsweise ist der MS-COCO-Datensatz ein Datensatz für die semantische Segmentierung, bei dem nur einige Objekte segmentiert werden.
quelle