Ich versuche, für meine eigenen Lernzwecke eine Implementierung eines Algorithmus zu entwickeln, der Bücher auflistet, wenn man ein Bild eines Bücherregals wie das folgende annimmt:
Der erste Schritt besteht darin, das Bild in einzelne Bücher aufzuteilen.
Mein Algorithmus in Mathematica lautet:
img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
- eine grundlegende Kantenerkennung durchführen und
Entfernen Sie den Text und versuchen Sie, die langen Zeilen beizubehalten
edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
Entfernen Sie dann unerwünschte horizontale Linien
lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]] Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
Die Ergebnisse sind jedoch alles andere als gut:
Meine Fragen sind:
- Wie kann ich dies verbessern, um bessere Ergebnisse zu erzielen?
- Gibt es eine intelligentere Möglichkeit, dies zu tun?
- Wie weit muss ich die Bilder verarbeiten, um die Genauigkeit in der (späteren) OCR-Phase zu erhöhen?
- Wie kann man die Farbinformationen verwenden, um die Segmentierung zu verbessern?
opencv
computer-vision
image-segmentation
Oren Pinsky
quelle
quelle
Antworten:
Hier ist der Link zu einem Forschungsbericht, der versucht, das zu tun, was Sie wollten. Es könnte dir helfen. Verwenden von Bildfunktionen Auch ein cooles Video auf dem YouTube
quelle
Mit welcher Methode erkennen Sie die Linien? Haben Sie versucht, mit LSD zu experimentieren ?
Hier sind die Ergebnisse eines Schnelltests, den ich mit LSD durchgeführt habe:
Das zweite Bild zeigt die Ergebnisse mit derselben Winkelbeschränkung, jedoch ohne Berücksichtigung der Segmentlängen:
Sie können versuchen, ein wenig damit zu spielen, herauszufinden, wie Sie die besten Liniensegmente auswählen, sie auf Linien erweitern und möglicherweise etwas bessere Ergebnisse erzielen als die von Ihnen geposteten.
quelle
Sie können versuchen, die Kantenerkennung für einzelne Farbdomänen durchzuführen und diese dann mit der Methode Ihrer Wahl zur Kantenerkennung zusammenzuführen.
Im Vergleich zur Kantenerkennung direkt auf dem Farbbild werden möglicherweise bessere Ergebnisse erzielt.
quelle
Das Papier aus dem defekten Link von isrish könnte gefunden werden. Bild- und Textmerkmale kombinieren : Ein hybrider Ansatz zur Erkennung des Buchrückens von mobilen Büchern , Proc. 19. ACM International Conference on Multimedia, 2011. Weitere Artikel von David Chen et al. Beispielsweise Low-Cost-Asset-Tracking mit standortbewussten Kameratelefonen , Proc. SPIE 2010.
quelle