Was bedeuten sie im schnelleren RCNN-Artikel, wenn es um die Verankerung geht, unter Verwendung von "Pyramiden von Referenzboxen" und wie wird dies getan? Bedeutet dies nur, dass an jedem der W * H * k-Ankerpunkte ein Begrenzungsrahmen erzeugt wird?
Wobei W = Breite, H = Höhe und k = Anzahl der Seitenverhältnisse * Anzahl Skalen
Link zum Papier: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
BadProgrammer
quelle
quelle
Antworten:
Anker erklärt
Anker
In der Verlustfunktion werden tatsächlich Anker angezeigt
Beim Training des RPN wird zunächst jedem Anker eine binäre Klassenbezeichnung zugewiesen. Anker mit Intersection-over-Union ( IoU ) überlappen sich mit einer Ground-Truth-Box, die höher als ein bestimmter Schwellenwert ist, und erhalten eine positive Bezeichnung (ebenfalls werden Anker mit IoUs, die unter einem bestimmten Schwellenwert liegen, als negativ bezeichnet). Diese Bezeichnungen werden weiter verwendet, um die Verlustfunktion zu berechnen:
Beachten Sie auch, dass Anker ohne Beschriftung weder klassifiziert noch umgeformt werden und die Drehzahl sie einfach aus den Berechnungen herauswirft. Sobald die Arbeit des RPN erledigt ist und die Vorschläge generiert wurden, ist der Rest den schnellen R-CNNs sehr ähnlich.
quelle
Ich habe diese Zeitung gestern gelesen und auf den ersten Blick war sie auch für mich verwirrend. Nach dem erneuten Lesen kam ich zu folgendem Schluss:
7x7x512 (HxWxD)
.3x3
Conv-Schicht auf eine 512-dimensionale Schicht abgebildet . Die Ausgabegröße ist7x7x512
(wenn Padding verwendet wird).7x7x(2k+4k)
(z. B.7x7x54
) Ebene mit einer1x1
Conv-Ebene für jede derk
Ankerkästen zugeordnet.Gemäß Abbildung 1 im Papier können Sie nun eine Pyramide von Eingabebildern (dieselben Bilder mit einem anderen Maßstab), eine Pyramide von Filtern (Filter mit einem anderen Maßstab, in derselben Ebene) oder eine Pyramide von Referenzfeldern haben. Letzteres bezieht sich auf die
k
Ankerkästen auf der letzten Ebene des Regionsvorschlagsnetzwerks. Anstelle von Filtern mit unterschiedlichen Größen, die übereinander gestapelt sind (mittlerer Fall), werden Filter mit unterschiedlichen Größen und Seitenverhältnissen übereinander gestapelt.Kurz gesagt, für jeden Ankerpunkt (
HxW
z. B.7x7
) wird eine Pyramide von Referenzfeldern (k
z9
. B. ) verwendet.quelle
3x3
Conv-Ebene übersetzt7x7
? Im Prototxt heißt es, dass die Polsterung auf der letzten VGG16-Schicht 1 ist.