Vergleich zweier Histogramme anhand des Chi-Quadrat-Abstands

18

Ich möchte zwei Bilder von Gesichtern vergleichen. Ich habe ihre LBP-Histogramme berechnet. Jetzt muss ich diese beiden Histogramme vergleichen und etwas herausfinden, das angibt, wie sehr diese Histogramme gleich sind (0 - 100%).

Es gibt viele Möglichkeiten, diese Aufgabe zu lösen, aber die Autoren der LBP-Methode betonen (Gesichtsbeschreibung mit lokalen binären Mustern: Anwendung auf die Gesichtserkennung. 2004), dass der Chi-Quadrat-Abstand besser abschneidet als der Histogrammschnitt und die Log-Likelihood-Statistik.

Die Autoren zeigen auch eine Formel für den Chi-Quadrat-Abstand:

i=1n(xiyi)2(xi+yi)

Wobei eine Anzahl von Fächern ist, ein Wert des ersten ist , ein Wert des zweiten Fachs ist.x i y inxiyi

In einigen Untersuchungen (zum Beispiel Die Familie der quadratischen Chi-Histogramm-Entfernungen) habe ich gesehen, dass die Formel der Chi-Quadrat-Entfernung lautet:

12i=1n(xiyi)2(xi+yi)

Und dort http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm sehe ich, dass die Formel der Chi-Quadrat-Entfernung ist:

i=1n(xiyi)2yi

Ich bin dabei geblieben. Ich habe mehrere Fragen:

  1. Welchen Ausdruck soll ich verwenden?
  2. Wie soll ich ein Ergebnis der Differenz interpretieren? Ich weiß, dass ein Unterschied von 0 bedeutet, dass beide Histogramme gleich sind. Wie kann ich jedoch feststellen, ob beide Histogramme völlig unterschiedlich sind? Muss ich dafür einen Chi-Square-Tisch verwenden? Oder muss ich eine Schwelle verwenden? Grundsätzlich möchte ich Unterschiede in Prozent abbilden.
  3. Warum sind diese drei Ausdrücke unterschiedlich?
Anton Holovin
quelle
Ist yi nicht der Wert desselben Fachs wie xi, sondern in der Komparatorverteilung, und nicht ein zweites Fach?
ReneBt

Antworten:

7

@Silverfish hat um eine Erweiterung der Antwort von PolatAlemdar gebeten, die nicht gegeben wurde, deshalb werde ich versuchen, sie hier zu erweitern.

Warum der Name chisquare distance? Der Chi - Quadrat - Test für Kreuztabellen basiert auf so die Idee ist , diese Form zu halten und es als verwenden Abstandsmaß. Dies ergibt die dritte Formel des OP, wobei als Beobachtung und als Erwartung interpretiert wird , was den Kommentar von PolatAlemdar "Es wird in diskreten Wahrscheinlichkeitsverteilungen verwendet" erklärt, wie zum Beispiel bei Anpassungsgütetests. Diese dritte Form ist keine Distanzfunktion, da sie in den Variablen und asymmetrisch ist . Für den Histogrammvergleich wollen wir eine Abstandsfunktion, die in und symmetrisch ist xiyixyxy1

χ2=cells(OiEi)2Ei
xiyixyxyund die beiden ersten Formen geben dies. Der Unterschied zwischen ihnen ist nur ein konstanter Faktor , was unwichtig ist, solange Sie nur eine Form konsistent (obwohl die Version mit dem zusätzlichen Faktor besser ist, wenn Sie mit der asymmetrischen Form vergleichen möchten). Beachten Sie die Ähnlichkeit in diesen Formeln mit der euklidischen Quadratdistanz, das ist kein Zufall. Die chisquadratische Distanz ist eine Art gewichtete euklidische Distanz. Aus diesem Grund werden die Formeln im OP normalerweise unter ein Wurzelzeichen gesetzt, um Entfernungen zu erhalten . Im Folgenden folgen wir diesem. 11212

Chisquare distance wird auch in der Korrespondenzanalyse verwendet. Um die Beziehung zu der dort verwendeten Form zu sehen, sei die Zelle einer Kontingenztabelle mit Zeilen und Spalten. Die Zeilensummen bezeichnen wir mit und die Spaltensummen mit . Der Quadratabstand zwischen den Zeilen ist gegeben durch In dem Fall mit nur zwei Zeilen (den zwei Histogrammen) wird die erste Formel des OP (Modulo des Grundzeichens) wiederhergestellt. R C x + j = Σ i x i j x i + = Σ j x i j l , k χ 2 ( l , k ) = xijRCx+j=ixijxi+=jxijl,k

χ2(l,k)=j1x+j(xljxl+xkjxk+)2
EDIT

Antwort auf Frage in Kommentaren unten: Ein Buch mit langen Diskussionen über die chisquare distance ist "CORRESPONDENCE ANALYSIS in PRACTICE (Second Edition)" von Michael Greenacre (Chapman & Hall). Es ist ein gut etablierter Name, der von seiner Ähnlichkeit mit chisquare herrührt, wie er in Kontingenztabellen verwendet wird. Welche Distribution hat es? Ich habe das noch nie studiert, aber wahrscheinlich (unter bestimmten Umständen ...) hätte es ungefähr eine chisquare-Verteilung. Beweise sollten ähnlich sein wie bei Kontingenztabellen, die meiste Literatur zur Korrespondenzanalyse befasst sich nicht mit der Verteilungstheorie. Ein Artikel mit einer möglicherweise relevanten Theorie ist http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Siehe auch/stats//search?q=%22chisquare+distance%22 für einige andere relevante Beiträge auf dieser Site.

kjetil b halvorsen
quelle
Kann ich fragen, warum Ihre letzte Gleichung chisquare distance heißt? Ist es als solches verbreitet? Können Sie bitte eine Ableitung oder einen Link zu einer bereitstellen? Ich kann anscheinend keinen finden.
LeastSquaresWonderer
1
Siehe meine Änderungen oben.
kjetil b halvorsen
3

Ich fand diesen Link sehr nützlich: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

Ich bin mir nicht ganz sicher, warum, aber OpenCV verwendet die dritte Formel, die Sie für den Chi-Quadrat-Histogramm-Vergleich auflisten.

In Bezug auf die Bedeutung bin ich nicht sicher, ob ein Messalgorithmus Ihnen einen begrenzten Bereich wie 0% bis 100% bietet. Mit anderen Worten, Sie können mit Sicherheit feststellen, dass zwei Bilder gleich sind: ein Korrelationswert von 1,0 oder ein Chi-Quadrat-Wert von 0,0; Es ist jedoch schwierig, den Unterschied zwischen zwei Bildern zu begrenzen: Stellen Sie sich vor, Sie vergleichen ein vollständig weißes Bild mit einem vollständig schwarzen Bild. Der numerische Wert wäre entweder Unendlich oder Nicht-eine-Zahl.

Russell
quelle
2

In der Tat können Sie alles verwenden, was Sie für richtig halten. Der letzte ist anders. Es wird in diskreten Wahrscheinlichkeitsverteilungen verwendet, da die letzte symmetrisch ist, wenn Sie und vertauschen .yxy

Die anderen beiden werden zur Berechnung der Histogrammähnlichkeiten verwendet.

PolatAlemdar
quelle
1
Vielleicht möchten Sie diese Antwort ein wenig erweitern, um zu erklären, wie die anderen beiden zur Berechnung von Histogramm-Ähnlichkeiten verwendet werden können. Beachten Sie, dass Sie Ihrer Antwort mithilfe von Dollarzeichen in Latex einen mathematischen Schriftsatz hinzufügen können: $x$Erzeugt beispielsweise . x
Silberfischchen
2
Sie müssen erklären, in welchem ​​Sinne das dritte in und symmetrisch ist, da es nicht so aussieht. yxy
Mdewey
0

Wie OP verlangt, der Wert in Prozent (für Gleichung 1):

p=χS100N

Dabei ist der Prozentsatz der Differenz (0..100). ist das Ergebnis von Gleichung 1. ist die Anzahl der Fächer im Histogramm. ist der maximal mögliche Wert in der Tonne.χ N SpχNS

Wird wie gewünscht ergänzt:

Wenn man diese Gleichung berechnet, kann man den Prozentsatz der Differenz von einem vollständigen Histogramm haben. Wenn man dies für beide Histogramme berechnet und dann voneinander subtrahiert, kann man die prozentuale Differenz haben.

Carlos Barcellos
quelle
2
Es fällt mir schwer zu verstehen, wie dies eine Antwort auf eine der Fragen ist. Können Sie näher darauf eingehen?
The Laconic
Dies gibt (in Prozent, wie gewünscht) an, wie unterschiedlich ein Histogramm von einem vollständigen Histogramm ist. Wenn Sie diese Gleichung aus beiden Histogrammen berechnen, kennen wir den Unterschied zwischen den beiden, der für die Triangulation verwendet wird.
Carlos Barcellos