Ich möchte zwei Bilder von Gesichtern vergleichen. Ich habe ihre LBP-Histogramme berechnet. Jetzt muss ich diese beiden Histogramme vergleichen und etwas herausfinden, das angibt, wie sehr diese Histogramme gleich sind (0 - 100%).
Es gibt viele Möglichkeiten, diese Aufgabe zu lösen, aber die Autoren der LBP-Methode betonen (Gesichtsbeschreibung mit lokalen binären Mustern: Anwendung auf die Gesichtserkennung. 2004), dass der Chi-Quadrat-Abstand besser abschneidet als der Histogrammschnitt und die Log-Likelihood-Statistik.
Die Autoren zeigen auch eine Formel für den Chi-Quadrat-Abstand:
Wobei eine Anzahl von Fächern ist, ein Wert des ersten ist , ein Wert des zweiten Fachs ist.x i y i
In einigen Untersuchungen (zum Beispiel Die Familie der quadratischen Chi-Histogramm-Entfernungen) habe ich gesehen, dass die Formel der Chi-Quadrat-Entfernung lautet:
Und dort http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm sehe ich, dass die Formel der Chi-Quadrat-Entfernung ist:
Ich bin dabei geblieben. Ich habe mehrere Fragen:
- Welchen Ausdruck soll ich verwenden?
- Wie soll ich ein Ergebnis der Differenz interpretieren? Ich weiß, dass ein Unterschied von 0 bedeutet, dass beide Histogramme gleich sind. Wie kann ich jedoch feststellen, ob beide Histogramme völlig unterschiedlich sind? Muss ich dafür einen Chi-Square-Tisch verwenden? Oder muss ich eine Schwelle verwenden? Grundsätzlich möchte ich Unterschiede in Prozent abbilden.
- Warum sind diese drei Ausdrücke unterschiedlich?
quelle
Antworten:
@Silverfish hat um eine Erweiterung der Antwort von PolatAlemdar gebeten, die nicht gegeben wurde, deshalb werde ich versuchen, sie hier zu erweitern.
Warum der Name chisquare distance? Der Chi - Quadrat - Test für Kreuztabellen basiert auf so die Idee ist , diese Form zu halten und es als verwenden Abstandsmaß. Dies ergibt die dritte Formel des OP, wobei als Beobachtung und als Erwartung interpretiert wird , was den Kommentar von PolatAlemdar "Es wird in diskreten Wahrscheinlichkeitsverteilungen verwendet" erklärt, wie zum Beispiel bei Anpassungsgütetests. Diese dritte Form ist keine Distanzfunktion, da sie in den Variablen und asymmetrisch ist . Für den Histogrammvergleich wollen wir eine Abstandsfunktion, die in und symmetrisch ist xiyixyxy1
Chisquare distance wird auch in der Korrespondenzanalyse verwendet. Um die Beziehung zu der dort verwendeten Form zu sehen, sei die Zelle einer Kontingenztabelle mit Zeilen und Spalten. Die Zeilensummen bezeichnen wir mit und die Spaltensummen mit . Der Quadratabstand zwischen den Zeilen ist gegeben durch In dem Fall mit nur zwei Zeilen (den zwei Histogrammen) wird die erste Formel des OP (Modulo des Grundzeichens) wiederhergestellt. R C x + j = Σ i x i j x i + = Σ j x i j l , k χ 2 ( l , k ) = √xij R C x+j=∑ixij xi+=∑jxij l,k
Antwort auf Frage in Kommentaren unten: Ein Buch mit langen Diskussionen über die chisquare distance ist "CORRESPONDENCE ANALYSIS in PRACTICE (Second Edition)" von Michael Greenacre (Chapman & Hall). Es ist ein gut etablierter Name, der von seiner Ähnlichkeit mit chisquare herrührt, wie er in Kontingenztabellen verwendet wird. Welche Distribution hat es? Ich habe das noch nie studiert, aber wahrscheinlich (unter bestimmten Umständen ...) hätte es ungefähr eine chisquare-Verteilung. Beweise sollten ähnlich sein wie bei Kontingenztabellen, die meiste Literatur zur Korrespondenzanalyse befasst sich nicht mit der Verteilungstheorie. Ein Artikel mit einer möglicherweise relevanten Theorie ist http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Siehe auch/stats//search?q=%22chisquare+distance%22 für einige andere relevante Beiträge auf dieser Site.
quelle
Ich fand diesen Link sehr nützlich: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html
Ich bin mir nicht ganz sicher, warum, aber OpenCV verwendet die dritte Formel, die Sie für den Chi-Quadrat-Histogramm-Vergleich auflisten.
In Bezug auf die Bedeutung bin ich nicht sicher, ob ein Messalgorithmus Ihnen einen begrenzten Bereich wie 0% bis 100% bietet. Mit anderen Worten, Sie können mit Sicherheit feststellen, dass zwei Bilder gleich sind: ein Korrelationswert von 1,0 oder ein Chi-Quadrat-Wert von 0,0; Es ist jedoch schwierig, den Unterschied zwischen zwei Bildern zu begrenzen: Stellen Sie sich vor, Sie vergleichen ein vollständig weißes Bild mit einem vollständig schwarzen Bild. Der numerische Wert wäre entweder Unendlich oder Nicht-eine-Zahl.
quelle
In der Tat können Sie alles verwenden, was Sie für richtig halten. Der letzte ist anders. Es wird in diskreten Wahrscheinlichkeitsverteilungen verwendet, da die letzte symmetrisch ist, wenn Sie und vertauschen .yx y
Die anderen beiden werden zur Berechnung der Histogrammähnlichkeiten verwendet.
quelle
$x$
Erzeugt beispielsweise .Wie OP verlangt, der Wert in Prozent (für Gleichung 1):
Dabei ist der Prozentsatz der Differenz (0..100). ist das Ergebnis von Gleichung 1. ist die Anzahl der Fächer im Histogramm. ist der maximal mögliche Wert in der Tonne.χ N Sp χ N S
Wird wie gewünscht ergänzt:
Wenn man diese Gleichung berechnet, kann man den Prozentsatz der Differenz von einem vollständigen Histogramm haben. Wenn man dies für beide Histogramme berechnet und dann voneinander subtrahiert, kann man die prozentuale Differenz haben.
quelle