Ich habe über die Intuition hinter der KL-Divergenz gelernt, wie sehr sich eine Modellverteilungsfunktion von der theoretischen / wahren Verteilung der Daten unterscheidet. Die Quelle, die ich lese, sagt weiter, dass das intuitive Verständnis der Distanz zwischen diesen beiden Verteilungen hilfreich ist, aber nicht wörtlich genommen werden sollte, da für zwei Verteilungen und die KL-Divergenz in und nicht symmetrisch ist .
Ich bin mir nicht sicher, wie ich die letzte Aussage verstehen soll, oder bricht hier die Intuition von "Distanz" zusammen?
Ich würde mich über ein einfaches, aber aufschlussreiches Beispiel freuen.
Antworten:
Ein (metrischer) AbstandD muss symmetrisch sein, dh D(P,Q)=D(Q,P) . Aber laut Definition ist KL nicht.
Beispiel:Ω={A,B} , P(A)=0.2,P(B)=0.8 , Q(A)=Q(B)=0.5 .
Wir haben:
und
somit ist und daher ist K L keine (metrische) Entfernung.KL(P,Q)≠KL(Q,P) KL
quelle
Zu den anderen hervorragenden Antworten kommt eine Antwort mit einem anderen Gesichtspunkt hinzu, der vielleicht etwas mehr Intuition hinzufügen kann, als gewünscht wurde.
Die Kullback-Leibler - Divergenz ist
Dies hängt mit meiner Antwort hier zusammen: Warum sollten wir t-Fehler anstelle von normalen Fehlern verwenden?
quelle
Ich habe dieses Beispiel mit Absicht eingeführt. Stellen wir uns vor, Sie werfen ein paar Münzen, z. B. 100 Mal. Solange diese Münzen unverfälscht sind, würden Sie einfach das Werfen von Ergebnissen mit einer Folge von 0-1 Bits (1 Kopf, 0 Schwanz) codieren. In einer solchen Situation, in der die Wahrscheinlichkeit von Kopf gleich der Wahrscheinlichkeit von Schwanz und gleich 0,5 ist, ist das eine ziemlich effektive Kodierung. Jetzt haben wir einige voreingenommene Münzen, also würden wir eher wahrscheinliche Ergebnisse mit kürzerem Code codieren, z. B. Gruppen von Köpfen und Schwänzen zusammenführen und Folgen von k Köpfen mit längerem Code darstellen als Folgen von k Schwänzen (sie sind wahrscheinlicher). Und hier tritt die Kullback-Leibler-Divergenz auf. Wenn P die wahre Verteilung der Ergebnisse darstellt und Q nur eine Näherung von P ist, dann istD ( P | | Q )D(P||Q) D(P||Q) bezeichnet die Strafe, die Sie zahlen, wenn Sie Ergebnisse, die tatsächlich von P distrib stammen, mit einer für Q bestimmten Codierung codieren (Strafe im Sinne der zusätzlichen Bits, die Sie verwenden müssen).
Wenn Sie einfach eine Metrik benötigen, verwenden Sie den Bhattacharyya-Abstand (natürlich die geänderte Version ).1−[∑xp(x)q(x)−−−−−−−√]−−−−−−−−−−−−−−−√
quelle
Ich bin hier versucht, eine rein intuitive Antwort auf Ihre Frage zu geben. Wenn Sie Ihre Aussagen umformulieren, können Sie mit der KL-Divergenz den Abstand zwischen zwei Verteilungen messen, so wie Sie den Abstand zwischen zwei Datensätzen in einem Hilbert-Raum berechnen würden. Vorsicht ist jedoch geboten.
Warum? Die KL-Divergenz ist keine Distanz, wie Sie sie normalerweise verwenden, wie zum Beispiel die Norm. Tatsächlich ist es positiv und genau dann gleich Null, wenn die beiden Verteilungen gleich sind (wie in den Axiomen für die Definition eines Abstands). Aber wie gesagt, es ist nicht symmetrisch. Es gibt Möglichkeiten, dies zu umgehen, aber es ist sinnvoll, dass es nicht symmetrisch ist.L2
Tatsächlich definiert die KL-Divergenz den Abstand zwischen einer Modellverteilung (die Sie tatsächlich kennen) und einer theoretischen Verteilung so dass es sinnvoll ist, unterschiedlich mit (der "theoretische" Abstand von zu unter der Annahme der Modell ) und (der "empirische" Abstand von zu Annahme der Daten ), da sie ganz unterschiedliche Maße bedeuten.PQ P KL(P,Q) P Q P KL(Q,P) P Q Q
quelle
Das Lehrbuch Elemente der Informationstheorie gibt uns ein Beispiel:
Um die obige Aussage zu paraphrasieren, können wir sagen, dass wir, wenn wir die Informationsverteilung (von q nach p) ändern, im Durchschnitt D (p || q) zusätzliche Bits benötigen, um die neue Verteilung zu codieren.
Eine Illustration
Lassen Sie mich dies anhand einer Anwendung in der Verarbeitung natürlicher Sprache veranschaulichen.
Bedenken Sie, dass eine große Gruppe von Menschen, die mit B bezeichnet, sind Vermittler und jeder von ihnen zugeordnet ist eine Aufgabe , ein Substantiv zu wählen
turkey
,animal
undbook
und Sende es C. Es ist ein Typ Name A , die jeder von ihnen eine E - Mail zu geben senden kann ihnen ein paar Hinweise. Wenn niemand in der Gruppe die E-Mail erhalten hat, können sie die Augenbrauen hochziehen und eine Weile zögern, darüber nachzudenken, was C benötigt. Die Wahrscheinlichkeit, dass eine Option ausgewählt wird, beträgt 1/3. Allgemein gleichmäßige Verteilung (wenn nicht, kann es sich auf ihre eigenen Vorlieben beziehen und wir ignorieren solche Fälle einfach).Aber wenn ihnen ein Verb gegeben wird, wie
baste
, können 3/4 von ihnen wählenturkey
und 3/16 wählenanimal
und 1/16 wählenbook
. Wie viele Informationen in Bits hat dann jeder der Mediatoren im Durchschnitt erhalten, wenn er das Verb kennt? Es ist:Aber was ist, wenn das angegebene Verb ist
read
? Wir können uns vorstellen, dass alle von ihnenbook
ohne zu zögern wählen würden, dann ist der durchschnittliche Informationsgewinn für jeden Mediator aus dem Verbread
:read
den Mediatoren mehr Informationen geben kann. Und genau das kann die relative Entropie messen.Lass uns unsere Geschichte fortsetzen. Wenn C vermutet, dass das Substantiv falsch ist, weil A ihm mitgeteilt hat, dass er möglicherweise einen Fehler gemacht hat, indem er das falsche Verb an die Mediatoren gesendet hat. Wie viele Informationen in Bits kann eine solche schlechte Nachricht dann C geben?
1) wenn das von A gegebene Verb war
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
baste
:2) aber was, wenn das Verb warD(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
read
?Da C nie weiß, wie die beiden anderen Substantive lauten würden, wäre jedes Wort im Wortschatz möglich.
Wir können sehen, dass die KL-Divergenz asymmetrisch ist.
Ich hoffe, ich habe recht, und wenn nicht, kommentieren Sie bitte und helfen Sie, mich zu korrigieren. Danke im Voraus.
quelle