In meinen Augen ist die KL-Abweichung von der Probenverteilung zur wahren Verteilung einfach der Unterschied zwischen Kreuzentropie und Entropie.
Warum verwenden wir die Kreuzentropie als Kostenfunktion in vielen maschinellen Lernmodellen, verwenden aber die Kullback-Leibler-Divergenz in t-sne? Gibt es einen Unterschied in der Lerngeschwindigkeit?
kullback-leibler
tsne
cross-entropy
JimSpark
quelle
quelle
Antworten:
KL-Divergenz ist ein natürlicher Weg, um den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen zu messen. Die Entropie einer Verteilung p gibt die minimal mögliche Anzahl von Bits pro Nachricht an, die (im Durchschnitt) benötigt würden, um Ereignisse, die aus p gezogen werden, verlustfrei zu codieren . Um diese Grenze zu erreichen, müsste ein optimaler Code für p verwendet werden , der Ereignissen mit höherer Wahrscheinlichkeit kürzere Codewörter zuweist. D K L ( p ∥ q ) kann als die erwartete Anzahl zusätzlicher Bits pro Nachricht interpretiert werden, die zum Codieren von Ereignissen erforderlich sind, die aus der wahren Verteilung p gezogen werdenH(p) p p p DKL(p∥q) p , wenn Sie einen optimalen Code für die Verteilung von anstelle von p verwenden . Es hat einige nette Eigenschaften zum Vergleichen von Verteilungen. Wenn beispielsweise p und q gleich sind, ist die KL-Divergenz 0.q p p q
KL-Divergenz und Kreuzentropie hängen zusammen mit:
van der Maaten und Hinton (2008) . Visualisierung von Daten mit t-SNE.
quelle