Ohne Quellenangabe definiert Wikipedia die Kreuzentropie der diskreten Verteilungen und alsQ
Wer hat als Erster mit dieser Menge begonnen? Und wer hat diesen Begriff erfunden? Ich schaute in:
JE Shore und RW Johnson, "Axiomatische Ableitung des Prinzips der maximalen Entropie und des Prinzips der minimalen Kreuzentropie", Information Theory, IEEE Transactions on, vol. 26, nein. 1, S. 26-37, Januar 1980.
Ich folgte ihrer Einführung in
A. Wehrl, "Allgemeine Eigenschaften der Entropie", Reviews of Modern Physics, vol. 50, nein. 2, S. 221-260, April 1978.
wer benutzt den Begriff nie.
Auch nicht
S. Kullback und R. Leibler, "Über Information und Suffizienz", The Annals of Mathematical Statistics, vol. 22, nein. 1, S. 79-86, 1951.
Ich habe reingeschaut
TM Cover und JA Thomas, Elemente der Informationstheorie (Wiley-Reihe in Telekommunikation und Signalverarbeitung). Wiley-Interscience, 2006.
und
I. Good, "Maximale Entropie für die Formulierung von Hypothesen, insbesondere für mehrdimensionale Kontingenztabellen", The Annals of Mathematical Statistics, vol. 34, nein. 3, S. 911-934, 1963.
Beide Arbeiten definieren Kreuzentropie als Synonym für KL-Divergenz.
Das Originalpapier
CE Shannon, "Eine mathematische Theorie der Kommunikation", Bell System Technical Journal, vol. 27, 1948.
Erwähnt keine Kreuzentropie (und hat eine seltsame Definition von "relativer Entropie": "Das Verhältnis der Entropie einer Quelle zu dem Maximalwert, den sie haben könnte, während sie noch auf dieselben Symbole beschränkt ist").
Schließlich sah ich in ein paar alten Büchern und Papieren von Tribus nach.
Weiß jemand, wie die obige Gleichung heißt und wer sie erfunden hat oder eine schöne Darstellung davon hat?
quelle
Dank des Vorschlags von @ Itamar fand ich eine Erwähnung in:
IJ Good, "Etwas Terminologie und Notation in der Informationstheorie", Proceedings of the IEE - Part C: Monographs, vol. 103, nein. 3, S. 200-204, März 1956.
Es wäre immer noch sehr nützlich für mich, eine schöne Darstellung der Kreuzentropie zu finden.
quelle
Vielen Dank dafür - eine gute Zusammenfassung der Hintergrundliteratur. Der Artikel von Shore and Johnson aus dem Jahr 1980 in IEEE ist ein guter Anfang, aber @itamars Verweis auf die gute Monografie von 1956 ist noch besser. Das Konzept scheint aus Shannons Arbeit zu stammen, wobei Kullback & Leiblers AMS-Note von 1951 der Ursprung der gegenwärtigen Verwendung des Begriffs ist. Soweit sich der Ursprung des Begriffs "Kreuzentropie" auf künstliche neuronale Netze bezieht, gibt es einen Begriff, der in einer Veröffentlichung in Science, eingereicht 1994, veröffentlicht 1995, von GE Hinton, P. Dayan, BJ Frey & RM Neal, in Wobei es eine frühe Verwendung des Begriffs "Hemholtz-Maschine" gibt - möglicherweise die erste. URL zum Kopieren: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf In diesem Artikel, "Der Wake-Sleep-Algorithmus für unbeaufsichtigte neuronale Netze", heißt es in der Anmerkung vor Gleichung Nr. 5: "Wenn es viele alternative Möglichkeiten zur Beschreibung eines Eingangsvektors gibt, ist es möglich, ein stochastisches Codierungsschema zu entwerfen, das die Vorteile von nutzt Entropie über alternative Beschreibungen [1]. Die Kosten sind dann: (siehe Papier für Gleichung 5) Der zweite Term ist dann die Entropie der Verteilung, die die Erkennungsgewichte den verschiedenen alternativen Darstellungen zuweisen. Später in der Arbeit wird Gleichung Nr. 5 als Gleichung Nr. 8 umgeschrieben, wobei der letzte Term als die Kullback-Leibler-Divergenz zwischen der anfänglichen Wahrscheinlichkeitsverteilung und der hinteren Wahrscheinlichkeitsverteilung beschrieben wird. In der Arbeit heißt es: "Also für zwei generative Modelle, die d die gleiche Wahrscheinlichkeit zuweisen, ) In diesem Artikel wird der Minimierungsprozess für diesen spezifischen Algorithmus immer noch als Minimierung der Kullback-Leibler-Divergenz beschrieben, aber es sieht so aus, als ob der Begriff "Entropie über alternative Beschreibungen" zu "Kreuzentropie" abgekürzt wurde. Ein numerisches Beispiel für die Kreuzentropie mithilfe von TensorFlow finden Sie hier. Es ist hilfreich: ) In diesem Artikel wird der Minimierungsprozess für diesen spezifischen Algorithmus immer noch als Minimierung der Kullback-Leibler-Divergenz beschrieben, aber es sieht so aus, als ob der Begriff "Entropie über alternative Beschreibungen" zu "Kreuzentropie" abgekürzt wurde. Ein numerisches Beispiel für die Kreuzentropie mithilfe von TensorFlow finden Sie hier. Es ist hilfreich: /programming/41990250/what-is-cross-entropy Beachten Sie, dass die Lösung von CE = 0.47965 einfach abgeleitet wird, indem das natürliche Protokoll der Wahrscheinlichkeit .619 verwendet wird. In dem obigen Beispiel bedeutet die Verwendung einer "One-Hot" -Codierung, dass die beiden anderen Anfangswahrscheinlichkeiten und hinteren Wahrscheinlichkeiten aufgrund der Multiplikation mit einer Nullwert-Anfangswahrscheinlichkeit in der Summe für die Kreuzentropie ignoriert werden.
quelle