Andrew More definiert Informationsgewinn als:
wobei die bedingte Entropie ist . Wikipedia nennt die oben genannte Menge jedoch gegenseitige Informationen .
Wikipedia hingegen definiert Informationsgewinn als die Kullback-Leibler-Divergenz (auch bekannt als Informationsdivergenz oder relative Entropie) zwischen zwei Zufallsvariablen:
wobei als die Kreuzentropie definiert ist .
Diese beiden Definitionen scheinen nicht miteinander übereinzustimmen.
Ich habe auch andere Autoren gesehen, die über zwei weitere verwandte Konzepte gesprochen haben, nämlich differentielle Entropie und relativen Informationsgewinn.
Was ist die genaue Definition oder Beziehung zwischen diesen Größen? Gibt es ein gutes Lehrbuch, das sie alle behandelt?
- Informationsgewinn
- Gegenseitige Information
- Kreuzentropie
- Bedingte Entropie
- Differenzielle Entropie
- Relativer Informationsgewinn
information-theory
Amelio Vazquez-Reina
quelle
quelle
Antworten:
Ich denke, dass es keine Norm ist, die Kullback-Leibler-Divergenz "Informationsgewinn" zu nennen.
Die erste Definition ist Standard.
EDIT: kann jedoch auch als gegenseitige Information bezeichnet werden.H(Y)−H(Y|X)
Beachten Sie, dass Sie meines Erachtens keine wissenschaftliche Disziplin finden, die wirklich ein standardisiertes, präzises und konsistentes Benennungsschema hat. Sie müssen sich also immer die Formeln ansehen, da sie Ihnen in der Regel eine bessere Vorstellung geben.
Lehrbücher: siehe "Gute Einführung in verschiedene Arten von Entropie" .
Auch: Cosma Shalizi: Methoden und Techniken der Komplexen Systemwissenschaft: Ein Überblick, Kapitel 1 (S. 33–114) in Thomas S. Deisboeck und J. Yasha Kresh (Hrsg.), Komplexe Systemwissenschaft in der Biomedizin http: // arxiv.org/abs/nlin.AO/0307015
Robert M. Gray: Entropie- und Informationstheorie http://ee.stanford.edu/~gray/it.html
David MacKay: Informationstheorie, Inferenz und Lernalgorithmen http://www.inference.phy.cam.ac.uk/mackay/itila/book.html
auch "Was ist" Entropie und Informationsgewinn "?"
quelle
quelle
Mutual information can be defined using Kullback-Liebler as
quelle
Extracting mutual information from textual datasets as a feature to train machine learning model: ( the task was to predict age, gender and personality of bloggers)
quelle
Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.
Firstly:MIMutualInformation≡ IGInformationGain≡IInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.
The second point is the relation between the Kullback–Leibler divergence-DKL , and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD , where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.
The third point to clarify is the inconsistent, though standard notation being used, namely thatH(X,Y)
is both the notation for Joint entropy and for Cross-entropy as well.
So, for example, in the definition of Information:I(X;Y)≡H(X)−H(X|Y)≡H(Y)−H(Y|X)≡H(X)+H(Y)−H(X,Y)≡H(X,Y)−H(X|Y)−H(Y|X)
in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however:
DKL(P||Q)=H(P,Q)−H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).
Joint-entropy and Cross-entropy are NOT the same.
Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered -Hq(p)
I would hope to see this notation accepted and the wiki-pages updated.
quelle