Heute bin ich auf das Buch "Informationstheorie: Eine Einführung in ein Tutorial" von James Stone gestoßen und habe ein oder zwei Momente über das Ausmaß der Verwendung der Informationstheorie in der angewandten Datenwissenschaft nachgedacht (wenn Sie mit diesem noch etwas unscharfen Begriff nicht vertraut sind, Denken Sie an Datenanalyse , von der IMHO Data Science eine verherrlichte Version ist. Ich bin mir der bedeutenden Verwendung von auf Informationstheorie basierenden Ansätzen , Methoden und Maßnahmen , insbesondere der Entropie , unter der Haube verschiedener statistischer Techniken und Datenanalysemethoden bewusst .
Ich bin jedoch gespannt auf den Umfang / Wissensstand, den ein angewandter Sozialwissenschaftler benötigt , um diese Konzepte, Maßnahmen und Werkzeuge erfolgreich auszuwählen und anzuwenden , ohne zu tief in die mathematischen Ursprünge der Theorie einzutauchen. Ich freue mich auf Ihre Antworten, die mein Anliegen im Zusammenhang mit dem oben genannten Buch (oder anderen ähnlichen Büchern - Sie können es gerne weiterempfehlen) oder allgemein ansprechen.
Ich würde mich auch über einige Empfehlungen für Print- oder Online-Quellen freuen, die die Informationstheorie und ihre Konzepte, Ansätze, Methoden und Maßnahmen im Kontext (im Vergleich zu) anderen (eher) traditionellen statistischen Ansätzen ( Frequentist und Bayesian ) diskutieren .
quelle
Antworten:
Der erste Teil der Frage: Müssen Datenwissenschaftler die Informationstheorie kennen ? Ich dachte, die Antwort ist bis vor kurzem nein. Der Grund, warum ich es mir anders überlegt habe, ist eine entscheidende Komponente: Lärm.
Viele Modelle des maschinellen Lernens (sowohl stochastisch als auch nicht stochastisch) verwenden Rauschen als Teil ihres Codierungs- und Transformationsprozesses. In vielen dieser Modelle müssen Sie die Wahrscheinlichkeit ableiten, die das Rauschen nach dem Decodieren der transformierten Ausgabe des Modells beeinflusst. Ich denke, dass dies ein zentraler Bestandteil der Informationstheorie ist. Nicht nur, dass beim Deep Learning die KL-Divergenz eine sehr wichtige Maßnahme ist, die auch aus der Informationstheorie stammt.
Zweiter Teil der Frage: Ich denke, die beste Quelle sind David MacKays Algorithmen für Informationstheorie, Inferenz und Lernen . Er beginnt mit der Informationstheorie und nimmt diese Ideen sowohl in Inferenz- als auch in neuronale Netze auf. Das PDF ist kostenlos auf Daves Website und die Vorträge sind online, was großartig ist
quelle