Implementierung von Naive Bayes

Ich implementiere einen Naive Bayes-Algorithmus für die Textkategorisierung mit Laplace-Glättung. Das Problem, das ich habe, ist, dass sich die Wahrscheinlichkeit Null nähert, weil ich viele kleine Brüche multipliziere. Daher ergibt die Wahrscheinlichkeit schließlich Null. Dies liegt daran, dass die Dokumente und Schulungssätze mehrere Wörter enthalten.

Aus diesem Grund kann ich die Texte nicht kategorisieren. Gibt es eine Möglichkeit, dieses Problem zu umgehen? Mache ich bei meiner Implementierung etwas falsch?

machine-learning natural-language-processing floating-point numerical-algorithms Sam
quelle

... Sie könnten Gleitkomma-Arithmetik vermeiden.

msdn.microsoft.com/en-us/magazine/jj891056.aspx Hier finden Sie eine einfache Antwort.

Roshan Mehta

Antworten:

\log \prod_{i = 1}^{n} p_{i} = \sum_{i = 1}^{n} \log p_{i} .

$\log \prod_{i=1}^n p_i = \sum_{i=1}^n \log p_i.$

$p$ $p_0 \in [1,2)$ $x$ $p = p_0 2^x$

Yuval Filmus
quelle

Es ist auch nützlich, den logsumexp-Trick in diesem Zusammenhang zu beachten: en.wikipedia.org/wiki/LogSumExp

Bitwise