Glätten im Naive Bayes-Modell

Ein Naive Bayes-Prädiktor macht seine Vorhersagen mit dieser Formel:

P (Y. = y | X = x) = α P (Y. = y) \prod_{ich} P (X_{ich} = x_{ich} | Y. = y)

$P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y)$

wobei ein normalisierender Faktor ist. Dies erfordert das Abschätzen der Parameter aus den Daten. Wenn wir dies mit Glättung tun, erhalten wir die Schätzung $\alpha$ $P(X_i=x_i|Y=y)$ $k$

\hat{P} (X_{ich} = x_{ich} | Y. = y) = \frac{# {X_{ich} = x_{ich}, Y. = y} + k}{# {Y. = y} + n_{ich} k}

$\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik}$

wo gibt es mögliche Werte für . Mir geht es gut damit. Für den Prior haben wir jedoch $n_i$ $X_i$

\hat{P} (Y = y) = \frac{# {Y = y}}{N}

$\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N}$

wo gibt es Beispiele in der Datenmenge. Warum glätten wir nicht auch den Prior? Oder besser gesagt, sie glätten wir die vor? Wenn ja, welchen Glättungsparameter wählen wir? Es scheint ein wenig albern, auch zu wählen , da wir eine andere Berechnung durchführen. Gibt es einen Konsens? Oder spielt es keine Rolle zu viel? $N$ $k$

machine-learning probability-theory statistics Chris Taylor
quelle

Antworten:

Der typische Grund für die Glättung ist in erster Linie die Behandlung von Fällen, in denen . Wenn dies nicht geschehen wäre, würden wir immer wenn dies der Fall war. $\#\{X_i = x_i | Y = y\} = 0$ $P(Y=y|X=x) = 0$

Dies passiert zum Beispiel, wenn Sie Textdokumente klassifizieren, bei denen Sie auf ein Wort stoßen, das nicht in Ihren Trainingsdaten enthalten ist oder nur in einer bestimmten Klasse nicht vorkommt.

$P(Y = y)$

$k$

Alt
quelle

Der Grund für die Glättung im Allgemeinen ist die Vermeidung einer Überanpassung der Daten. Der Fall, in dem die Zählung einer Klasse Null ist, ist nur ein besonderer Fall von Überanpassung (der zufällig besonders schlimm ist). Möglicherweise möchten Sie die Wahrscheinlichkeiten noch glätten, wenn jede Klasse beobachtet wird. Die offensichtliche Asymmetrie stört mich vermutlich - Laplace-Glättung entspricht der Annahme, dass Ihr Datensatz zusätzliche Beobachtungen enthält. Warum sollten Sie diese Beobachtungen ignorieren, wenn Sie den Prior anpassen?

Chris Taylor

P (Y = y)

$P(Y = y)$

P (X_{i} = x_{i} | Y = y)

$P(X_i = x_i | Y = y)$

"Diese Situation sollte nicht auftreten. Wenn dies der Fall wäre, würden Sie versuchen, Objekte Klassen zuzuweisen, die nicht einmal in den Trainingsdaten enthalten sind." Ähh ... wie würde ein Klassifikator ein Objekt einer Klasse zuordnen, die er noch nie zuvor gesehen hat (dh nicht in den Trainingsdaten)?

Jemenake

@ Jemenake Das Problem wird normalerweise als Zero-Shot-Lernen bezeichnet, siehe z. B. Zero-Shot-Lernen mit semantischen Ausgabecodes

Alt

Wenn wir das Modell unter Verwendung des Trainingsdatensatzes trainieren, können wir ein Vokabular unter Verwendung der im Trainingsdatensatz vorkommenden Wörter erstellen. Warum also nicht einfach neue Wörter entfernen, die nicht im Vokabular enthalten sind, wenn Vorhersagen für den Testsatz getroffen werden?

Avocado