Ich habe den anderen Thread hier gesehen, aber ich glaube nicht, dass die Antwort die eigentliche Frage befriedigt hat. Was ich immer wieder gelesen habe, ist, dass Naive Bayes ein linearer Klassifikator (z. B. hier ) ist (so dass er eine lineare Entscheidungsgrenze zeichnet), der die Log Odds-Demonstration verwendet.
Ich simulierte jedoch zwei Gaußsche Wolken und passte eine Entscheidungsgrenze an und erhielt die Ergebnisse als solche (Bibliothek e1071 in r, mit naiveBayes ())
Wie wir sehen können, ist die Entscheidungsgrenze nicht linear. Versucht es zu sagen, dass die Parameter (bedingte Wahrscheinlichkeiten) eine lineare Kombination im Protokollraum sind, anstatt zu sagen, dass der Klassifizierer selbst Daten linear trennt?
classification
naive-bayes
Kevin Pei
quelle
quelle
Antworten:
Im Allgemeinen ist der naive Bayes-Klassifikator nicht linear, aber wenn die Wahrscheinlichkeitsfaktoren aus Exponentialfamilien stammen , entspricht der naive Bayes-Klassifikator einem linearen Klassifikator in einem bestimmten Merkmalsraum. Hier ist, wie man das sieht.p(xi∣c)
Sie können jeden naiven Bayes-Klassifikator schreiben als *
Dabei ist die logistische Funktion . Wenn p ( x i ∣ c ) aus einer Exponentialfamilie stammt, können wir es schreiben alsσ p(xi∣c)
und daher
woher
Beachten Sie, dass dies ähnlich ist logistische Regression - ein linearer Klassifikator - in dem Merkmalsraum definiert durch die . Für mehr als zwei Klassen erhalten wir analog eine multinomiale logistische (oder Softmax-) Regression .ϕi
Angenommen, .p(c=1)=p(c=0)=12
* So leiten Sie dieses Ergebnis ab:
quelle
It is linear only if the class conditional variance matrices are the same for both classes. To see this write down the ration of the log posteriors and you'll only get a linear function out of it if the corresponding variances are the same. Otherwise it is quadratic.
quelle
I'd like add one additional point: the reason for some of the confusion rests on what it means to be performing "Naive Bayes classification".
Under the broad topic of "Gaussian Discriminant Analysis (GDA)" there are several techniques: QDA, LDA, GNB, and DLDA (quadratic DA, linear DA, gaussian naive bayes, diagonal LDA). [UPDATED] LDA and DLDA should be linear in the space of the given predictors. (See, e.g., Murphy, 4.2, pg. 101 for DA and pg. 82 for NB. Note: GNB is not necessarily linear. Discrete NB (which uses a multinomial distribution under the hood) is linear. You can also check out Duda, Hart & Stork section 2.6). QDA is quadratic as other answers have pointed out (and which I think is what is happening in your graphic - see below).
These techniques form a lattice with a nice set of constraints on the "class-wise covariance matrices"Σc :
While the docs for e1071 claim that it is assuming class-conditional independence (i.e., GNB), I'm suspicious that it is actually doing QDA. Some people conflate "naive Bayes" (making independence assumptions) with "simple Bayesian classification rule". All of the GDA methods are derived from the later; but only GNB and DLDA use the former.
A big warning, I haven't read the e1071 source code to confirm what it is doing.
quelle