Warum ist der naive Bayes-Klassifikator für einen 0: 1-Verlust optimal?

13

Der Naive Bayes-Klassifikator ist der Klassifikator, der Elemente einer Klasse auf der Grundlage der Maximierung des hinteren für die Klassenzugehörigkeit zuordnet und davon ausgeht, dass die Merkmale der Elemente unabhängig sind.C P ( C | x )xCP(C|x)

Der 0-1-Verlust ist der Verlust, der einer Fehlklassifizierung einen Verlust von "1" und einem Verlust von "0" eine korrekte Klassifizierung zuweist.

Ich habe oft gelesen (1), dass der "Naive Bayes" -Klassifikator für den 0-1-Verlust optimal ist. Warum ist das so?

(1) Eine beispielhafte Quelle: Bayes-Klassifikator und Bayes-Fehler


quelle
2
Können Sie einen Hinweis für Ihre Aussage geben, " Ich habe oft gelesen, dass der" Naive Bayes "-Klassifikator für den 0: 1-Verlust optimal ist "? Wie, wo haben Sie diese Art von Erklärung in der Vergangenheit gelesen
Jon
1
bearbeitet, eine exemplarische Quelle hinzugefügt

Antworten:

16

Eigentlich ist das ganz einfach: Bayes - Klassifikator wählt die Klasse , die hat größte a posteriori Wahrscheinlichkeit des Auftretens (sogenannte maximum a posteriori ). Die 0-1-Verlustfunktion bestraft Fehlklassifizierungen, dh sie ordnet den geringsten Verlust der Lösung zu, die die meisten korrekten Klassifizierungen aufweist. So in beiden Fällen sprechen wir über die Schätzung Modus . Erinnern Sie sich, dass der Modus der häufigste Wert im Datensatz oder der wahrscheinlichste Wert ist , sodass sowohl die Maximierung der hinteren Wahrscheinlichkeit als auch die Minimierung des 0-1-Verlusts zur Schätzung des Modus führen.

Wenn Sie einen formellen Beweis benötigen, finden Sie diesen in der Einführung in die Bayesianische Entscheidungstheorie von Angela J. Yu:

Die 0-1-Binärverlustfunktion hat die folgende Form:

lx(s^,s)=1-δs^s={1wenns^s0Andernfalls

Dabei ist die Kronecker-Delta-Funktion. (...) der erwartete Verlust beträgt:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1-δs^s)P(s=sx)=sP(s=sx)ds-sδs^sP(s=sx)=1-P(s=sx)

Dies gilt im Allgemeinen für eine maximale a posteriori-Schätzung. Also , wenn Sie wissen , die posterior Verteilung, dann unter der Annahme , 0-1 Niederlage, die optimalste Klassifikationsregel den Modus der hinteren Verteilung zu nehmen ist, nennen wir dies eine optimale Bayes - Klassifikator . In der Praxis kennen wir die posteriore Verteilung meist nicht, sondern schätzen sie ein. Der Naive Bayes-Klassifikator approximiert den optimalen Klassifikator, indem er die empirische Verteilung betrachtet und die Unabhängigkeit von Prädiktoren voraussetzt. Der naive Bayes-Klassifikator ist selbst nicht optimal, nähert sich jedoch der optimalen Lösung an. In Ihrer Frage scheinen Sie diese beiden Dinge zu verwechseln.

Tim
quelle
Ich denke, ich verstehe: Der formale Beweis wäre also etwas in der Art von Verlust (action_1) = 1-P (action_2 | data) <--- wir möchten dies minimieren. Dies zu minimieren ist dann wieder gleichbedeutend mit dem Maximieren des Priorats der richtigen Klasse (dh Maximieren von P (action_2 | data). Was mich jedoch verwirrt, ist, warum nicht jeder Klassifikator diesbezüglich optimal wäre - da dies die grundlegendste Anforderung zu sein scheint Wenn wir uns also immer dafür entschieden haben, unser Datenmuster der Klasse mit höherem posterioren Wert zuzuweisen, erfüllen wir diese Optimalität dann nicht automatisch?
@ TestGuest überprüfe meine Bearbeitung auf formale Beweise.
Tim
Das ist der komplizierteste Formalismus, den ich für einen solchen Beweis gesehen habe :)) Vielen Dank, aber ich hoffe, dass er auch anderen hilft.