Warum ist der Bayes-Klassifikator der ideale Klassifikator?

11

Es wird als idealer Fall angesehen, in dem die den Kategorien zugrunde liegende Wahrscheinlichkeitsstruktur perfekt bekannt ist.

Warum erzielen wir mit dem Bayes-Klassifikator die beste Leistung, die erzielt werden kann?

Was ist der formale Beweis / die Erklärung dafür? Da wir immer den Bayes-Klassifikator als Benchmark verwenden, um die Leistung aller anderen Klassifikatoren zu vergleichen.

Vatsal
quelle

Antworten:

9

Warum erzielen wir mit dem Bayes-Klassifikator die beste Leistung, die erzielt werden kann? Was ist der formale Beweis / die Erklärung dafür?

Normalerweise besteht ein Datensatz D aus n iid Stichproben xi einer Verteilung, die Ihre Daten generiert. Dann bauen Sie ein Vorhersagemodell aus den gegebenen Daten: Bei einer Probe xi , die Klasse vorhersagen f ( x i ) , während die wirkliche Klasse der Probe ist f ( x i ) .f^(xi)f(xi)

Doch in der Theorie könnten Sie sich entscheiden , nicht ein bestimmtes Modell wählen f gewählt , sondern betrachten alle möglichen Modelle f auf einmal und sie irgendwie miteinander kombinieren großen Modell F .f^chosenf^F^

Angesichts der Daten können viele der kleineren Modelle natürlich sehr unwahrscheinlich oder unangemessen sein (z. B. Modelle, die nur einen Wert des Ziels vorhersagen, obwohl Ihr Datensatz D mehrere Werte des Ziels enthält ).

In jedem Fall möchten Sie den Zielwert neuer Stichproben vorhersagen, die aus derselben Verteilung wie xi s stammen. Ein gutes Maß e von der Leistung des Modells wäre

e(model)=P[f(X)=model(X)],
dh die Wahrscheinlichkeit , dass Sie den wahren Zielwert für ein zufällig abgetastet vorhersagen X .

Mit der Bayes-Formel können Sie berechnen, wie hoch die Wahrscheinlichkeit ist, dass eine neue Stichprobe x angesichts der Daten D den Zielwert v hat :D

P(vD)=f^P(vf^)P(f^D).
Das sollte man betonen

  • üblicherweise P(vf^) ist entweder 0 oder 1 , da f eine deterministische Funktion ist x ,f^x
  • nicht in der Regel, aber fast die ganze Zeit, es unmöglich ist , zu schätzen , P(f^D) ( mit Ausnahme der oben genannten trivialen Fälle),
  • nicht in der Regel, aber fast die ganze Zeit, die Anzahl der möglichen Modelle f ist zu groß, für die obere Summe ausgewertet werden.f^

Daher ist es in den meisten Fällen sehr schwierig, P(vD) zu erhalten / abzuschätzen .

Nun fahren wir mit dem Optimal Bayes-Klassifikator fort. Für eine gegebene x , prognostiziert er den Wert v = argmax v Σ f P ( v | f ) P ( f | D ) . Da dies der wahrscheinlichste Wert unter allen möglichen Zielwerte v maximiert die optimale Bayes - Klassifikator die Leistungsmessung e ( f ) .

v^=argmaxvf^P(vf^)P(f^D).
ve(f^)

Da wir immer den Bayes-Klassifikator als Benchmark verwenden, um die Leistung aller anderen Klassifikatoren zu vergleichen.

Wahrscheinlich verwenden Sie die naive Version des Bayes-Klassifikators. Es ist einfach zu implementieren, funktioniert die meiste Zeit recht gut, berechnet jedoch nur eine naive Schätzung von P(vD) .

Antoine
quelle
Ist der Bayes-Klassifikator (nicht naive Bayes) der gleiche wie der optimale Bayes-Klassifikator? und ist die vorherige Wahrscheinlichkeit? P(v|f)
RuiQi
@RuiQi Ich glaube nicht, dass es so etwas wie den Bayes-Klassifikator gibt. Mir ist der naive Bayes-Klassifikator und der optimale Bayes-Klassifikator bekannt.
Antoine
@RuiQi ist die Wahrscheinlichkeit , dass eine Probe klassifiziert werden in die Klasse fallen v , wenn wir prädiktive Modell verwenden f . Ich denke, Sie können es vorherige Wahrscheinlichkeit nennen. P(vf^)vf^
Antoine
0

CTCP

Sie können diese Wahrscheinlichkeit als Integral über alle möglichen Situationen des Merkmalsvektors ausdrückenXXx

P(CT=CP)=all possible Xf(x)P(CT=CP|x)dx

f(x)X

x

x (the term P(CT=CP|x) is maximum), thus can not be improved upon, at least not based on the features x.

Sextus Empiricus
quelle