Warum erzielen wir mit dem Bayes-Klassifikator die beste Leistung, die erzielt werden kann? Was ist der formale Beweis / die Erklärung dafür?
Normalerweise besteht ein Datensatz D aus n iid Stichproben xi einer Verteilung, die Ihre Daten generiert. Dann bauen Sie ein Vorhersagemodell aus den gegebenen Daten: Bei einer Probe xi , die Klasse vorhersagen f ( x i ) , während die wirkliche Klasse der Probe ist f ( x i ) .f^(xi)f(xi)
Doch in der Theorie könnten Sie sich entscheiden , nicht ein bestimmtes Modell wählen f gewählt , sondern betrachten alle möglichen Modelle f auf einmal und sie irgendwie miteinander kombinieren großen Modell F .f^chosenf^F^
Angesichts der Daten können viele der kleineren Modelle natürlich sehr unwahrscheinlich oder unangemessen sein (z. B. Modelle, die nur einen Wert des Ziels vorhersagen, obwohl Ihr Datensatz D mehrere Werte des Ziels enthält ).
In jedem Fall möchten Sie den Zielwert neuer Stichproben vorhersagen, die aus derselben Verteilung wie xi s stammen. Ein gutes Maß e von der Leistung des Modells wäre
e(model)=P[f(X)=model(X)],
dh die Wahrscheinlichkeit , dass Sie den wahren Zielwert für ein zufällig abgetastet vorhersagen X .
Mit der Bayes-Formel können Sie berechnen, wie hoch die Wahrscheinlichkeit ist, dass eine neue Stichprobe x angesichts der Daten D den Zielwert v hat :D
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
Das sollte man betonen
- üblicherweise P(v∣f^) ist entweder 0 oder 1 , da f eine deterministische Funktion ist x ,f^x
- nicht in der Regel, aber fast die ganze Zeit, es unmöglich ist , zu schätzen , P(f^∣D) ( mit Ausnahme der oben genannten trivialen Fälle),
- nicht in der Regel, aber fast die ganze Zeit, die Anzahl der möglichen Modelle f ist zu groß, für die obere Summe ausgewertet werden.f^
Daher ist es in den meisten Fällen sehr schwierig, P(v∣D) zu erhalten / abzuschätzen .
Nun fahren wir mit dem Optimal Bayes-Klassifikator fort. Für eine gegebene x , prognostiziert er den Wert
v = argmax v Σ f P ( v | f ) P ( f | D ) .
Da dies der wahrscheinlichste Wert unter allen möglichen Zielwerte v maximiert die optimale Bayes - Klassifikator die Leistungsmessung e ( f ) .v^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Da wir immer den Bayes-Klassifikator als Benchmark verwenden, um die Leistung aller anderen Klassifikatoren zu vergleichen.
Wahrscheinlich verwenden Sie die naive Version des Bayes-Klassifikators. Es ist einfach zu implementieren, funktioniert die meiste Zeit recht gut, berechnet jedoch nur eine naive Schätzung von P(v∣D) .
Sie können diese Wahrscheinlichkeit als Integral über alle möglichen Situationen des Merkmalsvektors ausdrückenX X x
quelle