Wie wird festgestellt, dass ein Klassifikator eine hohe Verzerrung oder Varianz aufweist?

7

Die Verzerrung und Varianz eines Klassifikators bestimmt den Grad, in dem er die Daten unter- bzw. überanpassen kann. Wie könnte man einen Klassifikator bestimmen, der als hohe Verzerrung oder hohe Varianz charakterisiert werden soll?

Ich bin mir ziemlich klar darüber, was ein Bias-Varianz-Kompromiss und seine Zerlegung ist und wie er von den Trainingsdaten und dem Modell abhängen könnte. Wenn die Daten beispielsweise nicht genügend Informationen in Bezug auf die Zielfunktion enthalten (um es einfach auszudrücken, fehlende Stichproben), würde der Klassifizierer aufgrund der möglichen falschen Annahmen, die er treffen würde, eine hohe Verzerrung erfahren. Im Gegenteil, wenn der Klassifikator genau zu den gegebenen Trainingsdaten passt (z. B. ein ANN mit vielen Knoten, die mehrere Epochen ausführen, oder ein Entscheidungsbaum mit einer hohen Tiefe), würde er eine hohe Varianz aufweisen, da er nicht gut verallgemeinern kann, um unsichtbares vorherzusagen Proben.

Es gibt jedoch Fälle, in denen in Vorlesungen über die Auswahl eines Klassifikators mit niedriger Abweichung und hoher Varianz oder eines Klassifikators mit niedriger Abweichung und hoher Varianz gesprochen wird. Zum Beispiel wird naiver Bayes als ein Klassifikator mit hoher Abweichung und hoher Varianz angesehen (ich nehme an, dass dies auf die Annahme der bedingten Unabhängigkeit zurückzuführen ist). Wie kann man das feststellen? Wie wird man also SVM, ID3, Random Forests und charakterisieren?kNN? Sind sie eine hohe Verzerrung oder eine hohe Varianz?

Ébe Isaac
quelle

Antworten:

2

Ich nehme an, Sie interessieren sich für die intrinsische Qualität eines Algorithmus. Dies ist eine nicht triviale Frage und das Thema aktiver Forschung.

Grenzen der Verzerrung und Varianz eines Algorithmus können durch den Begriff der algorithmischen Stabilität bewiesen werden - siehe:

Das Arizona-Papier zeigt den Beweis für K-NN- und 1-NN-Algorithmen, der nahezu unvoreingenommen ist (Seite 4). Sie müssen in die anderen Artikel für andere Arten von Algorithmen lesen. Beachten Sie, dass noch nicht alle Algorithmen Beweise haben und dass es viele verschiedene Formen der Stabilität mit ihren entsprechenden Grenzen gibt.

Ein anderer (aber verwandter) Ansatz besteht darin, die VC-Theorie https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_theory zu untersuchen

Xavier Bourret Sicotte
quelle