Die Verzerrung und Varianz eines Klassifikators bestimmt den Grad, in dem er die Daten unter- bzw. überanpassen kann. Wie könnte man einen Klassifikator bestimmen, der als hohe Verzerrung oder hohe Varianz charakterisiert werden soll?
Ich bin mir ziemlich klar darüber, was ein Bias-Varianz-Kompromiss und seine Zerlegung ist und wie er von den Trainingsdaten und dem Modell abhängen könnte. Wenn die Daten beispielsweise nicht genügend Informationen in Bezug auf die Zielfunktion enthalten (um es einfach auszudrücken, fehlende Stichproben), würde der Klassifizierer aufgrund der möglichen falschen Annahmen, die er treffen würde, eine hohe Verzerrung erfahren. Im Gegenteil, wenn der Klassifikator genau zu den gegebenen Trainingsdaten passt (z. B. ein ANN mit vielen Knoten, die mehrere Epochen ausführen, oder ein Entscheidungsbaum mit einer hohen Tiefe), würde er eine hohe Varianz aufweisen, da er nicht gut verallgemeinern kann, um unsichtbares vorherzusagen Proben.
Es gibt jedoch Fälle, in denen in Vorlesungen über die Auswahl eines Klassifikators mit niedriger Abweichung und hoher Varianz oder eines Klassifikators mit niedriger Abweichung und hoher Varianz gesprochen wird. Zum Beispiel wird naiver Bayes als ein Klassifikator mit hoher Abweichung und hoher Varianz angesehen (ich nehme an, dass dies auf die Annahme der bedingten Unabhängigkeit zurückzuführen ist). Wie kann man das feststellen? Wie wird man also SVM, ID3, Random Forests und charakterisieren?NN? Sind sie eine hohe Verzerrung oder eine hohe Varianz?