Meine Frage bezieht sich auf den 1-nächsten Nachbarn-Klassifikator und auf eine Aussage, die in dem ausgezeichneten Buch Die Elemente des statistischen Lernens von Hastie, Tibshirani und Friedman gemacht wurde. Die Aussage lautet (S. 465, Abschnitt 13.3):
"Da nur der Trainingspunkt verwendet wird, der dem Abfragepunkt am nächsten liegt, ist die Abweichung der Schätzung des nächsten Nachbarn oft gering, aber die Varianz ist hoch."
Das Buch ist unter http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html verfügbar
Für den Anfang können wir definieren, was Voreingenommenheit und Varianz sind. Aus der Frage "Wie kann man die Dimension vergrößern, die Varianz erhöhen, ohne das Bi zu erhöhen" haben wir Folgendes:
"Erstens ist die Vorspannung eines Klassifikators die Diskrepanz zwischen seiner gemittelten geschätzten und wahren Funktion, während die Varianz eines Klassifikators die erwartete Abweichung der geschätzten Vorhersagefunktion von seinem Durchschnittswert ist (dh wie abhängig der Klassifikator vom Zufall ist Probenahme im Trainingssatz).
Daher weist das Vorhandensein einer Verzerrung darauf hin, dass mit dem Modell grundsätzlich etwas nicht stimmt, während die Varianz ebenfalls schlecht ist, aber ein Modell mit hoher Varianz könnte zumindest im Durchschnitt eine gute Vorhersage treffen. "
Könnte jemand bitte erklären, warum die Varianz hoch und die Vorspannung für den 1-nächsten Nachbarn-Klassifikator niedrig ist?
quelle
Beachten Sie, dass der 1-Nearest Neighbor-Klassifikator tatsächlich das komplexeste Modell für den nächsten Nachbarn ist. Mit "am komplexesten" meine ich, dass es die gezackteste Entscheidungsgrenze hat und am wahrscheinlichsten überpasst. Wenn Sie einen N-Nächsten-Nachbarn-Klassifikator verwenden (N = Anzahl der Trainingspunkte), klassifizieren Sie alles als Mehrheitsklasse. Unterschiedliche Permutationen der Daten erhalten die gleiche Antwort. Sie erhalten eine Reihe von Modellen mit einer Varianz von Null (sie sind alle genau gleich), aber einer hohen Verzerrung (sie sind alle durchweg falsch). Durch Verringern der Einstellung von K kommen Sie den Trainingsdaten immer näher (geringe Abweichung), das Modell hängt jedoch wesentlich stärker von den ausgewählten Trainingsbeispielen ab (hohe Varianz).
quelle
Hier ist ein sehr interessanter Blog-Beitrag über Voreingenommenheit und Varianz. Der Abschnitt 3.1 befasst sich mit dem knn-Algorithmus und erklärt, warum niedriges k zu hoher Varianz und geringer Vorspannung führt.
Abbildung 5 ist sehr interessant: Sie können in Echtzeit sehen, wie sich das Modell ändert, während k zunimmt. Für niedriges k gibt es viel Überanpassung (einige isolierte "Inseln"), was zu einer geringen Vorspannung, aber einer hohen Varianz führt. Für sehr hohe k haben Sie ein glatteres Modell mit geringer Varianz, aber hoher Vorspannung. In diesem Beispiel ergibt ein Wert von k zwischen 10 und 20 ein Abstiegsmodell, das allgemein genug (relativ geringe Varianz) und genau genug (relativ geringe Vorspannung) ist.
quelle