Es ist ziemlich schwierig, kNN und lineare Regression direkt zu vergleichen, da es sich um sehr unterschiedliche Dinge handelt. Ich denke jedoch, dass der entscheidende Punkt hier der Unterschied zwischen "Modellierung von " und "Annahmen über f ( x ) " ist.f( x )f( x )
Wenn man eine lineare Regression durchführt, modelliert man spezifisch das , oft etwas unter den Linien von f ( x ) = w x + ϵ, wobei ϵ ein Gaußscher Rauschausdruck ist. Sie können herausfinden, dass das Maximum-Likelihood-Modell dem minimalen Quadratsummenfehlermodell entspricht.f( x )f( x ) = w x + ϵϵ
KNN hingegen geht, wie Ihr zweiter Punkt andeutet, davon aus, dass Sie diese Funktion durch eine lokal konstante Funktion approximieren können - ein Abstandsmaß zwischen den -se, ohne die gesamte Verteilung spezifisch zu modellieren.x
Mit anderen Worten, die lineare Regression hat oft eine gute Vorstellung vom Wert von für ein unsichtbares x nur aus dem Wert von x , während kNN einige andere Informationen (dh die k Nachbarn) benötigt, um Vorhersagen über f zu treffen ( x ) , da der Wert von x und nur der Wert selbst keine Informationen liefern, da es kein Modell für f ( x ) gibt .f( x )xxf( x )xf( x )
BEARBEITEN: Wiederholen Sie dies unten, um dies klarer auszudrücken (siehe Kommentare)
Es ist klar, dass sowohl die lineare Regression als auch die Methode des nächsten Nachbarn darauf abzielen, den Wert von für ein neues x vorherzusagen . Nun gibt es zwei Ansätze. Die lineare Regression wird fortgesetzt, indem angenommen wird, dass die Daten auf eine gerade Linie fallen (plus minus etwas Rauschen), und daher der Wert von y gleich dem Wert von f ( x ) mal der Steigung der Linie ist. Mit anderen Worten, der lineare Ausdruck modelliert die Daten als gerade Linie.y= f( x )xf( x )
f( x1)f( x2)x1x2f( x )x (ob es sich um eine Linie, eine Parabel usw. handelt), da es kein Modell dieser Beziehung gibt, wird lediglich davon ausgegangen, dass sie durch Betrachten von Nahpunkten angenähert werden kann.
quelle
Der Begriff modellbasiert ist gleichbedeutend mit "verteilungsbasiert", wenn Clustering-Methoden diskutiert werden. Die lineare Regression geht von Verteilungsannahmen aus (dass die Fehler Gaußsch sind). KNN trifft keine Verteilungsannahmen. Das ist der Unterschied.
quelle