Auswahl des optimalen K für KNN

15

Ich habe einen 5-fachen Lebenslauf durchgeführt, um das optimale K für KNN auszuwählen. Und es scheint, je größer K wird, desto kleiner wird der Fehler ...

Bildbeschreibung hier eingeben

Es tut mir leid, dass ich keine Legende hatte, aber die verschiedenen Farben repräsentieren verschiedene Versuche. Insgesamt gibt es 5, und es scheint, als ob zwischen ihnen nur geringe Abweichungen bestehen. Der Fehler scheint immer kleiner zu werden, wenn K größer wird. Wie kann ich das beste K auswählen? Wäre K = 3 hier eine gute Wahl, da die Grafik nach K = 3 abflacht?

Adrian
quelle
Was machst du mit den Clustern, wenn du sie gefunden hast? Letztendlich ist es das, was Sie mit den von Ihrem Clustering-Algorithmus erzeugten Clustern tun werden, um festzustellen, ob sich die Verwendung von mehr Clustern für einen kleinen Fehler lohnt.
Brian Borchers
Ich möchte eine hohe Vorhersagekraft. In diesem Fall ... soll ich mit K = 20 gehen? Da hat es den geringsten Fehler. Tatsächlich habe ich jedoch die Fehler für K bis zu 100 aufgezeichnet. Und 100 hat den niedrigsten Fehler von allen ... Ich vermute, dass der Fehler mit zunehmendem K abnimmt. Aber ich weiß nicht, was ein guter Grenzwert ist.
Adrian

Antworten:

12

kkkkk als ein kleinerer, wenn der Unterschied in ihren CV-Fehlern vernachlässigbar ist.

Wenn der CV-Fehler nicht wieder zu steigen beginnt, bedeutet dies wahrscheinlich, dass die Attribute nicht aussagekräftig sind (zumindest für diese Entfernungsmetrik) und konstante Ausgaben das Beste sind, was sie leisten können.

Dikran Beuteltier
quelle
2

K=17K=3

Flunder
quelle
0

Gibt es eine physikalische oder natürliche Bedeutung für die Anzahl der Cluster? Wenn ich mich nicht irre, ist es nur natürlich, dass mit zunehmendem K der Fehler abnimmt - eine Art Überanpassung. Anstatt nach dem optimalen K zu fischen, ist es wahrscheinlich besser, K basierend auf Domänenwissen oder einer gewissen Intuition auszuwählen?

tohweizhong
quelle
Ich denke, diese Antwort wäre eher für k-Mittelwert-Cluster geeignet als für k-nn-Klassifizierung oder Regression.
Dikran Marsupial
Wenn k zu groß ist, passen Sie es nicht richtig an, dann wird der Fehler erneut auftreten.
James