Ich versuche, die KNN-Methode für die binäre Klassifizierung zu verwenden. Wenn ich versuche, den besten 'k'-Parameter zu finden (die Anzahl der Nachbarn, die der Algorithmus betrachtet), trainiere ich ein Modell in meinem Trainingssatz und überprüfe seine Genauigkeit in einem separaten Validierungssatz, den ich mit meinen Daten erhalten habe. Dieser Validierungssatz enthält nur 12 Stichproben, was zu einem Genauigkeitsverlust für 3 k (1,3,5) führt.
Jetzt suche ich nach einer Möglichkeit, einen dieser 3 k für das endgültige Modell auszuwählen. Ich hatte den folgenden Ansatz im Sinn: Für die 3 k mache ich eine K-fache Kreuzvalidierung für ein bestimmtes K auf dem Trainingssatz und schaue dann, welches hier die beste durchschnittliche Genauigkeit hat. Ist das ein anständiger Ansatz oder gibt es bessere Möglichkeiten? Ich dachte auch daran, nur ein zufälliges k (1, 3 oder 5) auszuwählen, weil mir das 'Validierungsverfahren' sagt, dass ich eine der 3 auswählen kann.