Ich habe gerade den maschinellen Lernkurs für R auf kognitiver Klasse abgeschlossen und begonnen, mit zufälligen Wäldern zu experimentieren.
Ich habe ein Modell mithilfe der Bibliothek "randomForest" in R erstellt. Das Modell wird in zwei Klassen unterteilt: gut und schlecht.
Ich weiß, dass ein Modell, wenn es überpasst ist, bei Daten aus seinem eigenen Trainingsset eine gute Leistung erbringt, bei Daten außerhalb der Stichprobe jedoch eine schlechte Leistung.
Um mein Modell zu trainieren und zu testen, habe ich den gesamten Datensatz gemischt und in 70% für das Training und 30% für das Testen aufgeteilt.
Meine Frage: Ich erhalte eine 100% ige Genauigkeit aus der Vorhersage, die mit dem Testsatz durchgeführt wurde. Ist das schlecht? Es scheint zu schön, um wahr zu sein.
Das Ziel ist die Wellenformerkennung von vier aufeinander abhängigen Wellenformen. Die Merkmale des Datensatzes sind die Kostenergebnisse der dynamischen Zeitverzerrungsanalyse von Wellenformen mit ihrer Zielwellenform.
quelle
Antworten:
Hohe Validierungswerte wie Genauigkeit bedeuten im Allgemeinen, dass Sie nicht überanpassen. Dies sollte jedoch zu Vorsicht führen und kann darauf hinweisen, dass ein Fehler aufgetreten ist. Dies könnte auch bedeuten, dass das Problem nicht zu schwierig ist und dass Ihr Modell wirklich eine gute Leistung erbringt. Zwei Dinge, die schief gehen könnten:
quelle
Untersuchen Sie, welche Funktionen für Sie am aussagekräftigsten sind. Manchmal haben Sie versehentlich Ihr Ziel (oder etwas, das Ihrem Ziel entspricht) in Ihre Funktionen aufgenommen.
quelle