Angenommen, ich habe ein einfaches Problem mit maschinellem Lernen wie eine Klassifizierung. Mit einigen Maßstäben in Bezug auf Vision oder Audioerkennung bin ich als Mensch ein sehr guter Klassifikator. Ich habe daher eine Vorstellung davon, wie gut ein Klassifikator werden kann.
Bei vielen Daten ist ein Punkt, dass ich nicht weiß, wie gut der von mir trainierte Klassifikator sein kann. Dies sind Daten, bei denen ich persönlich kein sehr guter Klassifikator bin (z. B. die Stimmung einer Person anhand von EEG-Daten klassifizieren). Es ist nicht wirklich möglich, eine Vorstellung davon zu bekommen, wie schwer mein Problem ist.
Wenn ich nun mit einem Problem des maschinellen Lernens konfrontiert werde, möchte ich herausfinden, wie gut ich werden kann. Gibt es hierfür prinzipielle Ansätze? Wie würdest du das machen?
Daten visualisieren? Mit einfachen Modellen beginnen? Beginnen Sie mit sehr komplexen Modellen und sehen Sie, ob ich überanpassen kann? Was suchen Sie, wenn Sie diese Frage beantworten möchten? Wann hörst du auf es zu versuchen?
quelle
Wenn Sie Ihre Daten auf irgendeine Weise visualisieren können, ist dies das bestmögliche Szenario. Es können jedoch nicht alle Daten auf dieselbe Weise visualisiert werden. Daher müssen Sie möglicherweise einen eigenen Weg finden, um die Daten zu projizieren, die Ihnen beim Verständnis Ihrer Daten helfen können besser.
Im Allgemeinen nehme ich jedoch normalerweise eine kleine Stichprobe der Daten, konvertiere sie in ARFF und probiere verschiedene Clustering-Algorithmen von WEKA aus. Dann sehe ich nur, welcher Algorithmus mir eine bessere Verwirrungsmatrix gibt. Es gibt mir einen Hinweis darauf, wie gut die Klassen getrennt sind, und ermöglicht mir zu untersuchen, warum dieser bestimmte Algorithmus für diese Daten besser geeignet ist. Ich ändere auch die Anzahl der Cluster (dh ich benutze nicht nur k = 2, ich benutze k = 3, 4 usw.). Es gibt mir eine Vorstellung davon, ob die Daten fragmentiert sind oder ob eine Klasse stärker fragmentiert ist als die andere. Wenn Sie Trainings- und Testpunkte für das Clustering miteinander mischen, können Sie auch messen, welche Cluster durch Ihre Trainingspunkte dargestellt werden. Einige Cluster sind möglicherweise überrepräsentiert und andere unterrepräsentiert. Beide können Probleme beim Erlernen eines Klassifikators verursachen.
Überprüfen Sie immer Ihre Trainingsgenauigkeit. Wenn Ihre Trainingsgenauigkeit nicht gut aussieht, sind falsch klassifizierte Trainingspunkte ebenfalls ein großer Hinweis.
quelle