Ich habe einen Klassifikator M entworfen, der Gesten erkennt und sie immer einer beliebigen Kategorie zuordnet. Eine Geste wird basierend auf dem Hamming-Abstand zwischen der Abtastzeitreihe y und der Trainingszeitreihe x klassifiziert. Das Ergebnis des Klassifikators sind Wahrscheinlichkeitswerte. Es gibt 3 Klassen / Kategorien mit den Bezeichnungen A, B, C, die Handgesten klassifizieren, wobei für jede zu klassifizierende Klasse 100 Stichproben vorhanden sind (einzelnes Merkmal und Datenlänge = 100). Die Daten sind verschiedene Zeitreihen (x-Koordinate gegen Zeit). Der Trainingssatz wird verwendet, um Wahrscheinlichkeiten zuzuweisen, die angeben, welche Geste wie oft aufgetreten ist. Wenn also von 10 Trainingsbeispielen Geste A sechsmal auftrat, ist die Wahrscheinlichkeit, dass eine Geste unter Kategorie A fällt, gleich
P (A) = 0,6 ähnlich P (B) = 0,3
und
P (C) = 0,1
Jetzt versuche ich, die Leistung dieses Klassifikators mit dem Bayes-Klassifikator, K-NN, der Hauptkomponentenanalyse (PCA) und dem neuronalen Netzwerk zu vergleichen.
- Auf welcher Grundlage, mit welchem Parameter und mit welcher Methode sollte ich dies tun, wenn ich ROC oder Kreuzvalidierung in Betracht ziehe, da die Merkmale für meinen Klassifizierer die Wahrscheinlichkeitswerte für das ROC-Diagramm sind. Welche Merkmale sollen also für k-nn, Bayes-Klassifizierung und PCA gelten?
- Gibt es einen Code dafür, der nützlich sein wird?
- Was sollte der Wert von k sein, gibt es 3 Klassen von Gesten?
Bitte helfen Sie. Ich bin in einer Verlegenheit.
quelle
Antworten:
Es gibt keine einfache Möglichkeit, dies zu tun. Tatsächlich erklärt ein kürzlich veröffentlichter Artikel von Charles Parker einige der Probleme bei der Verwendung von ROC-Kurvenmessungen (in meinem Blog gibt es einen freundlichen Überblick - Selbstwerbung !!). In seinem Artikel werden einige Empfehlungen zum besten Vergleich verschiedener Klassifikatoren gegeben, sodass Sie dort etwas Nützliches finden.
quelle
Der allgemeine Weg, Klassifikatoren zu vergleichen, besteht darin, sie mit ROC zu vergleichen. Für einen festen Bereich von Fehlalarmraten prüfen Sie, welcher Klassifikator die höchste Genauigkeit erreicht hat. Wenn Sie eine einzelne Kennzahl wünschen, können Sie Area Under ROC (AUC) verwenden. Es gibt noch viele andere Maßnahmen, schauen Sie nach. Für einen fairen Vergleich müssen Sie alle Klassifikatoren auf einem gleichmäßigen Fundament vergleichen. Dies bedeutet die gleichen Merkmale und die gleichen Trainingsbedingungen.
Der Wert von k ist etwas, das Sie herausfinden müssen, indem Sie verschiedene Werte ausprobieren. Wählen Sie den Wert aus, der für Ihren Validierungssatz am besten geeignet ist, geben Sie jedoch nur Ergebnisse für Ihren Testsatz an, die Sie bei der Parameteroptimierung nicht verwendet haben.
quelle