Neben offensichtlichen Klassifizierereigenschaften wie
- Rechenaufwand,
- erwartete Datentypen von Features / Labels und
- Eignung für bestimmte Größen und Abmessungen von Datensätzen,
Was sind die fünf besten (oder 10, 20?) Klassifikatoren, um zuerst einen neuen Datensatz auszuprobieren, über den man noch nicht viel weiß (z. B. Semantik und Korrelation einzelner Merkmale)? Normalerweise probiere ich Naive Bayes, Nearest Neighbor, Decision Tree und SVM aus - obwohl ich keinen anderen Grund für diese Auswahl habe, als sie zu kennen und meistens zu verstehen, wie sie funktionieren.
Ich denke, man sollte Klassifikatoren wählen, die die wichtigsten allgemeinen Klassifikationsansätze abdecken . Welche Auswahl würden Sie nach diesem Kriterium oder aus einem anderen Grund empfehlen?
UPDATE: Eine alternative Formulierung für diese Frage könnte lauten: "Welche allgemeinen Ansätze zur Klassifizierung gibt es und welche spezifischen Methoden decken die wichtigsten / beliebtesten / vielversprechendsten ab?"
quelle
Antworten:
Zufälliger Wald
Schnelle, robuste, gute Genauigkeit, in den meisten Fällen nichts zu tunen, erfordert keine Normalisierung, ist immun gegen Kollinearität, erzeugt eine recht gute Fehlerannäherung und ein nützliches Wichtigkeitsranking als Nebeneffekt des Trainings, trivial parallel, prognostiziert im Handumdrehen.
Nachteile: langsamer als triviale Methoden wie kNN oder NB, funktioniert am besten bei gleichen Klassen, ist ungenauer als SVM für Probleme, die dringend einen Kernel-Trick erfordern, ist eine harte Blackbox, macht keinen Kaffee.
quelle
Gaußscher Prozessklassifikator (ohne Verwendung der Laplace-Näherung), vorzugsweise mit Marginalisierung statt Optimierung der Hyperparameter. Warum?
Nachteile
Die erste Wahl wäre jedoch eine regulierte logistische Regression oder eine Ridge-Regression [ohne Feature-Auswahl] - bei den meisten Problemen funktionieren sehr einfache Algorithmen recht gut und sind schwieriger zu verwechseln (in der Praxis sind die Leistungsunterschiede zwischen den Algorithmen geringer als die Leistungsunterschiede) zwischen dem Fahrer, der sie fährt).
quelle
Wenn Sie sich einem neuen Datensatz nähern, sollten Sie alleine anfangen, das ganze Problem zu beobachten. Zunächst erhalten Sie eine Verteilung für kategoriale Merkmale sowie Mittel- und Standardabweichungen für jedes kontinuierliche Merkmal. Dann:
Dann teile ich die Klassifikationstechniken normalerweise in 2 Sätze auf: White-Box- und Black-Box-Technik. Wenn Sie wissen möchten, wie der Klassifikator funktioniert, sollten Sie im ersten Satz auswählen, z. B. Entscheidungsbäume oder regelbasierte Klassifikatoren.
Wenn Sie neue Datensätze klassifizieren müssen, ohne ein Modell zu erstellen, sollten Sie einen Blick auf eifrige Lernende werfen, z. B. KNN.
Danach halte ich es für besser, eine Schwelle zwischen Genauigkeit und Geschwindigkeit zu haben: Neuronale Netze sind etwas langsamer als SVM.
Dies ist meine Top-5-Klassifikationstechnik:
quelle