Was ist der beste 2-Klassen-Klassifikator? Ja, ich denke, das ist die Millionen-Dollar-Frage, und ja, mir ist das No-Free-Lunch-Theorem bekannt , und ich habe auch die vorherigen Fragen gelesen:
Dennoch bin ich daran interessiert, mehr zu diesem Thema zu lesen.
Was ist eine gute Informationsquelle, die einen allgemeinen Vergleich der Merkmale, Vorteile und Merkmale verschiedener Klassifikatoren beinhaltet?
Antworten:
Die ESL , wie bereits von Peter Flom erwähnt, ist ein ausgezeichneter Vorschlag (beachten Sie, dass mein Link zur Homepage des Autors führt, auf der das Buch als PDF-Datei kostenlos erhältlich ist). Lassen Sie mich ein paar spezifischere Dinge hinzufügen, nach denen Sie im Buch suchen sollten:
Fügen Sie dem Buch die Task-Ansicht für maschinelles Lernen für R hinzu, die einen Eindruck davon gibt, was die vielen maschinellen Lernpakete tatsächlich leisten können, obwohl es keinen wirklichen Vergleich gibt. Für Python-Benutzer stelle ich mir vor, dass scikit.learn ein guter Ort zum Anschauen ist. Wie viel "out-of-the-box" oder "off-the-shelf" eine Methode ist, hängt sehr stark davon ab, wie gut sich die Implementierung mit der automatischen Anpassung an die Datensituation auseinandersetzt, anstatt die detaillierte Abstimmung dem Benutzer zu überlassen. In meinen Augen ist mgcv für R ein gutes Beispiel, das die Anpassung eines einigermaßen guten verallgemeinerten additiven Modells wirklich einfach macht, ohne dass der Benutzer irgendetwas von Hand einstellen muss.
quelle
Die von anderen aufgelisteten Ressourcen sind sicherlich alle nützlich, aber ich werde Folgendes hinzufügen: Der "beste" Klassifikator ist wahrscheinlich kontext- und datenspezifisch. Bei einem kürzlich durchgeführten Versuch, verschiedene binäre Klassifikatoren zu bewerten, stellte ich fest, dass ein Boosted Regression Tree durchgehend besser funktioniert als andere Methoden, auf die ich Zugriff hatte. Das Wichtigste für mich war, den Umgang mit den Data Mining-Tools von Orange zu lernen . Sie haben einige großartige Dokumentationen, mit denen Sie beginnen können, diese Methoden mit Ihren Daten zu erkunden . Zum Beispiel ist hier ein kurzes Python-Skript, das ich geschrieben habe, um die Qualität mehrerer Klassifikatoren über mehrere Genauigkeitsmaße hinweg mithilfe der k-fachen Kreuzvalidierung zu bewerten.
Wenn ich diesen Code auf meinen Daten ausführe, erhalte ich eine Ausgabe wie
Mit den Orange-Objekten können Sie noch viel mehr tun, um die Leistung zu überprüfen und Vergleiche anzustellen. Ich fand dieses Paket äußerst hilfreich beim Schreiben einer kleinen Menge an Code, um Methoden mit einer konsistenten API und Problemabstraktion auf meine Daten anzuwenden (dh ich musste nicht sechs verschiedene Pakete von sechs verschiedenen Autoren verwenden, die jeweils ihre eigenen haben Ansatz für API-Design und -Dokumentation usw.).
quelle
Das Buch Die Elemente des statistischen Lernens enthält viele Informationen dazu.
quelle
Weitere Ressourcen, die ich zu diesem Thema gefunden habe (kostenloses PDF verfügbar):
quelle
Laut dieser umfassenden aktuellen Studie (Auswertung von 179 Klassifikatoren in 121 Datensätzen) sind die besten Klassifikatoren zufällige Gesamtstrukturen, gefolgt von Support-Vektor-Maschinen.
quelle