Ich bin ein Programmierer ohne statistischen Hintergrund und suche derzeit nach verschiedenen Klassifizierungsmethoden für eine große Anzahl verschiedener Dokumente, die ich in vordefinierte Kategorien einteilen möchte. Ich habe über kNN, SVM und NN gelesen. Ich habe jedoch einige Probleme beim Einstieg. Welche Ressourcen empfehlen Sie? Ich kenne Einzelvariablen- und Mehrfachvariablen-Kalkül recht gut, daher sollte meine Mathematik stark genug sein. Ich besitze auch Bishops Buch über neuronale Netze, aber es hat sich als Einführung als etwas dicht erwiesen.
32
Ein großartiger Einführungstext zu den von Ihnen genannten Themen ist Introduction to Information Retrieval ( Einführung in das Abrufen von Informationen) , der kostenlos online im Volltext verfügbar ist.
quelle
Das neuronale Netzwerk ist möglicherweise zu langsam für eine große Anzahl von Dokumenten (auch dies ist mittlerweile ziemlich veraltet).
Sie können auch Random Forest unter den Klassifikatoren überprüfen. Es ist ziemlich schnell, skaliert gut und benötigt keine komplexe Abstimmung.
quelle
Wenn Sie von der Programmierseite kommen, besteht eine Möglichkeit darin, das Natural Language Toolkit (NLTK) für Python zu verwenden. Es gibt ein frei verfügbares O'Reilly-Buch, das unter anderem eine weniger dichte und praktischere Einführung in die Erstellung von Klassifikatoren für Dokumente bietet.
Wenn Sie sich für statistische Aspekte interessieren, ist Roger Levys laufendes Buch Probabilistic Models in Study of Language möglicherweise nicht schlecht zu lesen. Es ist für Cogsci / Compsci-Absolventen geschrieben, die mit statistischen NLP-Techniken beginnen.
quelle
Zum einen kann ich Ihnen das Buch Grundlagen der statistischen Verarbeitung natürlicher Sprache von Manning und Schütze empfehlen .
Die Methoden, die ich verwenden würde, sind Worthäufigkeitsverteilungen und Ngram-Sprachmodelle. Die erste Methode funktioniert sehr gut, wenn Sie ein Thema klassifizieren möchten und Ihre Themen spezifisch und fachkundig sind (mit Schlüsselwörtern). Die Ngram-Modellierung ist der beste Weg, um Schreibstile usw. zu klassifizieren.
quelle
Naive Bayes ist normalerweise der Ausgangspunkt für die Klassifizierung von Texten. Hier ist ein Artikel von Dr. Dobbs über die Implementierung von Texten . Es ist auch oft der Endpunkt für die Textklassifizierung, da es so effizient und parallel ist, dass SpamAssassin und POPFile es verwenden.
quelle