Ich plane, einen SVM-Klassifikator (Scikit Linear Support Vector Machine) für die Textklassifizierung auf einem Korpus zu verwenden, der aus 1 Million beschrifteten Dokumenten besteht. Was ich vorhabe, ist, wenn ein Benutzer ein Schlüsselwort eingibt, der Klassifizierer es zuerst in eine Kategorie klassifiziert und dann eine nachfolgende Abfrage zum Abrufen von Informationen in den Dokumenten dieser Kategoriekategorie erfolgt. Ich habe ein paar Fragen:
- Wie bestätige ich, dass die Klassifizierung nicht viel Zeit in Anspruch nimmt? Ich möchte nicht, dass Benutzer Zeit darauf warten müssen, dass eine Klassifizierung abgeschlossen ist, um bessere Ergebnisse zu erzielen.
- Ist die Verwendung der Python-Scikit-Bibliothek für Websites / Webanwendungen dafür geeignet?
- Weiß jemand, wie Amazon oder Flipkart Benutzerabfragen klassifizieren, oder verwenden sie eine völlig andere Logik?
Antworten:
Der einzig verlässliche Weg, um zu sehen, wie lange es dauert, besteht darin, es zu codieren und es auszuprobieren. Das Training dauert länger, dann können Sie Ihr Modell (Gurke) speichern, um es später zu verwenden.
quelle
Ich sehe hier kein großes Problem. Daher würde ich versuchen, alle Ihre Fragen aus Sicht der Produktion zu beantworten:
Nehmen Sie eine Teilmenge der Korpusdaten, die Sie haben (Sie können dies zufällig tun, ohne dass eine Stichprobe erforderlich ist), und testen Sie Ihren Algorithmus darauf, und sie approximieren / verallgemeinern sie dem Gesamtdatensatz.
(SVM ist vergleichsweise schneller. Führen Sie den obigen Vorgang dennoch aus, um sicherzugehen.)
Testen Sie es in der Entwicklungsumgebung, bevor Sie mit der Produktion beginnen.
Ja , das ist es. Es wird bereits von einem netten Teil der Unternehmen da draußen verwendet.
Die dritte Frage zu Amazon und Flipkart kann von niemandem außerhalb ihres Teams beantwortet werden.
Darüber hinaus würde ich Ihnen raten, die Mapreduce-Techniken zum Trainieren Ihrer Modelle zu verwenden. Und wie bereits empfohlen, wählen Sie Ihre Modelle aus, damit Sie sie nicht bei jeder Anfrage trainieren müssen.
quelle