Ich stellte eine ähnliche Frage nach der Entfernung zwischen "Dokumenten" (Wikipedia-Artikel, Nachrichten usw.). Ich habe dies zu einer separaten Frage gemacht, da Suchanfragen erheblich kleiner als Dokumente und erheblich lauter sind. Ich weiß daher nicht (und bezweifle), ob hier die gleichen Entfernungsmetriken verwendet werden würden.
Entweder werden lexikalische Vanille-Distanzmetriken oder semantische Distanzmetriken nach dem Stand der Technik bevorzugt, wobei letztere stärker bevorzugt werden.
machine-learning
nlp
search
Matt
quelle
quelle
Antworten:
Nach meiner Erfahrung können nur einige Klassen von Abfragen nach lexikalischen Merkmalen klassifiziert werden (aufgrund der Mehrdeutigkeit der natürlichen Sprache). Stattdessen können Sie versuchen, boolesche Suchergebnisse (Websites oder Segmente von Websites, keine Dokumente ohne Rangfolge) als Merkmale für die Klassifizierung zu verwenden (stattdessen für Wörter). Dieser Ansatz eignet sich gut für Klassen, in denen eine Abfrage eine große lexikalische Mehrdeutigkeit aufweist, es jedoch viele gute Websites gibt, die für die Abfrage relevant sind (z. B. Filme, Musik, kommerzielle Abfragen usw.).
Für die Offline-Klassifizierung können Sie auch LSI für die Abfrage-Site-Matrix durchführen. Weitere Informationen finden Sie im Buch "Einführung in das Abrufen von Informationen".
quelle
Die Kosinus-Ähnlichkeitsmetrik steuert die Dokumentlänge gut (wenn nicht sogar perfekt). Daher sollte der Vergleich der Ähnlichkeit von 2 Dokumenten oder 2 Abfragen unter Verwendung der Kosinus-Metrik und der tf-IDF-Gewichte für die Wörter in beiden Fällen gut funktionieren. Ich würde auch empfehlen, LSA zuerst für die IDF-Gewichte durchzuführen und dann den Kosinusabstand \ Ähnlichkeiten zu berechnen.
Wenn Sie versuchen, eine Suchmaschine zu erstellen, würde ich empfehlen, eine kostenlose Open-Source-Suchmaschine wie Solr oder Elastic Search oder nur die Raw-Lucene-Bibliotheken zu verwenden, da diese den größten Teil der Arbeit für Sie erledigen und über gut integrierte Methoden verfügen Behandlung der Abfrage zur Dokumentation des Ähnlichkeitsproblems.
quelle