Ich habe eine HTML-Zeichenfolge und möchte herausfinden, ob ein von mir angegebenes Wort in dieser Zeichenfolge relevant ist.
Die Relevanz könnte anhand der Häufigkeit im Text gemessen werden.
Ein Beispiel zur Veranschaulichung meines Problems:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
Jetzt möchte ich ein paar andere Wörter testen:
bike repairs
dog poo
bike repairs
sollte als relevant markiert werden, während dog poo
nicht als relevant markiert werden sollte.
Fragen:
- Wie könnte das gemacht werden?
- Wie filtere ich mehrdeutige Wörter wie
in
oder heraus?or
Danke für deine Ideen!
Ich denke, es ist etwas, was Google tut, um herauszufinden, welche Keywords für eine Website relevant sind. Ich versuche im Grunde, ihre On-Page-Rankings zu reproduzieren.
machine-learning
data-mining
Hendrik
quelle
quelle
Antworten:
Das ist eine übersicht der Information Retrieval Prozess
Einführung in Information Retrieval von Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze ist ein sehr gutes Buch für den Einstieg in die IR.
Oder verwenden Sie einfach Apache Solr , um alles, was Sie brauchen, sofort einsatzbereit zu machen (oder Apache Lucene , das von Solr verwendet wird, um Ihre eigene Anwendung zu erstellen).
quelle
Ich erinnere mich, dass ich vor langer Zeit mit Elastic Search gespielt habe (die Website unterscheidet sich jetzt sehr von dem, woran ich mich erinnere). Hier gibt es einige Dinge zum Umgang mit der menschlichen Sprache: http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/languages.html
Seien Sie gewarnt, dass die elastische Suche für Ihr Problem wie eine große Panzerfaust ist. Wenn Ihr Problem sehr einfach ist, möchten Sie vielleicht von vorne anfangen. Es gibt einige Dokumente im Web darüber.
quelle