In NLP gibt es das Konzept, Gazetteer
das zum Erstellen von Anmerkungen sehr nützlich sein kann. So weit ich das verstehe:
Ein Gazetteer besteht aus einer Reihe von Listen mit Namen von Entitäten wie Städten, Organisationen, Wochentagen usw. Diese Listen werden verwendet, um Vorkommen dieser Namen im Text zu finden, z. B. für die Aufgabe der Erkennung benannter Entitäten.
Es handelt sich also im Wesentlichen um eine Suche. Ist das nicht ein Betrüger? Wenn wir a Gazetteer
zum Erkennen benannter Entitäten verwenden, ist nicht viel Natural Language Processing
los. Im Idealfall möchte ich benannte Entitäten mithilfe von NLP
Techniken erkennen. Wie ist es sonst besser als ein Regex-Pattern-Matcher?
nlp
named-entity-recognition
AbtPst
quelle
quelle
Antworten:
Gazetteer oder eine andere Option mit absichtlich festgelegter Größe scheint in wissenschaftlichen Arbeiten ein sehr beliebter Ansatz zu sein, wenn Sie ein Problem mit endlicher Größe haben, z. B. NER in einem festen Korpora oder POS-Tagging oder irgendetwas anderem. Ich würde es nicht als Betrug betrachten, es sei denn, die einzige Funktion, die Sie verwenden werden, ist Gazetteer Matching.
Wenn Sie jedoch eine Art NLP-Modell trainieren, das sich während des Trainings auf ein Wörterbuch stützt, ist die tatsächliche Leistung möglicherweise weitaus geringer als bei den ersten Tests angegeben, es sei denn, Sie können alle relevanten Objekte in den Gazetteer einbeziehen (und warum dann Sie?) Benötigen Sie dieses Modell?), da Ihr trainiertes Modell sich irgendwann auf das Feature stützt und in einem Fall, in dem andere Features zu schwach oder nicht beschreibend sind, neue interessante Objekte nicht erkannt werden.
Wenn Sie in Ihren Modellen einen Gazetteer verwenden, sollten Sie sicherstellen, dass diese Funktion über eine Gegenfunktion verfügt, mit der sich das Modell selbst ausgleichen kann, damit die einfache Wörterbuchübereinstimmung nicht die einzige Funktion der positiven Klasse ist (und was noch wichtiger ist, Gazetteer sollte dies tun) stimmen nicht nur mit positiven, sondern auch mit negativen Beispielen überein.
Angenommen, Sie haben einen vollständigen Satz von unendlichen Variationen aller Personennamen, was die allgemeine Person NER irrelevant macht, aber jetzt versuchen Sie zu entscheiden, ob das im Text erwähnte Objekt zum Singen fähig ist. Sie werden sich auf die Merkmale der Aufnahme in Ihr Personenblatt verlassen, die Ihnen viele falsche Positivmeldungen liefern. Dann fügen Sie ein verbzentriertes Feature von " Ist Thema des Verbsingen " hinzu, und das würde Ihnen wahrscheinlich falsche Positive von allen möglichen Objekten wie Vögeln, Ihrem Bauch, wenn Sie hungrig sind, und einem betrunkenen Kerl geben, der denkter kann singen (aber seien wir ehrlich, er kann nicht) - aber dieses verbzentrierte Merkmal wird mit Ihrem Personenblatt in Einklang gebracht, um Personen und nicht Tieren oder anderen Objekten eine positive Sängerklasse zuzuweisen. Es löst jedoch nicht den Fall eines betrunkenen Darstellers.
quelle
Die Verwendung einer Liste von Entitäten hat einige Nachteile:
Sie können mit diesen Nachteilen umgehen, indem Sie die vorgeschlagene Richtung @emre befolgen und die Liste verwenden, um einen Klassifikator zu lernen.
Sie können beispielsweise Token in der Nähe der Entität verwenden und die Regel so lernen, dass "Ich lebe an X" ein Indikator für einen Ort ist und "Ich habe mit X gesprochen" ein Indikator für eine Person ist. Sie können dieses Spiel einige Runden spielen, indem Sie Ihre Liste um die Treffer der Regeln erhöhen und die neue Liste verwenden, um weitere Regeln zu lernen.
Bitte beachten Sie, dass Sie in diesem Lernschritt Rauschen in die Daten einbringen, sodass das Lernen in den meisten Fällen so einfach sein sollte.
quelle