NLP - Ist Gazetteer ein Betrüger?

16

In NLP gibt es das Konzept, Gazetteerdas zum Erstellen von Anmerkungen sehr nützlich sein kann. So weit ich das verstehe:

Ein Gazetteer besteht aus einer Reihe von Listen mit Namen von Entitäten wie Städten, Organisationen, Wochentagen usw. Diese Listen werden verwendet, um Vorkommen dieser Namen im Text zu finden, z. B. für die Aufgabe der Erkennung benannter Entitäten.

Es handelt sich also im Wesentlichen um eine Suche. Ist das nicht ein Betrüger? Wenn wir a Gazetteerzum Erkennen benannter Entitäten verwenden, ist nicht viel Natural Language Processinglos. Im Idealfall möchte ich benannte Entitäten mithilfe von NLPTechniken erkennen. Wie ist es sonst besser als ein Regex-Pattern-Matcher?

AbtPst
quelle
2
Ich würde es nicht als Betrug an sich bezeichnen ... es sei denn, Sie wurden speziell für die Verwendung einer Nachschlagelösung ohne Wörterbuch entwickelt. Ich würde es auch nicht als traditionelles NLP bezeichnen, obwohl Sie niemals die beträchtlichen Kilometer übersehen sollten, die Sie aus einer einfachen Lösung eines Problems ziehen können.
Kyle.
1
Sie könnten es vielleicht verwenden, um einen Erkenner für benannte Entitäten zu trainieren. Was wird Ihr Gazetteer mit Entitäten tun, die sich nicht in seinem Korpus befinden?
Emre
Ich hatte gehofft, dass ich durch die korrekte Verwendung von POS-Tags und Nomen-Chunking nie einen Gazetteer brauche. ist das möglich?
AbtPst
2
In der Industrie gibt es kein Betrügen. :-) Wenn Sie jedoch eine "allgemeine Herangehensweise" wünschen, müssen Sie mit einigen handkommentierten Daten beginnen, z.
Adam Bittlingmayer

Antworten:

15

Gazetteer oder eine andere Option mit absichtlich festgelegter Größe scheint in wissenschaftlichen Arbeiten ein sehr beliebter Ansatz zu sein, wenn Sie ein Problem mit endlicher Größe haben, z. B. NER in einem festen Korpora oder POS-Tagging oder irgendetwas anderem. Ich würde es nicht als Betrug betrachten, es sei denn, die einzige Funktion, die Sie verwenden werden, ist Gazetteer Matching.

Wenn Sie jedoch eine Art NLP-Modell trainieren, das sich während des Trainings auf ein Wörterbuch stützt, ist die tatsächliche Leistung möglicherweise weitaus geringer als bei den ersten Tests angegeben, es sei denn, Sie können alle relevanten Objekte in den Gazetteer einbeziehen (und warum dann Sie?) Benötigen Sie dieses Modell?), da Ihr trainiertes Modell sich irgendwann auf das Feature stützt und in einem Fall, in dem andere Features zu schwach oder nicht beschreibend sind, neue interessante Objekte nicht erkannt werden.

Wenn Sie in Ihren Modellen einen Gazetteer verwenden, sollten Sie sicherstellen, dass diese Funktion über eine Gegenfunktion verfügt, mit der sich das Modell selbst ausgleichen kann, damit die einfache Wörterbuchübereinstimmung nicht die einzige Funktion der positiven Klasse ist (und was noch wichtiger ist, Gazetteer sollte dies tun) stimmen nicht nur mit positiven, sondern auch mit negativen Beispielen überein.

Angenommen, Sie haben einen vollständigen Satz von unendlichen Variationen aller Personennamen, was die allgemeine Person NER irrelevant macht, aber jetzt versuchen Sie zu entscheiden, ob das im Text erwähnte Objekt zum Singen fähig ist. Sie werden sich auf die Merkmale der Aufnahme in Ihr Personenblatt verlassen, die Ihnen viele falsche Positivmeldungen liefern. Dann fügen Sie ein verbzentriertes Feature von " Ist Thema des Verbsingen " hinzu, und das würde Ihnen wahrscheinlich falsche Positive von allen möglichen Objekten wie Vögeln, Ihrem Bauch, wenn Sie hungrig sind, und einem betrunkenen Kerl geben, der denkter kann singen (aber seien wir ehrlich, er kann nicht) - aber dieses verbzentrierte Merkmal wird mit Ihrem Personenblatt in Einklang gebracht, um Personen und nicht Tieren oder anderen Objekten eine positive Sängerklasse zuzuweisen. Es löst jedoch nicht den Fall eines betrunkenen Darstellers.

chewpakabra
quelle
4

Die Verwendung einer Liste von Entitäten hat einige Nachteile:

  • Die Liste ist geschlossen
  • Die Liste ist nicht kontextsensitiv. Sie brauchen Kontext, um zwischen "einem Weißen Haus" und "dem Weißen Haus" zu unterscheiden.
  • Das Erstellen von Listen erfordert viel Arbeit
  • Liste kann auch Fehler enthalten.
  • Es fühlt sich an wie Schummeln (oder auf der Liste werden keine NLP-Erkenntnisse verwendet).

Sie können mit diesen Nachteilen umgehen, indem Sie die vorgeschlagene Richtung @emre befolgen und die Liste verwenden, um einen Klassifikator zu lernen.

Sie können beispielsweise Token in der Nähe der Entität verwenden und die Regel so lernen, dass "Ich lebe an X" ein Indikator für einen Ort ist und "Ich habe mit X gesprochen" ein Indikator für eine Person ist. Sie können dieses Spiel einige Runden spielen, indem Sie Ihre Liste um die Treffer der Regeln erhöhen und die neue Liste verwenden, um weitere Regeln zu lernen.

Bitte beachten Sie, dass Sie in diesem Lernschritt Rauschen in die Daten einbringen, sodass das Lernen in den meisten Fällen so einfach sein sollte.

DaL
quelle