In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden (siehe einige hier aufgeführte ), die einen Teil der Wahrscheinlichkeitsmasse aus den im Modell attestierten n-Gramm nehmen und diese Masse auf n-Gramm niedrigerer Ordnung (kürzere Wortfolgen) verteilen ) Backoff-Wahrscheinlichkeiten.
Viele der Glättungstechniken werden mathematisch komplex, da die Berechnungen die Verteilung als Wahrscheinlichkeit beibehalten müssen (müssen sich zu 1 addieren).
Was ist der Grund für diese Einschränkung? Was ist der Vorteil der Verwendung strenger Wahrscheinlichkeiten für die Vorhersage anstelle von Scores anderer Art?
PS Die dem Link entsprechende Referenz ist [Stanley F. Chen und Joshua Goodman (1998), „Eine empirische Studie über Glättungstechniken für die Sprachmodellierung“].
Antworten:
Die Hauptvorteile der Verwendung strenger Wahrscheinlichkeiten sind: a) einfache Interpretation der Zahlen; und b) in der Lage sein, das Bayes-Theorem und andere probabilistische Methoden in der nachfolgenden Analyse zu verwenden. In einigen Situationen ist dies jedoch nicht erforderlich. Wenn Sie beispielsweise die Ergebnisse nur ohne weitere Analyse bewerten möchten, müssen Sie die Ergebnisse nicht normalisieren.
quelle