Sprachmodellierung: Warum ist das Addieren von 1 so wichtig?

8

In vielen Anwendungen zur Verarbeitung natürlicher Sprache wie Rechtschreibkorrektur, maschinelle Übersetzung und Spracherkennung verwenden wir Sprachmodelle. Sprachmodelle werden normalerweise erstellt, indem gezählt wird, wie oft Wortfolgen (n-Gramm) in einem großen Korpus vorkommen, und die Anzahl normalisiert wird, um eine Wahrscheinlichkeit zu erstellen. Um unsichtbare n-Gramm zu berücksichtigen, verwenden wir Glättungsmethoden (siehe einige hier aufgeführte ), die einen Teil der Wahrscheinlichkeitsmasse aus den im Modell attestierten n-Gramm nehmen und diese Masse auf n-Gramm niedrigerer Ordnung (kürzere Wortfolgen) verteilen ) Backoff-Wahrscheinlichkeiten.

Viele der Glättungstechniken werden mathematisch komplex, da die Berechnungen die Verteilung als Wahrscheinlichkeit beibehalten müssen (müssen sich zu 1 addieren).

Was ist der Grund für diese Einschränkung? Was ist der Vorteil der Verwendung strenger Wahrscheinlichkeiten für die Vorhersage anstelle von Scores anderer Art?

PS Die dem Link entsprechende Referenz ist [Stanley F. Chen und Joshua Goodman (1998), „Eine empirische Studie über Glättungstechniken für die Sprachmodellierung“].

user9617
quelle
1
Ich arbeite nicht in diesem Bereich, aber ich verstehe nicht, warum das Summieren der beobachteten Werte und das anschließende Teilen jedes Werts durch die Summe den Algorithmus unhandlich machen sollte. Es scheint mir, dass wenn die Modelle zu komplex, langsam oder numerisch instabil (usw.) sind, das Problem höchstwahrscheinlich anderswo liegt.
Gung - Reinstate Monica
Es ist gar nicht so schlecht, die Zählungen überhaupt nicht aufzuteilen. Beim Glätten wird es komplizierter. Katz zum Beispiel: en.wikipedia.org/wiki/Katz's_back-off_model
user9617
@ user9617 Ihr Link ist tot. Könnten Sie ihn bitte aktualisieren oder die Referenz hinzufügen, damit die Nutzer die Ressource auch in Zukunft googeln können? Vielen Dank im Voraus
Antoine
@Antoine fertig. Ich verstehe nicht ganz, was mit dem PDF passiert ist, auf das ich zuvor verlinkt habe, aber dieses ist genauso gut.
user9617
@ user9617 Danke +1! Ich habe die entsprechende Referenz hinzugefügt, falls der Link in Zukunft wieder stirbt.
Antoine

Antworten:

5

Die Hauptvorteile der Verwendung strenger Wahrscheinlichkeiten sind: a) einfache Interpretation der Zahlen; und b) in der Lage sein, das Bayes-Theorem und andere probabilistische Methoden in der nachfolgenden Analyse zu verwenden. In einigen Situationen ist dies jedoch nicht erforderlich. Wenn Sie beispielsweise die Ergebnisse nur ohne weitere Analyse bewerten möchten, müssen Sie die Ergebnisse nicht normalisieren.

dcorney
quelle