Ab welchem ​​n werden n-Gramm kontraproduktiv?

13

Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm).

Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette kontraproduktiv wird, wenn man bedenkt, wie lange es dauert, einen bestimmten Korpus auf dieser Ebene einmal zu klassifizieren? Oder wie lange würde es dauern, die Wahrscheinlichkeiten aus einem (Datenstruktur-) Wörterbuch herauszusuchen?

jonsca
quelle
im Zusammenhang mit diesem anderen Thread über den Fluch der Dimensionalität
Antoine

Antworten:

2

Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette kontraproduktiv wird, wenn man bedenkt, wie lange es dauert, einen bestimmten Korpus auf dieser Ebene einmal zu klassifizieren?

Sie sollten nach Ratlosigkeit im Vergleich zu Tabellen oder Diagrammen mit einer Größe von n Gramm Ausschau halten .

Beispiele:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

Bildbeschreibung hier eingeben

http://images.myshared.ru/17/1041315/slide_16.jpg :

Bildbeschreibung hier eingeben

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

Bildbeschreibung hier eingeben

Die Ratlosigkeit hängt von Ihrem Sprachmodell, der Größe des n-Gramms und dem Datensatz ab. Wie üblich gibt es einen Kompromiss zwischen der Qualität des Sprachmodells und der Laufzeit. Die besten Sprachmodelle basieren heutzutage auf neuronalen Netzen, so dass die Wahl der n-Gramm-Größe weniger ein Problem darstellt (aber dann müssen Sie die Filtergröße (n) auswählen, wenn Sie unter anderem CNN verwenden…).

Franck Dernoncourt
quelle
12

Ihr Maß für "kontraproduktiv" könnte willkürlich sein - z. mit viel schnellem Speicher könnte es schneller verarbeitet werden (vernünftiger).

Nachdem ich das gesagt habe, tritt ein exponentielles Wachstum ein und scheint nach meinen eigenen Beobachtungen um die 3-4-Marke zu liegen. (Ich habe keine spezifischen Studien gesehen).

Trigramme haben einen Vorteil gegenüber Bigrams, aber sie sind klein. Ich habe noch nie ein 4-Gramm-System implementiert, aber die Verbesserung wird deutlich geringer ausfallen. Vermutlich eine ähnliche Größenordnung Abnahme. Z.B. Wenn Trigramme die Situation um 10% gegenüber Bigrams verbessern, kann eine vernünftige Schätzung für 4 Gramm eine Verbesserung um 1% gegenüber Trigrammen bedeuten.

10,000100002100003100004

Sie werden einen riesigen Korpus benötigen, um den Verdünnungseffekt zu kompensieren, aber Zipfs Gesetz besagt, dass ein riesiger Korpus auch noch einzigartigere Wörter enthalten wird ...

Ich spekuliere, dass wir aus diesem Grund viele Bigram- und Trigramm-Modelle, Implementierungen und Demos sehen. aber keine voll funktionsfähigen 4-Gramm-Beispiele.

winwaed
quelle
2
Eine gute Zusammenfassung. Die Seiten 48-53 ("long rambling cynical diatribe") des folgenden Papiers enthalten weitere Details dazu (das Papier enthält auch einige Ergebnisse für n-Gramm höherer Ordnung). Research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny
2
Der Link ist tot. Hier ist die vollständige Referenz und der Link zur arXiv-Version: Joshua T. Goodman (2001). Ein bisschen Fortschritt in der Sprachmodellierung: Erweiterte Version. Microsoft Research: Redmond, WA (USA). Technischer Bericht MSR-TR-2001-72.
scozy