Bei der Verarbeitung natürlicher Sprache kann man einen Korpus nehmen und die Wahrscheinlichkeit des Auftretens des nächsten Wortes in einer Folge von n auswerten. n wird normalerweise als 2 oder 3 gewählt (Bigramm und Trigramm).
Gibt es einen bekannten Punkt, an dem die Verfolgung der Daten für die n-te Kette kontraproduktiv wird, wenn man bedenkt, wie lange es dauert, einen bestimmten Korpus auf dieser Ebene einmal zu klassifizieren? Oder wie lange würde es dauern, die Wahrscheinlichkeiten aus einem (Datenstruktur-) Wörterbuch herauszusuchen?
text-mining
natural-language
jonsca
quelle
quelle
Antworten:
Sie sollten nach Ratlosigkeit im Vergleich zu Tabellen oder Diagrammen mit einer Größe von n Gramm Ausschau halten .
Beispiele:
http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :
http://images.myshared.ru/17/1041315/slide_16.jpg :
http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :
Die Ratlosigkeit hängt von Ihrem Sprachmodell, der Größe des n-Gramms und dem Datensatz ab. Wie üblich gibt es einen Kompromiss zwischen der Qualität des Sprachmodells und der Laufzeit. Die besten Sprachmodelle basieren heutzutage auf neuronalen Netzen, so dass die Wahl der n-Gramm-Größe weniger ein Problem darstellt (aber dann müssen Sie die Filtergröße (n) auswählen, wenn Sie unter anderem CNN verwenden…).
quelle
Ihr Maß für "kontraproduktiv" könnte willkürlich sein - z. mit viel schnellem Speicher könnte es schneller verarbeitet werden (vernünftiger).
Nachdem ich das gesagt habe, tritt ein exponentielles Wachstum ein und scheint nach meinen eigenen Beobachtungen um die 3-4-Marke zu liegen. (Ich habe keine spezifischen Studien gesehen).
Trigramme haben einen Vorteil gegenüber Bigrams, aber sie sind klein. Ich habe noch nie ein 4-Gramm-System implementiert, aber die Verbesserung wird deutlich geringer ausfallen. Vermutlich eine ähnliche Größenordnung Abnahme. Z.B. Wenn Trigramme die Situation um 10% gegenüber Bigrams verbessern, kann eine vernünftige Schätzung für 4 Gramm eine Verbesserung um 1% gegenüber Trigrammen bedeuten.
Sie werden einen riesigen Korpus benötigen, um den Verdünnungseffekt zu kompensieren, aber Zipfs Gesetz besagt, dass ein riesiger Korpus auch noch einzigartigere Wörter enthalten wird ...
Ich spekuliere, dass wir aus diesem Grund viele Bigram- und Trigramm-Modelle, Implementierungen und Demos sehen. aber keine voll funktionsfähigen 4-Gramm-Beispiele.
quelle