Ist es möglich, BERT für die Aufgabe der Vorhersage des nächsten Wortes zu verwenden, da es bidirektional ist (einen bidirektionalen Transformator verwendet)? Wenn ja, was muss optimiert werden?
neural-network
deep-learning
attention-mechanism
transformer
bert
不是 phd 的 phd
quelle
quelle
Antworten:
BERT kann nicht für die Vorhersage des nächsten Wortes verwendet werden, zumindest nicht nach dem aktuellen Stand der Forschung zur Modellierung maskierter Sprachen.
BERT ist in einer maskierten Sprachmodellierungsaufgabe geschult und daher können Sie "das nächste Wort nicht vorhersagen". Sie können ein Wort nur maskieren und BERT bitten, es für den Rest des Satzes vorherzusagen (sowohl links als auch rechts vom maskierten Wort).
Auf diese Weise können Sie mit BERT keinen Text abtasten, als wäre es ein normales autoregressives Sprachmodell. BERT kann jedoch als Markov-Random-Field-Language-Modell angesehen und als solches für die Texterzeugung verwendet werden. Siehe Artikel BERT hat einen Mund und es muss sprechen: BERT als Markov Random Field Language Model für Details. Die Autoren veröffentlichten Quellcode und ein Google Colab-Notizbuch .
Update: Die Autoren der MRF Artikel ihre Analyse entdeckt wurde , fehlerhaft und BERT ist kein MRF finden diese
quelle