Es scheint davon auszugehen, dass der Lehrer während des Trainings forciert (dh anstatt die Vermutung des Decoders für eine Position als Eingabe für die nächste Iteration zu verwenden, wird das bekannte Token verwendet.
Der Begriff "Lehrerzwang" stört mich ein wenig, weil er die Idee irgendwie verfehlt: Es ist nichts Falsches oder Seltsames daran, dem RNN-Modell das nächste bekannte Token zuzuführen - es ist buchstäblich die einzige Möglichkeit, zu berechnen) . Wenn Sie eine Verteilung über Sequenzen autoregressiv als wie dies üblicherweise der ist, wobei jeder bedingte Term mit einem RNN modelliert wird, ist "Lehrer-Forcen" derjenige, der wahr ist Verfahren, das die Protokollwahrscheinlichkeit korrekt maximiert. (Ich lasse das Schreiben der Konditionierungssequenz oben weg, weil sie nichts ändert.)logP(y1,…,yN)P(y)=∏iP(yi|y<i)x
Angesichts der Allgegenwart von MLE und des Mangels an guten Alternativen halte ich die Annahme, dass "Lehrerzwang" nicht zu beanstanden ist, nicht für verwerflich.
Trotzdem gibt es zugegebenermaßen Probleme damit - das Modell weist allen Datenpunkten eine hohe Wahrscheinlichkeit zu, aber Stichproben aus dem Modell sind nicht unbedingt wahrscheinlich in der tatsächlichen Datenverteilung (was zu Stichproben mit "geringer Qualität" führt). Sie könnten an "Professor Forcing" (Lamb et al.) Interessiert sein, das dies durch ein kontroverses Trainingsverfahren mildert, ohne MLE aufzugeben.
Es würde keine langen Sequenzen bestrafen. Da die Wahrscheinlichkeit von 1 bis N des Ausgangs beträgt, würde, wenn der Decoder eine längere Sequenz erzeugt, alles nach dem ersten N den Verlust nicht berücksichtigen.
und
Wenn das Modell ein frühes Ende des String-Tokens vorhersagt, erfordert die Verlustfunktion immer noch N Schritte - was bedeutet, dass wir Ausgaben basierend auf einer nicht trainierten "Mannigfaltigkeit" der Modelle generieren. Das scheint schlampig.
Keines dieser Probleme tritt während des Trainings auf. Anstatt ein autoregressives Sequenzmodell als eine Prozedur zur Ausgabe einer Vorhersage zu betrachten, sollten Sie es als eine Möglichkeit betrachten, zu berechnen, wie wahrscheinlich eine gegebene Sequenz ist. Das Modell sagt niemals etwas voraus - Sie können eine Sequenz oder ein Token aus einer Verteilung abtasten oder fragen, was das wahrscheinlichste nächste Token ist -, aber diese unterscheiden sich entscheidend von einer Vorhersage (und Sie probieren während des Trainings nicht ab) entweder).
Wenn ja, gab es Fortschritte bei der Entwicklung einer erweiterten Verlustfunktion?
Es kann durchaus Ziele geben, die von Fall zu Fall speziell für verschiedene Modellierungsaufgaben entwickelt wurden. Ich würde jedoch sagen, dass MLE immer noch dominant ist - das jüngste GPT2-Modell, das auf einem breiten Spektrum von Modellierungs- und Verständnisaufgaben in natürlicher Sprache eine Leistung auf dem neuesten Stand der Technik erzielte, wurde damit trainiert.