Ich lese diesen Artikel "Sequence to Sequence Learning mit neuronalen Netzen" http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
Unter "2. Das Modell" steht:
Das LSTM berechnet diese bedingte Wahrscheinlichkeit, indem es zuerst die feste dimensionale Darstellung v der Eingabesequenz (x1, ..., xT) erhält, die durch den letzten verborgenen Zustand des LSTM gegeben ist, und dann die Wahrscheinlichkeit von y1 ,. . . , yT 'mit einer Standard- LSTM-LM- Formulierung, deren anfänglicher verborgener Zustand auf die Darstellung v von x1 ,. . . , xT:
Ich weiß, was ein LSTM ist, aber was ist ein LSTM-LM? Ich habe versucht, es zu googeln, kann aber keine guten Hinweise finden.
machine-learning
neural-network
nlp
rnn
machine-translation
Taevanbat Mongol
quelle
quelle
Antworten:
Die Definition eines Sprachmodells (LM) ist eine Wahrscheinlichkeitsverteilung über Wortfolgen.
Die einfache Darstellung eines LM sagt das nächste Wort unter Berücksichtigung der vorherigen Wörter voraus.
Zum Beispiel, wenn ich ein Sprachmodell und ein oder mehrere Anfangswörter habe:
My
name
erscheintMy
.My name
sagt mein Modell voraus, dass eine hohe Wahrscheinlichkeit danachis
auftrittMy name
.My
->My name
->My name is
->My name is Tom
und so weiter.Sie können an die automatische Vervollständigung auf Ihrer Smartphone-Tastatur denken. In der Tat ist LM das Herzstück der Autovervollständigung.
Daher verwendet LSTM-LM einfach ein LSTM (und eine Softmax-Funktion), um das nächste Wort anhand Ihrer vorherigen Wörter vorherzusagen.
Das Sprachmodell ist übrigens nicht auf LSTM, andere RNNs (GRU) oder andere strukturierte Modelle beschränkt. Tatsächlich können Sie auch Feedforward-Netzwerke mit Kontext- / Schiebe- / Rollfenster verwenden, um das nächste Wort anhand Ihrer Anfangswörter vorherzusagen.
quelle
In diesem Zusammenhang bedeutet dies meiner Meinung nach, dass Sie die Ausgabedarstellung verwenden und eine zusätzliche Softmax-Ebene lernen, die den Token in Ihrem Sprachmodell entspricht (in diesem Fall Buchstaben).
quelle