Einige Artikel sagen, dass BLEU keine geeignete Bewertungsmethode für Chatbot ist, stattdessen verwenden sie Ratlosigkeit, um Chatbot zu schätzen.
Was ist Ratlosigkeit? Wie berechnet man das? Und warum ist Ratlosigkeit eine gute Bewertungsmetrik für Chatbots?
neural-networks
natural-language-processing
chat-bots
RuiZhang1993
quelle
quelle
Antworten:
Mit Ratlosigkeit versuchen Sie, die Ähnlichkeit zwischen der vom Modell generierten Token-Verteilung (in Ihrem Fall wahrscheinlich Sätzen) und der in den Testdaten zu bewerten.
Angenommen, Sie habenM. Sätze s1, … ,sM. jeweils mit Wahrscheinlichkeit P.(sich) ist die Ratlosigkeit 2- l, wo l =1M.∑ P.(sich) logP.(sich) zum i ∈ [ 1 … M.]] .
Beachten Sie, dass Ratlosigkeit zwar nützlich sein kann, um bestimmte Aspekte des Modells zu erfassen, aber keineswegs perfekt ist. Selbst wenn Sie in der Lage sind, hohe Ratlosigkeit zu erzielen, führt dies nicht unbedingt zu einem guten oder sogar funktionierenden Chat-Bot.
quelle