Warum wurde der Buchstabe Q in Q-learning gewählt?

17

Warum wurde der Buchstabe Q im Namen von Q-learning gewählt?

Die meisten Buchstaben werden als Abkürzung gewählt, z. B. steht π für policy und v für value. Aber ich glaube nicht, dass Q eine Abkürzung für ein Wort ist.

zeichnen
quelle
1
Nach meinem metaphorischen Verständnis ist Q eine Funktion, die eine Menge (Belohnung, Kosten oder was auch immer optimiert wird) für eine Aktion in einem bestimmten Zustand assoziiert.
Knk
1
@sycorax Die ursprüngliche Frage implizierte ein Verständnis von Q-Learning. Um eine Erklärung anzubieten, wäre es hilfreich, den Kontext hinzuzufügen. Das OP würde ohne Begründung verloren gehen.
Knk
Hilft das metaphorische Q = Quantity? Ich betrachte es als Quantifizierung von Maßnahmen bei gegebenen Zuständen
knk

Antworten:

35

Es tut mir leid, alle zu enttäuschen, aber Q steht für nichts :)

Q-Learning wurde 1989 von Watkins in seiner Doktorarbeit vorgeschlagen , siehe S.96. Das Q in der Gleichung auf dieser Seite wird bei jedem Schritt auf bestimmte Weise aktualisiert. Das Q ist die erwartete Rückkehr von der Aktion in einem gegebenen Zustand, siehe Definition von Q auf S.46. Die Rendite ist im wirtschaftlichen oder spieltheoretischen Sinne, dh mit einer abgezinsten Wahrscheinlichkeit gewichtete Belohnungen, kein Informatikbegriff wie eine Rendite von einer Funktion.

Beachten Sie, dass er bereits P für die Wahrscheinlichkeit und R für die Belohnung verwendet hat und Q für die Rückgabe genommen hat. Das ist es. Es gibt keine tiefere Bedeutung für die Wahl eines Buchstabens Q.

Aksakal
quelle
3
Keine tiefere Bedeutung, aber es ist eine Bedeutung (Q passt zu P und R im Alphabet) und steht für etwas .
Sextus Empiricus
2
@ MartijnWeterings Es ist überhaupt keine Bedeutung. Es handelt sich um eine rein syntaktische Buchstabenwahl ohne jegliche semantische Überlegungen.
David Richerby
Sicher, es kann einige semantische Überlegungen geben (und diese könnten diskutiert werden, da Unterschiede zwischen lateinischen oder griechischen Buchstaben, Buchstaben an verschiedenen Positionen des Alphabets oder Groß- und Kleinbuchstaben eine Grauzone zwischen Syntaktik und Semantik bilden können). Ich halte die Wahl von Q für "sinnvoll", da die Form des Buchstabens (die etwas willkürlich ist) die Bedeutung der Variablen / Parameter in gewissem Maße ausdrückt. Die Bedeutung bezieht sich auf die Wahl des Buchstabens. Es hätte keine gute Wahl gegeben, wenn u oder v gewählt worden wären, oder i, j, k oder x, y, z oder . α,β,γ
Sextus Empiricus
@ MartijnWeterings, Q klingt auch wie eine Warteschlange , die auch etwas relevante Konnotationen bringt
Aksakal
Q.ichRichPichichVichPichf G hx yV U
Sextus Empiricus
0

Q.(st,eint)Q.(st,eint)+α(rt+γ×maxeinQ.(st+1,ein)-Q.(st,eint))

Q.

Ameet Deshpande
quelle
2
Lesen Sie diese These und sagen Sie mir, wie "Qualität" im Kontext der erwarteten Rückkehr Sinn macht
Aksakal
Obwohl ich Ihnen zustimme, wurde die These geschrieben, nachdem Watkins Andy zu einer Reihe von Dingen befragt hatte. Andy hatte vielleicht eine bessere Idee als Sie denken.
Ameet Deshpande
Qualität existiert nicht einmal als eigenständiges Lernkonzept. Sie können das Wort natürlich im üblichen Sinne aus dem Englischen verwenden. Die erwartete Rendite hingegen ist in der Spieltheorie sehr gut definiert. Sie muss nicht durch vage Begriffe wie Qualität verwässert werden. Sie maximieren nicht die Qualität, sondern die reduzierten Belohnungen unter dem geeigneten Wahrscheinlichkeitsmaß. Wenn Sie etwas breiter sein möchten, können Sie das Dienstprogramm maximieren.
Aksakal