Ich kann den Zweck der Wichtigkeitsabtastung von Gewichten (IS) in der priorisierten Wiedergabe (Seite 5) nicht verstehen .
Es ist wahrscheinlicher, dass ein Übergang aus der Erfahrungswiederholung entnommen wird, je höher seine "Kosten" sind. Nach meinem Verständnis hilft 'IS' dabei, die Verwendung der priorisierten Wiedergabe reibungslos aufzugeben, nachdem wir lange genug trainiert haben. Aber was verwenden wir stattdessen, einheitliche Stichproben?
Ich kann wohl nicht erkennen, wie sich jede Komponente in einem solchen Koeffizienten auf das Ergebnis auswirkt. Könnte jemand es in Worten erklären?
Es wird dann verwendet, um den Gradienten zu dämpfen, den wir aus Übergängen zu erhalten versuchen.
Wo:
- ist "IS"
- N ist die Größe des Experience Replay-Puffers
- P (i) ist die Chance, den Übergang auszuwählen , abhängig davon, "wie fett seine Kosten sind".
- beginnt bei 0 und wird mit jeder neuen Epoche näher und näher an 1 gezogen.
Ist mein Verständnis dieser Parameter auch korrekt?
Bearbeiten Irgendwann, nachdem die Antwort akzeptiert wurde, fand ich eine zusätzliche Quelle, ein Video, das für Anfänger hilfreich sein könnte - MC Simmulations: 3.5 Importance Sampling
Bearbeiten Wie @avejidah im Kommentar zu seiner Antwort sagte " wird verwendet, um die Stichproben durch die Wahrscheinlichkeit zu mitteln, mit der sie abgetastet werden" .
Um zu erkennen, warum es wichtig ist, nehmen wir an , dass auf 1 festgelegt ist. Wir haben 4 Stichproben mit jeweils wie folgt:
0.1 0.2 0.3 0.4
Das heißt, der erste Eintrag hat 10% der Auswahl, der zweite 20% usw. Wenn wir sie nun umkehren, erhalten wir:
10 5 3.333 2.5
Mittelung über (in unserem Fall ) erhalten wir:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Wie wir sehen können, sind sie viel näher an Null als die einfach invertierten Versionen ( ). Dies bedeutet, dass der Gradient für unser Netzwerk nicht so stark vergrößert wird, was zu einer viel geringeren Varianz führt, wenn wir unser Netzwerk trainieren.
Ohne dieses hätten wir das Glück, die am wenigsten wahrscheinliche Stichprobe ( ) auszuwählen , und der Gradient würde zehnmal skaliert. Bei kleineren Werten, z. B. einer Wahrscheinlichkeit von , wäre es noch schlimmer , wenn unsere Erfahrungswiederholung viele tausend Einträge enthält, was durchaus üblich ist.
Ich habe einen Zweifel. Als PER-Papier
Wird der 1 / N-Faktor also nicht unwirksam? Betrachten Sie zum Beispiel die letzte Stichprobe.
damit,
durch Normalisierung,
Bitte helfen Sie mir, wenn mein Verständnis falsch ist.
quelle