Kann ein Modell von P (Y | X) durch stochastischen Gradientenabstieg von nicht-iid-Proben von P (X) und iid-Proben von P (Y | X) trainiert werden?

10

Beim Trainieren eines parametrisierten Modells (z. B. zur Maximierung der Wahrscheinlichkeit) über einen stochastischen Gradientenabstieg in einem Datensatz wird üblicherweise angenommen, dass die Trainingsmuster aus der Trainingsdatenverteilung entnommen werden. Wenn das Ziel darin besteht, eine gemeinsame Verteilung zu modellieren , sollte jede Trainingsprobe aus dieser Verteilung gezogen werden.P(X,Y)(xi,yi)

Wenn das Ziel stattdessen darin besteht, eine bedingte Verteilung zu modellieren , wie ändert sich dann, wenn überhaupt, die iid-Anforderung?P(Y|X)

  1. Müssen wir noch jede Stichprobe aus der gemeinsamen Verteilung ziehen?(xi,yi)
  2. Sollten wir iid aus zeichnen, dann iid aus ?xiP(X)yiP(Y|X)
  3. Können wir nicht iid aus zeichnen (z. B. über die Zeit korreliert), und dann iid aus zeichnen ?xiP(X)yiP(Y|X)

Können Sie die Gültigkeit dieser drei Ansätze für den stochastischen Gradientenabstieg kommentieren? (Oder helfen Sie mir, die Frage bei Bedarf neu zu formulieren.)

Ich würde gerne # 3 machen, wenn möglich. Meine Anwendung ist das verstärkte Lernen, bei dem ich ein parametrisiertes bedingtes Modell als Kontrollrichtlinie verwende. Die Folge von Zuständen ist stark korreliert, aber die Aktionen werden aus einer stochastischen Politik abgetastet, die vom Zustand abhängig ist. Die resultierenden Stichproben (oder eine Teilmenge davon) werden zum Trainieren der Richtlinie verwendet. (Mit anderen Worten, stellen Sie sich vor, Sie führen in einer bestimmten Umgebung eine Steuerungsrichtlinie für eine lange Zeit aus und erfassen einen Datensatz mit Status- / Aktionsbeispielen. Obwohl die Status über die Zeit korreliert sind, werden die Aktionen unabhängig generiert, abhängig vom Status.) Dies ist der Situation in diesem Artikel etwas ähnlich .xiyi(xi,yi)

Ich fand einen Artikel, Ryabko, 2006, " Mustererkennung für bedingt unabhängige Daten ", der zunächst relevant schien; Dort ist die Situation jedoch umgekehrt zu dem, was ich brauche, wo (die Bezeichnung / Kategorie / Aktion) nicht aus gezeichnet werden kann und (das Objekt / Muster / Zustand) aus ) gezeichnet werden kann .yiP(Y)xiP(X|Y)

Update: Zwei im Ryabko-Papier erwähnte Artikel ( hier und hier ) scheinen hier relevant zu sein. Sie nehmen an, dass aus einem beliebigen Prozess stammt (z. B. nicht iid, möglicherweise nicht stationär). Sie zeigen, dass Schätzer für den nächsten Nachbarn und den Kernel in diesem Fall konsistent sind. Ich bin jedoch mehr daran interessiert, ob eine Schätzung basierend auf dem stochastischen Gradientenabstieg in dieser Situation gültig ist.xi

Tyler Streeter
quelle
1
Vielleicht fehlt mir etwas, und ich habe die Zeitung nicht gelesen, aber: Sie zeichnen non-iid aus und nehmen dann iid aus . Ryabko (2006) zeichnet non-iid aus und tastet dann iid aus . Diese scheinen bis zur Umbenennung gleich zu sein. Gibt es etwas grundlegend anderes an den Objekten und , das dies nicht zur gleichen Situation macht? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal
@Dougal: Der Unterschied besteht darin, dass bedingte Verteilungsmodelle wie bedingte Zufallsfelder und (die "Eingaben" und "Ausgaben") unterschiedlich behandeln ... sie modellieren nur eine Richtung ( aber nicht ). Y P ( Y | X ) P ( X | Y )XYP(Y|X)P(X|Y)
Tyler Streeter
2
Ich würde in diesem Fall die folgende Analogie betrachten. Angenommen, und sind zwei korrelierte Zeitreihen (zeitliche Korrelation). Wir möchten eine Funktion herausfinden, die dem Finden von . Wenn , das der Rest ist, IID ist (daher stationär und unkorreliert), konvergiert das Schätzverfahren ohne Vorspannung. Grundsätzlich sollte die Verarbeitung der Zeitreihen in Zeitreihenfolge oder einer zufälligen Reihenfolge in einem MLE-Verfahren keine Rolle spielen, solange die bedingte Wahrscheinlichkeit korrekt angegeben ist und die Residuen IID sind. X i Y i = f ( X i ; θ ) P ( Y i | X i ; θ ) P ( Y i | X i ; θ )YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

Antworten:

1

Ich denke, Sie könnten entweder 2 oder 3 machen. Das Problem mit 3 ist jedoch, dass Sie beim Zulassen beliebiger Verteilungen für X Verteilungen einbeziehen, bei denen die gesamte oder fast die gesamte Wahrscheinlichkeit konzentriert wäre, ein kleines Intervall im x-Raum. Dies würde die Gesamtschätzung von P (Y | X) beeinträchtigen, da Sie für bestimmte Werte von X nur wenige oder keine Daten hätten.

Michael R. Chernick
quelle
Wollen Sie damit sagen, dass ich mit Ansatz 3 ein unvoreingenommenes Ergebnis mit potenziell hoher Varianz erzielen würde?
Tyler Streeter
Wenn an oder in der Nähe eines Punktes x keine Daten vorhanden sind , können Sie P nicht einmal schätzen (Y | X = x ), und wenn nur wenige Punkte vorhanden sind, ist die Varianz der Schätzung groß. 111
Michael R. Chernick
Ja, das macht Sinn, dass die Varianz groß sein könnte. Ich denke, meine Hauptsorge ist, ob das geschätzte P (Y | X) verzerrt sein wird.
Tyler Streeter
Wir haben keine Punktschätzung besprochen. Wenn Sie unverzerrte Schätzungen für P (X), P (Y) und P (X | Y) haben und diese in die Formel P (Y | X) = P (X | Y) P (Y) / P (X) einfügen Sie erhalten eine voreingenommene Schätzung.
Michael R. Chernick
Ich sollte betonen, dass ich über die Schätzung von P (Y | X) über stochastischen Gradientenabstieg spreche. In diesem Fall kann die Reihenfolge der Trainingsmuster beeinflussen, wie schnell oder ob es zum richtigen Modell konvergiert. Ich verwende nicht nur Stichprobenmittelwerte, bei denen die Reihenfolge der Stichproben keine Rolle spielt.
Tyler Streeter