Angenommen, ich habe eine Gruppe von erklärenden Variablen für i = 1 . . . N , t = 1 . . . T sowie ein Vektor von binären Ergebnis abhängigen Variablen Y i T . So Y wird erst in der letzten Zeit beobachtet T und nicht zu einem frühen Zeitpunkt. Der ganz allgemeine Fall ist, zu jeder Zeit t für jede Einheit i mehrere X i j t für j = 1 ... K zu haben, aber konzentrieren wir uns der Kürze halber auf den Fall .
Anwendungen solcher "unausgeglichenen" Paare mit zeitlich korrelierten erklärenden Variablen sind zB (tägliche Aktienkurse, vierteljährliche Dividenden), (tägliche Wetterberichte, jährliche Wirbelstürme) oder (Schachpositionsmerkmale nach jedem Zug, Gewinn / Verlust-Ergebnis bei das Ende des Spiels).
Ich interessiere mich für die (möglicherweise nichtlinearen) Regressionskoeffizienten zur Vorhersage von Y i t , da ich weiß, dass in den Trainingsdaten bei frühzeitigen Beobachtungen von X i t für t < T das Endergebnis Y i T resultiert
Vor dem Hintergrund der Ökonometrie habe ich nicht viel Regressionsmodellierung gesehen, die auf solche Daten angewendet wurde. OTOH, ich habe die folgenden Techniken des maschinellen Lernens gesehen, die auf solche Daten angewendet werden:
- dabei überwachtes Lernen auf dem gesamten Datensatz, zB Minimierungs
durch einfaches Extrapolieren / Zurechnen des beobachteten zu allen vorherigen Zeitpunkten
Dies fühlt sich "falsch" an, da die zeitliche Korrelation zwischen den verschiedenen Zeitpunkten nicht berücksichtigt wird.
- dabei Verstärkung Lernen , wie Temporal-Differenz mit Parameterlern und reduzierten Parametern λ , und die Lösung von rekursiv für β t durch Rückausbreitung ausgehend von t =
mit weiterempfehlen der Gradient von f ( ) in Bezug auf .
Dies scheint "korrekter" zu sein, da es die zeitliche Struktur berücksichtigt, aber die Parameter und & lgr; sind eine Art "ad hoc".
Frage : Gibt es Literatur darüber, wie die oben genannten Techniken des überwachten / verstärkten Lernens in einem Regressionsrahmen abgebildet werden können, wie er in der klassischen Statistik / Ökonometrie verwendet wird? Insbesondere möchte ich in der Lage sein, die Parameter auf einmal zu schätzen (dh für alle t = gleichzeitig)indem (nichtlineare) Least-Squares oder Maximum-Likelihood auf Modellen wie z wie
Mich würde auch interessieren, ob der zeitliche Unterschied Lernmetaparameter undaus einer Maximum-Likelihood-Formulierung wiederhergestellt werden könnten.
quelle
Antworten:
Die Beschreibung des Problems ist mir nicht ganz klar, deshalb versuche ich, einige Annahmen zu erraten. Wenn dies Ihre Frage nicht beantwortet, kann es zumindest hilfreich sein, die Probleme weiter zu klären.
Das erste, was mir nicht klar ist, sind die Daten, auf die Sie Ihre Vorhersage stützen möchten. Wenn Sie basierend auf beobachteten Daten bis t < T vorhersagen möchten, ist ein rekursiver Ansatz wie in Ihrer Methode 2 nicht sinnvoll, da dies zukünftige Daten verwenden würde, dh X τ mit τ > t .YT t<T Xτ τ>t
Zweitens geben Sie nicht an, welche Eigenschaften Ihr vorhergesagtes soll. Im Allgemeinen ist bei gegebener Information X 1 , ... , X t zum Zeitpunkt t < T die bedingte Erwartung Y t = E [ Y T ≤ X 1 , ... , X t ] der "beste Prädiktor" von Y T im Sinne von L2. Für den Fall, dass Sie die bedingte Erwartung wirklich vorhersagen möchten, ist das gewöhnliche kleinste Quadrat die Methode der Wahl für die praktische Schätzung.Yt X1,…,Xt t<T Yt=E[YT∣X1,…,Xt] YT
Außerdem verstehe ich Ihre Bemerkung nicht, dass sich die Korrelationen nicht in der auf basierenden Regression widerspiegeln . Dies beinhaltet alles , was Sie wissen , bis t einschließlich der Korrelationen zwischen Beobachtungen.X1,…,Xt t
Fassen Sie das also zusammen und formulieren Sie es als Antwort: Wenn Sie eine optimale Vorhersage im L2-Sinne machen möchten, die nur auf Daten basiert, die bis , können Sie die Regression der kleinsten Quadrate verwenden.t<T
quelle
Zeitliche Unterschiede haben den Vorteil, dass Sie aus unvollständigen Episoden lernen können. Sequenzen, bei denen Sie noch nicht das endgültige Y erreicht haben, können weiterhin zur Anpassung an das Modell verwendet werden. Stattdessen werden nachfolgende Schätzungen verwendet. Der Effekt ähnelt der versteckten Datenimputation. implizit schreiben Sie den Rest der Sequenz gemäß Ihrem aktuellen Modell zu.α
γ γ=1
Zeitdifferenzmodelle werden normalerweise durch stochastischen Gradientenabstieg trainiert . steuert die Lernrate. Zu hoch und die Methode wird divergieren. Zu niedrig und Konvergenz zu einem lokalen Optimum wird sehr langsam sein. Konvergenz sollte jedoch immer dasselbe Modell sein. Hier ist γ
quelle