Das Problem des maschinellen Lernens in einen Regressionsrahmen übersetzen

12

Angenommen, ich habe eine Gruppe von erklärenden Variablen für i = 1 . . . N , t = 1 . . . T sowie ein Vektor von binären Ergebnis abhängigen Variablen Y i T . So Y wird erst in der letzten Zeit beobachtet T und nicht zu einem frühen Zeitpunkt. Der ganz allgemeine Fall ist, zu jeder Zeit t für jede Einheit i mehrere X i j t für j = 1 ... K zu habenXiti=1...Nt=1...TYiTYTXijtj=1...Kit, aber konzentrieren wir uns der Kürze halber auf den Fall .K=1

Anwendungen solcher "unausgeglichenen" Paare mit zeitlich korrelierten erklärenden Variablen sind zB (tägliche Aktienkurse, vierteljährliche Dividenden), (tägliche Wetterberichte, jährliche Wirbelstürme) oder (Schachpositionsmerkmale nach jedem Zug, Gewinn / Verlust-Ergebnis bei das Ende des Spiels).(X,Y)

Ich interessiere mich für die (möglicherweise nichtlinearen) Regressionskoeffizienten zur Vorhersage von Y i t , da ich weiß, dass in den Trainingsdaten bei frühzeitigen Beobachtungen von X i t für t < T das Endergebnis Y i T resultiertβtYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Vor dem Hintergrund der Ökonometrie habe ich nicht viel Regressionsmodellierung gesehen, die auf solche Daten angewendet wurde. OTOH, ich habe die folgenden Techniken des maschinellen Lernens gesehen, die auf solche Daten angewendet werden:

  1. dabei überwachtes Lernen auf dem gesamten Datensatz, zB Minimierungs

i,t12(Yitf(Xitβt))2

durch einfaches Extrapolieren / Zurechnen des beobachteten zu allen vorherigen ZeitpunktenY

YitYiT,t=1...T1

Dies fühlt sich "falsch" an, da die zeitliche Korrelation zwischen den verschiedenen Zeitpunkten nicht berücksichtigt wird.

  1. dabei Verstärkung Lernen , wie Temporal-Differenz mit Parameterlern und reduzierten Parametern λ , und die Lösung von rekursiv für β t durch Rückausbreitung ausgehend von t =αλβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

mit weiterempfehlen der Gradient von f ( )βY^f() in Bezug auf .β

Dies scheint "korrekter" zu sein, da es die zeitliche Struktur berücksichtigt, aber die Parameter und & lgr; sind eine Art "ad hoc".αλ

Frage : Gibt es Literatur darüber, wie die oben genannten Techniken des überwachten / verstärkten Lernens in einem Regressionsrahmen abgebildet werden können, wie er in der klassischen Statistik / Ökonometrie verwendet wird? Insbesondere möchte ich in der Lage sein, die Parameter auf einmal zu schätzen (dh für alle t =βt gleichzeitig)indem (nichtlineare) Least-Squares oder Maximum-Likelihood auf Modellen wie z wiet=1...T

YiT=f(t=1TXitβt)+ϵi

Mich würde auch interessieren, ob der zeitliche Unterschied Lernmetaparameter undαaus einer Maximum-Likelihood-Formulierung wiederhergestellt werden könnten.λ

TemplateRex
quelle
Können Sie die Formulierung im dritten Absatz präzisieren? Sie schreiben, dass Sie aus X i t , t < T vorhersagen möchten, aber die folgende Formel legt nahe, dass Sie Y i t vorhersagen möchten . YiTXitt<TYit
NRH,
@NRH tatsächlich, ich beobachte nur , aber was ich habe in der Literatur zu überwachtes Lernen gesehen ist , dass sie zurechnet die unbeobachteten Y i t , um gleich Y i T und dann die passenden tun , um tatsächlich diese Fälschung erklärt Y i t von X i t (dies erfolgt in Spielanwendungen, bei denen eine Bewertungsfunktion für jede Position auf das Endergebnis des Spiels angewendet wird). Entschuldigung, wenn dies aus meiner anfänglichen Formulierung nicht klar war. In jedem Fall Y i wäre das vorhergesagte „Ergebnis“ (in Spielanwendungen) gegeben beobachteten EreignisseYiTYitYiTYitXitY^it . Xit
TemplateRex
Ich verstehe das Setup und was Sie beobachten, aber Ihre Formulierung in der Frage ist unklar. Möchten Sie ein Modell für die Vorhersage von trainieren, während Sie in Worten schreiben, oder möchten Sie ein Modell für die Vorhersage von Y i t für alle t trainieren, wie in den Formeln angegeben? Vielleicht ist es nur ein Tippfehler. Wenn Sie "... Vorhersage von Y i T ..." schreiben , meinen Sie dann "... Vorhersage von Y i T ..."? YiTYittYiTYit
NRH
Es ist nicht klar, warum Sie dies tun möchten. Wenn Sie die tatsächliche praktische Anwendung erklären können, erhalten Sie möglicherweise klarere Antworten. Im Allgemeinen führt die beste Vorhersage für jede Zeitspanne nur eine Regression von für die verfügbaren Daten X 1 , , X t separat für jedes t durch. Es ist nicht offensichtlich, dass eine gleichzeitige Herangehensweise von Nutzen ist. Ich denke, Sie müssen das statistische Modell für Ihren Datensatz angeben und dann sind die Vorteile vielleicht klarer. YTX1,,Xt
Seanv507
@NRH, ja, ich möchte aus X i t vorhersagen und wissen, dass es zu Y i T in den Trainingsdaten führt, um optimale Maßnahmen für Testdaten zu ergreifen, bei denen ich X i t ebenfalls beobachte, dies aber noch nicht getan habe beobachtete das Ergebnis. Wird meine Formulierung aktualisieren. YitXitYiTXit
TemplateRex

Antworten:

1

Die Beschreibung des Problems ist mir nicht ganz klar, deshalb versuche ich, einige Annahmen zu erraten. Wenn dies Ihre Frage nicht beantwortet, kann es zumindest hilfreich sein, die Probleme weiter zu klären.

Das erste, was mir nicht klar ist, sind die Daten, auf die Sie Ihre Vorhersage stützen möchten. Wenn Sie basierend auf beobachteten Daten bis t < T vorhersagen möchten, ist ein rekursiver Ansatz wie in Ihrer Methode 2 nicht sinnvoll, da dies zukünftige Daten verwenden würde, dh X τ mit τ > t .YTt<TXττ>t

Zweitens geben Sie nicht an, welche Eigenschaften Ihr vorhergesagtes soll. Im Allgemeinen ist bei gegebener Information X 1 , ... , X t zum Zeitpunkt t < T die bedingte Erwartung Y t = E [ Y TX 1 , ... , X t ] der "beste Prädiktor" von Y T im Sinne von L2. Für den Fall, dass Sie die bedingte Erwartung wirklich vorhersagen möchten, ist das gewöhnliche kleinste Quadrat die Methode der Wahl für die praktische Schätzung.YtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Außerdem verstehe ich Ihre Bemerkung nicht, dass sich die Korrelationen nicht in der auf basierenden Regression widerspiegeln . Dies beinhaltet alles , was Sie wissen , bis t einschließlich der Korrelationen zwischen Beobachtungen.X1,,Xtt

Fassen Sie das also zusammen und formulieren Sie es als Antwort: Wenn Sie eine optimale Vorhersage im L2-Sinne machen möchten, die nur auf Daten basiert, die bis , können Sie die Regression der kleinsten Quadrate verwenden.t<T

gg
quelle
in den Trainingsdaten, möchte ich die Tatsache nutzen , dass ein gegebenes Beobachtung statistisch zu den Ergebnissen führen wird Y i T , um vorherzusagen , Y i t für Testdaten , wo ich nicht beachten Y i T , bis später. Wenn Sie beispielsweise wissen, dass es nach 3 windigen Tagen wahrscheinlich am 7. Tag regnen wird, möchten Sie diese Informationen verwenden, um die Leute nach dem Wochenende nach einigen windigen Tagen davor anzuweisen, Regenschirme mitzubringen. XitYiTY^itYiT
TemplateRex
0

Zeitliche Unterschiede haben den Vorteil, dass Sie aus unvollständigen Episoden lernen können. Sequenzen, bei denen Sie noch nicht das endgültige Y erreicht haben, können weiterhin zur Anpassung an das Modell verwendet werden. Stattdessen werden nachfolgende Schätzungen verwendet. Der Effekt ähnelt der versteckten Datenimputation. implizit schreiben Sie den Rest der Sequenz gemäß Ihrem aktuellen Modell zu.
Zeitdifferenzmodelle werden normalerweise durch stochastischen Gradientenabstieg trainiert . steuert die Lernrate. Zu hoch und die Methode wird divergieren. Zu niedrig und Konvergenz zu einem lokalen Optimum wird sehr langsam sein. Konvergenz sollte jedoch immer dasselbe Modell sein. Hier ist γα
γγ=1

nsweeney
quelle
αγ
αSteuert die Geschwindigkeit der Konvergenz, sollte jedoch keine Auswirkung auf das endgültige Modell oder die Wahrscheinlichkeit dieses Modells haben. In der Praxis habe ich es durch Ausprobieren eingestellt. Sie müssen einstellenγda es die relative Bedeutung von Kurzzeit- und Langzeitvorhersagen steuert, wenn für Kurz- und Langzeitvorhersagen dieselben Parameter verwendet werden. Dies ist anwendungsspezifisch, je nachdem, was Sie mit den Vorhersagen tun möchten.
Nsweeney