Ich bin ein Webentwickler und ein unerfahrener Statistiker.
Meine Daten sehen ungefähr so aus
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Ich versuche, y1 als Produkt der x-Variablen vorherzusagen. Ich habe jedoch Grund zu der Annahme, dass die Auswirkung der mehreren x-Variablen auf y1 möglicherweise verzögert ist, dh die x-Variablen ab Woche 1 für Subjekt A beeinflussen y1 für Subjekt A in Woche 2.
Beachten Sie, dass nicht alle Probanden Datenpunkte für jede Woche haben (die meisten sogar nicht). Die Probanden haben in der Regel Datenpunkte für beispielsweise Woche 1, 2, 3, 4, fallen dann ab und werden erst in Woche 7,8,9 wieder angezeigt. Ich bin bereit, meine Analyse auf Datenpunkte zu beschränken, an denen wir aufgrund meiner Hypothese über die Verzögerung Daten für die letzten N Wochen haben.
Wie gesagt, ich bin ein Neuling und nicht sicher, wie ich am besten mit einem Datensatz dieser Form umgehen soll. Ich hoffe, diese Analyse entweder in R, Python oder einer Kombination aus beiden durchführen zu können. Ich denke nicht, dass die x-Variablen der aktuellen Woche keine Auswirkung haben werden. Ich denke, sie werden eine gewisse Wirkung haben, vielleicht größer als in den vergangenen Wochen. Ich glaube nur, dass die vergangenen Wochen einige Auswirkungen haben werden.
Ich erwarte eine Verzögerung von zwei bis drei Wochen. Um einen kleinen Kontext zu geben, bezieht sich die Analyse, die ich hier versuche, auf die Beurteilung der Qualität des Online-Verkehrs. Jede Woche erhalte ich eine Bewertung der Qualität eines bestimmten Benutzerstroms, den ich an eine bestimmte Website sende. Ich versuche, sekundäre Metriken wie Browserverteilung, prozentuale doppelte Klickraten usw. zu finden, mit denen ich vorhersagen kann, wie hoch diese Punktzahl im Voraus sein wird.
Antworten:
Wie ich oben in meinem Hinweis erwähnt habe, würde ich dies als Regressionsproblem behandeln. Hier ist ein Link zum Erstellen der Lag- (und Lead-) Variablen aus Ihren Daten ( R Head ) in R.
Der Beitrag enthält eine kurze Einführung in die Verwendung der resultierenden Daten in einem Regressionsmodell. Möglicherweise möchten Sie auch ein wenig Hintergrundinformationen zum R-Paket dynlm (dynamische lineare Regression) erstellen.
quelle
Sie können Tabellen erstellen, in denen das y1 um 0,1,2,3,4 Wochen verschoben ist.
Anschließend führen Sie eine Analyse durch. Sie könnten beispielsweise ein neuronales Netzwerk erstellen, das versucht, y1 aus x vorherzusagen. Für einige Ideen können Sie Weka eine Spritztour geben.
Dann haben Sie ein gewisses Maß für die Vorhersage von y1 aus x für jede Verzögerung. Auf diese Weise können Sie die Verzögerung finden, die am besten passt.
Alternativ können Sie eine Tabelle erstellen, die x aus der aktuellen Woche, x aus der vorherigen Woche, ... und y1 enthält. Führen Sie dann eine Einflussanalyse durch (z. B. PCA ), um festzustellen , welche Woche und welche Variable den größten Einfluss hat.
quelle