Ich habe einen Datensatz, der einige hundert Transaktionen von drei Lieferanten enthält, die über einen Zeitraum von drei Jahren in über 100 Ländern tätig sind.
Wir haben festgestellt, dass das Verkaufsland kein wesentlicher Faktor für die erzielten Preise ist (die Produkte sind mehr oder weniger globale Waren). Alle Preise sind im Laufe der Zeit deutlich gesunken. Jeder Tag kann mehrere Transaktionen zu unterschiedlichen Preisen von demselben Lieferanten (dh in verschiedenen Ländern) haben.
Ich möchte testen, ob es einen statistisch signifikanten Unterschied in den von den verschiedenen Lieferanten berechneten Preisen gibt.
Die Daten sehen ungefähr so aus:
Country X 1/1/2010 $200 Supplier A
Country Y 1/1/2010 $209 Supplier A
Country Z 1/1/2010 $187 Supplier A
Country A 1/1/2010 $200 Supplier B
Country X 1/2/2010 $188 Supplier B
Irgendwelche Ideen dazu? .....
Antworten:
Es hört sich so an, als müssten Sie Zeitreihenmethoden wie ARMA oder ARIMA verwenden, mit denen Sie eine Regression unter Verwendung der Zeit als unabhängige Variable berechnen können, ohne die Annahme unabhängiger Beobachtungen von OLS zu verletzen.
Möglicherweise möchten Sie eine zweistufige Analyse durchführen: - Verwenden Sie zuerst die Zeit als einzelne Prädiktorvariable und verwenden Sie eine geeignete Zeitreihenmethode. - Zwei prüfen, ob zwischen den beiden Lieferanten ein bedeutender Unterschied in den Residuen besteht. (Ein einfacher T-Test könnte ausreichen.)
quelle
Es gibt verschiedene Möglichkeiten. Eine Option besteht darin, Daten in Tage nach dem ersten Tag umzuwandeln. Sie können auch zusätzliche Variablen für Wochentage (Trends über die Woche) und den Monat (um Trends zu bestimmten Jahreszeiten anzuzeigen) haben. Auf diese Weise können Sie mehrere Regressionen verwenden.
Um die Variable "Anzahl der Tage nach dem ersten Tag" zu erhalten, können Sie meiner Meinung nach (sowohl Excel als auch R) einfach die früheren Daten vom letzteren Datum subtrahieren und die Tagesdifferenz ermitteln. Versuchen Sie also vielleicht, den 1.1.2010 von all Ihren Daten abzuziehen. Sie sollten R auch mitteilen, dass der neue Wert numerisch ist, indem Sie as.numeric () verwenden.
EDIT: R scheint im ersten Jahr zu lesen, so dass Sie möglicherweise ein wenig an den Daten herumspielen müssen. Siehe hierzu: /programming/2254986/how-to-subtract-days-in-r
Die Zeitreihenanalyse ist ein anderer Ansatz, mit dem ich jedoch nicht allzu vertraut bin.
quelle
Ich kann Ihnen raten, die nichtlineare Funktion für Zeitvariablen zu verwenden, da die Preise mit jeder zusätzlichen Zeiteinheit geringer fallen. Andernfalls würde der Preis endgültig unter Null fallen. Darüber hinaus kann es Perioden geben, in denen sich der Trend geändert hat. Daher empfehle ich, kubische Splines als Zeitvariable zu verwenden.
Die Erfahrung flüstert mir zu, dass ich das folgende Modell überprüfen würde:
Y = country_parameter * price (t) * e
wobei Preis (t) eine Funktion ist, vorzugsweise ein kubischer Spline, aber es kann auch ein beliebiger linearer Trend sein. Beachten Sie, dass das Modell Multiplikationszeichen und keine Summen enthält.
quelle
Wählen Sie ein Referenzdatum aus, z. B. den 1.1.2010, und erstellen Sie eine neue Variable
time
, die die Differenz zwischen dem Datum und dem Referenzdatum darstellt, wobei die Differenz beispielsweise in Tagen berechnet wird.Führen Sie nun eine lineare Regression (oder ähnliches) mit
time
undsupplier
als den beiden Prädiktorvariablen undprice
als Antwortvariable aus.Dies ist nur ein Ausgangspunkt.
quelle