Unterscheidet sich Prophet von Facebook von einer linearen Regression?

11

Was ich über den Propheten von Facebook gelesen habe, ist, dass er die Zeitreihen im Grunde in Trend und Saisonalität unterteilt. Ein additives Modell würde beispielsweise wie folgt geschrieben:

y(t)=g(t)+s(t)+h(t)+et

mit

  • t die Zeit
  • g(t) der Trend (kann linear oder logistisch sein)
  • s(t) die Saisonalität (täglich, wöchentlich, jährlich ...)
  • h(t) die Feiertage
  • et der Fehler

Meine Fragen sind: Könnte es nicht mit einer einfachen linearen Regression gemacht werden? Was wären die Unterschiede in Bezug auf die Ergebnisse, wenn wir sie vergleichen würden, und warum?

K. Hua
quelle
Ja, Sie könnten dies mit einem linearen Modell tun. Ich kenne den Propheten nicht, aber wenn das alles ist, was er tut, dann gibt es keinen Unterschied.
user2974951

Antworten:

13

Hier geht es darum, zu einer Gleichung zu gelangen, die die beobachteten Daten auf Signal und Rauschen analysiert. Wenn Ihre Daten einfach sind, funktioniert Ihr Regressionsansatz möglicherweise. Es sollte darauf geachtet werden, einige der Annahmen zu verstehen, die sie mit dem Propheten treffen. Sie sollten besser verstehen, was der Prophet tut, da es nicht nur zu einem einfachen Modell passt, sondern versucht, eine Struktur hinzuzufügen.

Zum Beispiel könnten einige Überlegungen, die ich nach dem Lesen ihrer gut geschriebenen Einführung gemacht habe, Ihnen bei Ihrer Bewertung helfen. Ich entschuldige mich im Voraus, wenn ich ihren Ansatz missverstanden habe, und möchte in diesem Fall korrigiert werden.

1) Ihr führendes Beispiel weist zwei Trendpunkte auf, aber sie haben nur den offensichtlichsten erfasst.

2) Sie ignorieren alle ARIMA-Strukturen, die ausgelassene stochastische Reihen oder den Wert der Verwendung historischer Werte von Y als Richtschnur für die Prognose widerspiegeln.

3) Sie ignorieren mögliche Dynamiken (Lead- und Lag-Effekte) von vom Benutzer vorgeschlagenen stochastischen und deterministischen Reihen. Die kausalen Regressionseffekte des Propheten sind einfach nur zeitgleich.

4) Es wird kein Versuch unternommen, Stufen- / Pegelverschiebungen in der Reihe oder saisonale Impulse zu identifizieren, z. B. eine Änderung des MONTAGSEFFEKTES in der Mitte der Zeit aufgrund eines unbekannten externen Ereignisses. Prophet geht von einem "einfachen linearen Wachstum" aus, anstatt es durch Prüfung alternativer Möglichkeiten zu validieren. Ein mögliches Beispiel hierfür finden Sie unter Prognose wiederkehrender Bestellungen für ein Online-Abonnementgeschäft mit Facebook Prophet und R.

5) Sinus und Cosinus sind eine undurchsichtige Art, mit Saisonalität umzugehen, während saisonale Effekte wie Wochentag, Wochentag, Wochentag, Monat des Monats sind viel effektiver / informativer im Umgang mit anthropogenen (Umgang mit Menschen!) Wirkungen.

Das Vorschlagen von Häufigkeiten von 365,25 für jährliche Muster ist wenig sinnvoll, da wir nicht genau am selben Tag wie im letzten Jahr dieselbe Aktion ausführen, während die monatliche Aktivität viel anhaltender ist, aber der Prophet scheint die 11 monatlichen Indikatoren nicht anzubieten Möglichkeit. Wöchentliche Häufigkeiten von 52 machen wenig Sinn, da wir nicht jedes Jahr 52 Wochen haben.

6) Es wird kein Versuch unternommen, Fehlerprozesse als Gauß'sch zu validieren, so dass aussagekräftige Signifikanztests durchgeführt werden können.

7) Keine Sorge, dass die Modellfehlervarianz homogen ist, dh sich zu bestimmten Zeitpunkten nicht deterministisch ändert, was auf gewichtete kleinste Quadrate hindeutet. Keine Sorge, eine optimale Leistungstransformation zu finden, um die Fehlervarianz proportional zum erwarteten Wert zu behandeln. Wann (und warum) sollten Sie das Protokoll einer Verteilung (von Zahlen) erstellen? .

8) Der Benutzer muss alle möglichen Lead- und Lag-Effekte für Ereignisse / Feiertage vorab festlegen. Beispielsweise steigt der tägliche Umsatz häufig Ende November, was auf die langfristigen Auswirkungen von Weihnachten zurückzuführen ist.

9) Keine Sorge, dass die resultierenden Fehler frei von Strukturen sind, die Möglichkeiten zur Verbesserung des Modells durch diagnostische Überprüfung auf Suffizienz vorschlagen.

10) Anscheinend keine Bedenken hinsichtlich der Verbesserung des Modells durch Löschen einer nicht signifikanten Struktur.

11) Es gibt keine Möglichkeit, eine Familie simulierter Prognosen zu erhalten, bei denen die Konfidenzgrenzen möglicherweise nicht unbedingt symmetrisch sind, indem die Fehler des Modells unter Berücksichtigung möglicher Anomalien gebootet werden.

12) Wenn der Benutzer Annahmen über Trends treffen kann (Anzahl der Trend-Haltepunkte und die tatsächlichen Haltepunkte), wird eine unerwünschte / unbrauchbare Flexibilität angesichts einer groß angelegten Analyse ermöglicht, die nach ihrem Namen für freihändige Großanwendungen konzipiert ist.

IrishStat
quelle
Stimmen Sie zu, aber ich würde sagen, dass diese Dinge näher an "nice to have" -Funktionen liegen, dann an "must have". Sie können qualitativ hochwertige Prognosemodelle haben, denen einige davon fehlen. Aber wie gesagt, gute Punkte und nette Bewertung.
Tim
Sie sind in Ihrer Reflexion ganz richtig ... die inhärente Komplexität der "Daten" ist das entscheidende Thema. Einfache Daten ... brauchen einfache Lösungen ... komplexe Daten deuten darauf hin, dass das "schön zu haben" zu einem "Bedürfnis" werden könnte. Nur Ihre Daten wissen es genau! Occams Rasiermesser kommt mir in den Sinn.
IrishStat
@Tim stats.stackexchange.com/questions/417908/… Thread schlägt vor, dass einige Funktionen, die "schön zu haben" sind, in Wirklichkeit "müssen" sein sollten, um falsche Annahmen wie "einfachen linearen Trend" zu vereiteln.
IrishStat
10

Ich habe es nicht benutzt, aber dies ist die Zusammenfassung ihres Preprint (Hervorhebung von mir):

Prognosen sind eine gängige datenwissenschaftliche Aufgabe, die Unternehmen bei der Kapazitätsplanung, Zielsetzung und Erkennung von Anomalien unterstützt. Trotz seiner Bedeutung sind mit der Erstellung zuverlässiger und qualitativ hochwertiger Prognosen ernsthafte Herausforderungen verbunden - insbesondere dann, wenn es eine Vielzahl von Zeitreihen gibt und Analysten mit Fachkenntnissen in der Modellierung von Zeitreihen relativ selten sind . Um diesen Herausforderungen zu begegnen, beschreiben wir einen praktischen Ansatz für die Prognose „im Maßstab“, der konfigurierbare Modelle mit einer Analyse der Leistung von Analysten im laufenden Betrieb kombiniert. Wir schlagen ein modulares Regressionsmodell mit interpretierbaren Parametern vor, das von Analysten mit Domänenkenntnissen über die Zeitreihen intuitiv angepasst werden kann. Wir beschreiben Leistungsanalysen zum Vergleichen und Bewerten von Prognoseverfahren und kennzeichnen Prognosen automatisch zur manuellen Überprüfung und Anpassung. Tools, mit denen Analysten ihr Fachwissen am effektivsten nutzen können, ermöglichen eine zuverlässige und praktische Prognose von Geschäftszeitreihen.

In der Einleitung:

Bei der Erstellung von Geschäftsprognosen haben wir zwei Hauptthemen beobachtet. Erstens können vollautomatische Prognosetechniken schwer abzustimmen sein und sind oft zu unflexibel, um nützliche Annahmen oder Heuristiken zu berücksichtigen. Zweitens verfügen die Analysten, die für datenwissenschaftliche Aufgaben in einem Unternehmen verantwortlich sind, in der Regel über umfassende Fachkenntnisse in Bezug auf die spezifischen Produkte oder Dienstleistungen, die sie unterstützen, verfügen jedoch häufig nicht über Schulungen zur Vorhersage von Zeitreihen.

Es scheint mir also, dass sie nicht behaupten, hier einen wesentlichen statistischen Fortschritt gemacht zu haben (obwohl es weit mehr kann als das einfache Modell, das Sie skizzieren). Stattdessen behaupten sie, dass ihr System es einer großen Anzahl von Personen ohne Erfahrung in der Zeitreihenanalyse ermöglicht, Prognosen zu erstellen und dabei ihre eigene Fachkompetenz und systemspezifische Einschränkungen anzuwenden.

Wenn Sie bereits Erfahrung sowohl in der Zeitreihenanalyse als auch in der Codierung komplexer Modelle haben, ist dies für Sie möglicherweise nicht sehr hilfreich. Aber wenn ihre Behauptungen wahr sind, könnte dies äußerst nützlich sein! Wissenschaft (und Handel) schreiten nicht nur aufgrund neuer Ideen voran, sondern auch aufgrund neuer Werkzeuge und ihrer Verbreitung (siehe diesen kurzen Artikel von Freeman Dyson über das Thema und diese Antwort ).

Um ein Beispiel aus der Statistik selbst zu nehmen: Es Rstellte keinen statistischen Fortschritt dar, aber es war massiv einflussreich, weil es viel mehr Menschen die Durchführung statistischer Analysen erleichtert hat. Es war das Gerüst, auf dem viel statistisches Verständnis aufgebaut wurde. Wenn wir Glück haben, kann der Prophet eine ähnliche Rolle spielen.

Dyson, Freeman J. "Wird die Wissenschaft hauptsächlich von Ideen oder Werkzeugen angetrieben?" Science 338, no. 6113 (2012): 1426 & ndash; 1427.

mkt - Monica wieder einsetzen
quelle
0

Ihnen fehlen die Änderungspunkte, stückweise lineare Splines, die in linearen Modellen implementiert werden können.

Sie haben Recht, dass es sich zumindest im Grenzfall um eine linear regulierte Regression handelt (L1- und L2-Regularisierung).

Beachten Sie, dass es ein separates Prophetenmodell gibt, das logistische Wachstum.

Sie gehen auch davon aus, dass die saisonalen Faktoren additiv sind, unterstützen aber auch multiplikative saisonale Effekte, was zumindest für die Wachstumsmodellierung natürlicher erscheint.

seanv507
quelle
Die Annahme des Propheten, Protokolle zu erstellen, widerspricht dieser wertvollen Diskussion ... stats.stackexchange.com/questions/18844/…, bei der Leistungstransformationen aufgrund einer empirischen Beziehung zwischen dem erwarteten Wert und der Modellfehlervarianz ODER einer bestimmten gerechtfertigt sind Nichtlineare Vermutung basiert auf Domänenwissen.
IrishStat
@IrishStat Vielen Dank für diesen Punkt (ich hatte vergessen, dass sie die Protokolltransformation protokollieren, um multiplikative Saisonalität zu implementieren. Sie verwenden STAN, daher glaube ich, dass sie ein nichtlineares Modell hätten verwenden können, anstatt Protokolle zu erstellen). Können Sie Ihre Unterscheidung zwischen der Annahme einer multiplikativen Saisonalität und einer 'nichtlinearen Annahme'
erklären?
Wenn Sie sich @ whubers Antwort stats.stackexchange.com/questions/298/… ansehen , schlägt er Transformationen vor, "wenn die wissenschaftliche Theorie dies anzeigt", was eine mögliche nichtlineare Annahme wäre, die auf Domänenwissen basiert. Empirische Leistungstransformationen sind nützlich, wenn festgestellt wird, dass die Varianz der Fehler proportional zum erwarteten Wert ist, andernfalls kann es sich einfach um eine "Fensterdekoration" handeln.
IrishStat
0

Mit einer einfachen linearen Regression kann viel getan werden, aber nicht alles, was der Prophet tut. Nur ein Beispiel: Sie können Ihren eigenen Änderungspunktkandidaten für einen Trend angeben, und Prophet verwendet ihn als Prior.

Aksakal
quelle