Eine einfachere Methode zur Berechnung des exponentiell gewichteten gleitenden Durchschnitts?

8

Vorgeschlagene Methode:

Bei einer Zeitreihe möchte ich einen gewichteten gleitenden Durchschnitt mit einem Mittelungsfenster von Punkten berechnen , wobei die Gewichtungen neuere Werte gegenüber älteren Werten bevorzugen. N.xiN

Bei der Auswahl der Gewichte verwende ich die bekannte Tatsache, dass eine geometrische Reihe gegen 1 konvergiert, dh , vorausgesetzt, es werden unendlich viele Begriffe verwendet.(12)k

Um eine diskrete Anzahl von Gewichten zu erhalten, die sich zu Eins summieren, nehme ich einfach die ersten Terme der geometrischen Reihe und normalisiere dann durch ihre Summe.( 1N(12)k

Wenn beispielsweise ist, ergibt dies die nicht normalisierten GewichteN=4

0.0625  0.1250  0.2500  0.5000

was nach Normalisierung durch ihre Summe ergibt

0.0667  0.1333  0.2667  0.5333

Der gleitende Durchschnitt ist dann einfach die Summe des Produkts der letzten 4 Werte gegen diese normalisierten Gewichte.

Diese Methode verallgemeinert sich auf offensichtliche Weise auf das Verschieben von Fenstern der Länge und scheint auch rechnerisch einfach zu sein.N

Frage:

Gibt es einen Grund , diese einfache Methode nicht zu verwenden, um einen gewichteten gleitenden Durchschnitt mit 'Exponentialgewichten' zu berechnen?

Ich frage, weil der Wikipedia-Eintrag für EWMA komplizierter erscheint. Was mich wundert, ob die Lehrbuchdefinition von EWMA vielleicht einige statistische Eigenschaften hat, die die obige einfache Definition nicht hat? Oder sind sie tatsächlich gleichwertig?

Assad Ebrahim
quelle
Wie haben Sie die Summe normalisiert? Können Sie die von Ihnen gewählte Methode beschreiben? Es ist nicht sehr klar aus der Post. was nach Normalisierung durch ihre Summe 0,0667 0,1333 0,2667 0,5333
Zunächst nehmen Sie an, 1) dass es keine ungewöhnlichen Werte und keine Pegelverschiebungen und keine Zeittrends und keine saisonalen Dummies gibt; 2) dass der optimal gewichtete Durchschnitt Gewichte hat, die auf eine glatte Kurve fallen, die durch 1 Koeffizienten beschrieben werden kann; 3) dass die Fehlervarianz konstant ist; dass es keine bekannten ursächlichen Reihen gibt; Warum alle Annahmen?
IrishStat
@ Ravi: Im angegebenen Beispiel beträgt die Summe der ersten vier Terme 0,9375 = 0,0625 + 0,125 + 0,25 + 0,5. Die ersten vier Begriffe machen also ~ 93,8% des Gesamtgewichts aus (6,2% befinden sich im abgeschnittenen Schwanz). Verwenden Sie diese Option, um normalisierte Gewichte zu erhalten, die durch erneutes Skalieren (Teilen) durch 0,9375 zu Eins summieren. Dies ergibt 0,06667, 0,1333, 0,2667, 0,5333.
Assad Ebrahim
2
@IrishStat Es ist am besten, keine Personen in Kommentaren oder Antworten von der Website wegzulenken, da Ratschläge, die Sie außerhalb der Website geben, nicht mit der Frage zusammenhängen und daher späteren Lesern nicht helfen (siehe z. B. Grund 1. der Top-Antwort hier ). Wenn es ein geeigneter Rat ist, sollte es normalerweise hier sein.
Glen_b -State Monica
1
Detaillierte Erklärung der EWMA: mathematisch-modell-python.blogspot.dk/2013/11/…
tashuhka

Antworten:

10

Ich habe festgestellt, dass die Berechnung exponentiell gewichteter laufender Durchschnittswerte mit , istα<1x¯x¯+α(xx¯)α<1

  • eine einfache einzeilige Methode,
  • das ist leicht, wenn auch nur annähernd interpretierbar in Bezug auf eine "effektive Anzahl von Stichproben" (vergleiche dieses Formular mit dem Formular zur Berechnung des laufenden Durchschnitts),N=α1
  • benötigt nur das aktuelle Datum (und den aktuellen Mittelwert) und
  • ist numerisch stabil.

Technisch gesehen bezieht dieser Ansatz die gesamte Geschichte in den Durchschnitt ein. Die beiden Hauptvorteile der Verwendung des vollständigen Fensters (im Gegensatz zu dem in der Frage diskutierten abgeschnittenen Fenster) bestehen darin, dass es in einigen Fällen die analytische Charakterisierung der Filterung erleichtern und die Schwankungen reduzieren kann, die bei sehr großen (oder kleinen) Daten auftreten Wert ist Teil des Datensatzes. Betrachten Sie beispielsweise das Filterergebnis, wenn alle Daten bis auf ein Datum mit dem Wert Null sind .106

Dave
quelle
Hallo. Enthält die von Ihnen vorgeschlagene Formel alle vorherigen Werte mit exponentiell abnehmenden Gewichten? Die gesamte Zeitreihe wäre also enthalten, nicht nur die neuesten Punkte? Schlagen Sie unter Bezugnahme auf das in der Frage gestellte Beispiel , oder einzustellen, um den gleitenden 4-Punkt-Durchschnitt zu approximieren? N = 4 α = 0,25 α = 0,5NN=4α=0.25α=0.5
Assad Ebrahim
1
Ok, das macht Sinn. In Fällen, in denen die Zeitreihenwerte durch signifikante Kurzzeittransienten beeinflusst werden können, die nach Ablauf einer bestimmten Zeitspanne keinerlei Einfluss haben, kann es daher vorteilhaft sein, die abgeschnittene EWMA mit zu verwenden, die entsprechend ausgewählt wurde Relevanz 'Merkmal historischer Informationen. Die abgeschnittene EWMA würde in diesem Fall verhindern, dass eine Spitze überhaupt Auswirkungen auf das Ergebnis hat, selbst wenn sie in der jüngeren Vergangenheit aufgetreten ist, solange sie außerhalb des Bereichs der Informationsrelevanz auftritt ... Akzeptieren Sie Ihre Antwort - danke ! 10 6N106
Assad Ebrahim