Ich suche eine robuste Schätzung des Mittelwerts, der eine bestimmte Eigenschaft hat. Ich habe eine Reihe von Elementen, für die ich diese Statistik berechnen möchte. Dann füge ich nacheinander neue Elemente hinzu und möchte für jedes weitere Element die Statistik neu berechnen (auch als Online-Algorithmus bezeichnet). Ich möchte, dass diese Aktualisierungsberechnung schnell ist, vorzugsweise O (1), dh nicht abhängig von der Größe der Liste.
Das übliche Mittel hat die Eigenschaft, dass es effizient aktualisiert werden kann, aber für Ausreißer nicht robust ist. Typische robuste Schätzer des Mittelwerts wie der Interquartilmittelwert und der getrimmte Mittelwert können nicht effizient aktualisiert werden (da eine sortierte Liste erforderlich ist).
Ich würde mich über Vorschläge für robuste Statistiken freuen, die effizient berechnet / aktualisiert werden können.
quelle
Antworten:
Diese Lösung implementiert einen Vorschlag von @Innuo in einem Kommentar zur Frage:
Sobald wir wissen, wie diese Teilmenge beibehalten werden kann, können wir eine beliebige Methode auswählen , um den Mittelwert einer Population aus einer solchen Stichprobe zu schätzen. Dies ist eine universelle Methode, bei der keinerlei Annahmen getroffen werden und die mit jedem Eingabestream mit einer Genauigkeit funktioniert , die unter Verwendung statistischer Standardstichprobenformeln vorhergesagt werden kann. (Die Genauigkeit ist umgekehrt proportional zur Quadratwurzel der Stichprobengröße.)
R
n
sample.size
online
actual
actual
Für zuverlässige Schätzer des Mittelwerts durchsuchen Sie bitte unsere Website nach Ausreißern und verwandten Begriffen. Zu den erwägenswerten Möglichkeiten zählen Winsorized-Mittel und M-Schätzer.
quelle
summary
durch eine robuste Variante erfolgen.Sie könnten daran denken, Ihr Problem mit dem des rekursiven Kontrolldiagramms in Beziehung zu setzen. Ein solches Kontrolldiagramm bewertet, ob eine neue Beobachtung die Kontrolle hat. Wenn dies der Fall ist, wird diese Beobachtung in die neue Schätzung des Mittelwerts und der Varianz einbezogen (erforderlich zur Bestimmung der Kontrollgrenzen).
Einige Hintergrundinformationen zu robusten, rekursiven, univariaten Kontrolldiagrammen finden Sie hier . Einer der klassischen Texte zur Qualitätskontrolle und zu Kontrollkarten scheint hier online verfügbar zu sein .
Ebenso müssen Sie die Varianz rekursiv aktualisieren:
In Bezug auf ein Diagramm wie das EWMA, das alte Beobachtungen vergisst und neuen mehr Gewicht verleiht, müssen Sie ältere Beobachtungen nicht exponentiell vergessen, wenn Sie der Meinung sind, dass Ihre Daten stationär sind (dh die Parameter der Erzeugungsverteilung ändern sich nicht). Sie können den Vergessensfaktor entsprechend einstellen. Wenn Sie jedoch der Meinung sind, dass es sich um eine Nichtstationarität handelt, müssen Sie einen guten Wert für den Vergessensfaktor auswählen (eine Möglichkeit hierzu finden Sie im Lehrbuch).
Ich denke, ein Ansatz in dieser Richtung wird zur schnellsten Aktualisierung Ihres Problems führen.
quelle