Gibt es vorgenerierte numerische Reihen mit bekannten statistischen Eigenschaften?

8

Ich versuche, ein Programm zu testen, das behauptet, einige statistische Eigenschaften einer numerischen Sequenz zu berechnen (wie Mittelwert, Median, Standardabweichung usw.). Einfache und kurze Sequenzen bestehen den Test gut, aber ich möchte das Programm entweder mit langen Sequenzen oder Sequenzen mit großen und kleinen Werten (zum Testen von Überläufen / Unterläufen) usw. herausfordern. Gibt es also Software, Online-Ressourcen oder andere Quelle verschiedener numerischer Sequenzen mit bekannten statistischen Eigenschaften?

mbaitoff
quelle

Antworten:

9

Das US-amerikanische National Institute of Standards and Technology verfügt über eine Reihe statistischer Referenzdatensätze, "die Referenzdatensätze mit zertifizierten Werten für eine Vielzahl statistischer Methoden bereitstellen", einschließlich eines Satzes mit der Bezeichnung "univariate zusammenfassende Statistik" mit zertifizierten Werten für Mittelwert, Standardabweichung und Lag-1-Autokorrelation.

Es scheint keine Werte des Medians zu enthalten, aber eine genaue Berechnung des Medians sollte kein Problem sein. Eine effiziente Berechnung des Stichprobenmedians ist etwas schwieriger.

ein Stop
quelle
Diese Datensätze scheinen ziemlich kurz zu sein - höchstens mehrere Tausend Werte. Gibt es lange Sequenzen und Sequenzen mit einigen Extremwerten, die auf Überläufe und Präzisionsverlust getestet werden müssen? Gibt es für diese Sätze auch statistische Eigenschaften "höherer Ordnung" wie Schiefe, Kurtosis usw.?
Mbaitoff
1

Sie können Ihre bevorzugte Statistik-Toolbox (meine ist R) verwenden, um lange Zeitreihen von Daten zu generieren. In R ist es beispielsweise möglich, Daten aus allen Arten von Verteilungen zu generieren. Auf diese Weise können Sie überprüfen, ob dieses Programm, das Sie testen, mit Ihrem anderen Statistikprogramm übereinstimmt. Das vergleicht nur die Leistung mit zB R, aber ich würde R in dieser Hinsicht vertrauen :).

Paul Hiemstra
quelle
Ich suche nicht nur Sequenzen, sondern auch Sequenzen mit möglichen Fallstricken. Die Verteilungsart ist hier nicht sehr relevant.
Mbaitoff