Testen auf Benford Law in Echtzeit

7

Angenommen, ich habe Daten einer bestimmten Menge , gegeben durch . Jetzt nehme ich die erste Ziffer jeder Größe und möchte die Beziehung zwischen der empirischen Verteilung der ersten Ziffern wobei die normalisierte Häufigkeit des Auftretens von als erste Ziffer und das Benfordsche Gesetz Nun habe ich dieses Papier gelesenXx1,...,xndixip^=(p^1,...,p^n)pi^i

pi=log10(1+1/i)
zum Thema des Vergleichs der empirischen Häufigkeiten der ersten Ziffern mit dem Benfordschen Gesetz. Sie erwähnen jedoch nicht, ob die von ihnen genannten Methoden verwendet werden können, um das Benford-Gesetz mit einem gewissen Vertrauen in Echtzeit abzulehnen, wenn Daten mit einer bestimmten Häufigkeit eintreffen (z. B. 50 Daten pro Sekunde).

Ich denke, diese Methoden können auf folgende Weise auf den Echtzeitvergleich mit dem Benford-Gesetz angewendet werden: Bei einem (kleinen) Zeitintervall (z. B. 3 Sekunden) berechnen wir die empirischen Häufigkeiten der ersten Ziffern und dann berechnen wir die gleichzeitigen Konfidenzintervalle und Werte der Statistiken, die in der zuvor erwähnten Referenz gezeigt werden (wir müssen sicherstellen, dass wir eine Stichprobengröße haben so von mindestens 60 Daten, dass die Verteilung der Statistiken sollte relativ nahe an die asymptotischen Verteilungen sein, so dass die berechneten -Werte sollte zuverlässig sein).p^=(p^1,...,p^n)pp

Meine Frage ist, ist dies ein gültiges Verfahren? Macht das Sinn? Wenn nicht, gibt es eine fundierte Methode, um die empirische Verteilung der ersten Ziffer mit dem Benford-Gesetz in Echtzeit zu vergleichen?

Ein potenzielles Problem, das ich sehe, ist, dass sich die zugrunde liegende Verteilung der ersten Ziffern in einem bestimmten Zeitfenster ändern kann (möglicherweise sogar mehr als einmal). Aus diesem Grund halte ich es für eine gute Idee, relativ kleine Zeitfenster zu verwenden, um eine anständige Stichprobengröße zu erzielen und gleichzeitig die Wahrscheinlichkeit zu verringern, dass sich die zugrunde liegende Verteilung der ersten Ziffern ändert.

Nate River
quelle
3
+1 Es ist eine gute Frage - aber das vorgeschlagene Verfahren ist ungültig. Konfidenzintervalle können nicht für sequentielle Tests verwendet werden. Sie geben zu viele Fehlalarme.
whuber
@whuber danke!. Aus dem gleichen Grund würde ich auch in diesem Fall die Güte von Fit-Tests für ungültig erklären?
Nate River
Ja, ich denke das ist richtig.
whuber
1
Meine anfängliche Intuition ist, dass eine Art Bayes'scher Ansatz am natürlichsten wäre? Z.B. Die Bayes'schen Techniken wurden von Jean Baptiste Eugène Estienne verwendet, um Munitionschargen zu testen und dabei weniger Patronen zu verschwenden. Weniger verschwendete Patronen würden weniger Zeit in Ihrem Problem entsprechen.
Matthew Gunn
Möglicherweise liegt ein gewisser Wert in der Untersuchung der sequentiellen Analyse , die sich auf Probleme mit seriellen Tests bezieht.
Glen_b -Reinstate Monica

Antworten:

0

Sambridge et al. (2010) skizzieren eine Methode zur Bewertung der Konformität von Zeitreihendaten mit dem Benfordschen Gesetz. Obwohl Ihr Anwendungsfall etwas anders ist, funktioniert er möglicherweise auch für Sie.

Ihre Methode funktioniert wie folgt: Gruppieren Sie Ihre Daten in Beobachtungsfenstern und testen Sie jedes Fenster auf Konformität. Diese Methode wurde von denselben Autoren in anderen Artikeln verwendet (und veröffentlicht), sodass sie zumindest ausreichend ist, um ein paar Mal die Peer Review zu bestehen.

Obwohl sie ein eigenes Maß für die Anpassungsgüte haben, sehe ich keinen Grund, warum Sie kein Maß verwenden könnten, das normalerweise für die Analyse von Benford geeignet ist. Sie sollten sicherstellen, dass Ihre Kennzahl gute Eigenschaften für das von Ihnen ausgewählte Fenster oder die ausgewählte Stichprobengröße aufweist.

Indigochild
quelle