Ich muss sicherstellen, dass meine XML-Sitemap weniger als Müll enthält (defekte Links). Die Liste der URLs liegt bei Hunderttausenden, und selbst wenn es möglich wäre, sie alle einzeln zu testen, würde ich es aus vielen Gründen lieber nicht tun:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Ich denke, eine zufällige Teilmenge wäre ausreichend. Das Problem ist, dass ich die Wahrscheinlichkeiten nicht kenne.
Gibt es eine einfache Funktion, die ich verwenden kann?
Wenn es hilft, können wir davon ausgehen, dass wir a priori Informationen über die Wahrscheinlichkeit haben, dass eine Verbindung über Läufe hinweg unterbrochen wird. Nehmen wir an, dass über Läufe hinweg für einen bestimmten Link vorhanden sind, der unterbrochen werden soll.
Antworten:
Es hängt also von der Verteilung Ihrer vorherigen Überzeugung über die Bruchrate ab, aber: ungefähr 3600.
Die Idee hier ist, Link-Brüche als Bernoulli-Studie zu modellieren und Ihre Überzeugungen über die Bruchrate als Beta-Verteilung zu modellieren. Die Beta-Distribution ist konjugiert mit der Bernoulli-Distribution , und die Möglichkeit, eine Beta-Distribution zu aktualisieren, wenn Sie eine Testversion ausführen, ist ziemlich einfach:
Wenn wir also mit einer -Verteilung beginnen und in etwa 0,75% der Fälle Fehler feststellen, wie viele Versuche dauert es, bis 95% der Masse der Verteilung unter 0,01 liegen? Über 3600.Beta ( 0 , 0 )
quelle
Für Proben mit einer von beträgt die Varianz für die Anzahl der Fehler . Verwenden Sie also den zentralen Grenzwertsatz mit als Standardnormal, Nun wollen wir, dass das Obige gleich 95 ist %, was . ich nach , ich .n p = 0,0075 n p ( 1 - p ) Z.
quelle