Ich habe vorhandene Antworten auf CrossValidated (und an anderer Stelle online) gelesen und kann nicht finden, wonach ich suche. Bitte verweise mich jedoch auf vorhandene Quellen, wenn ich sie verpasst habe.
Angenommen, ich habe einen Datensatz mit N = 1000 Datensätzen, von denen jeder manuell abgetastet und entweder als "gültig" oder "ungültig" (oder als wahr / falsch, richtig / falsch usw.) gekennzeichnet werden kann.
Ich möchte ein bestimmtes Maß an Sicherheit erreichen, dass alle Datensätze im Datensatz gültig sind. Wenn ich beim Probieren von Datensätzen einen einzelnen ungültigen Datensatz finde, gehe ich zurück und ändere, wie der Datensatz erstellt wird, um dieses und ähnliche Probleme zu beheben.
Nach einigen Iterationen des Erkennens von Invaliden, des Fixierens und Neuerstellens des Datensatzes führe ich einige Stichproben durch, die nur gültige Datensätze enthalten. Wenn ich zu 99% oder 95% sicher sein möchte, dass alle Datensätze gültig sind, wie groß muss meine Stichprobe sein? (Idealerweise als Funktion von N.)
Ich habe versucht, mit hypergeometrischen Tests herumzuspielen ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - in diesem Zusammenhang möchte ich wissen, was k sein soll, aber ich habe keinen festen Wert von K. Vielmehr möchte ich k so wählen, dass K wahrscheinlich gleich N ist - aber das Setzen von K = N ergibt offensichtlich eine Wahrscheinlichkeit von 1! Ich frage mich auch, ob ich einen Bayes'schen Ansatz verwenden muss, aber ich verstehe die Bayes'schen Statistiken nicht genug.
quelle
Antworten:
Dies kann als Test der Nullhypothese, dass der Datensatz einige ungültige Datensätze enthält ( ), gegenüber der Alternative, dass keine vorhanden sind ( ), eingerahmt werden, da in der Stichprobe keine ungültigen Datensätze gefunden wurden ( ). Die proximale Null, die am schwierigsten abzulehnen ist, ist, dass es einen einzelnen ungültigen Datensatz gibt ( ). Ersetzen Sie diese durch die hypergeometrische Wahrscheinlichkeitsmassenfunktion für eine Stichprobe der Größe aus einem Datensatz der Größe , um den p-Wert zu erhalten (es sind möglicherweise keine kleineren Werte von zu berücksichtigen):K = 0 k = 0 K = 1 n N kK>0 K=0 k=0 K=1 n N k
Die minimale Stichprobengröße erforderlich ist, um die Nullhypothese bei einem Signifikanzniveau ablehnen zu können (oder äquivalent, um ein einseitiges Konfidenzintervall von ), ist einfachn∗ p α=1−p K=0
Mit und ist . Wenn das viel zu sein scheint, denken Sie daran, dass die Gültigkeit aller tausend Datensätze ein strenges Kriterium ist. Wenn Sie überlegen, es zu entspannen, kann der gleiche Ansatz verwendet werden, um beispielsweise zu testen .N=1000 α=0.95 n∗=950 K>9
quelle