Meine Frage könnte wie folgt umformuliert werden: "Wie kann ein Stichprobenfehler mithilfe von Big Data bewertet werden?", Insbesondere für eine Zeitschriftenveröffentlichung. Hier ist ein Beispiel, um eine Herausforderung zu veranschaulichen.
Aus einem sehr großen Datensatz (> 100000 eindeutige Patienten und deren verschriebene Medikamente aus 100 Krankenhäusern) wollte ich einen Anteil der Patienten abschätzen, die ein bestimmtes Medikament einnehmen. Es ist unkompliziert, dieses Verhältnis zu erhalten. Sein Konfidenzintervall (z. B. parametrisch oder Bootstrap) ist unglaublich eng, weil n sehr groß ist. Obwohl es ein Glück ist, eine große Stichprobe zu haben, suche ich immer noch nach einer Möglichkeit, einige Arten von Fehlerwahrscheinlichkeiten zu bewerten, darzustellen und / oder zu visualisieren. Es erscheint zwar nicht hilfreich (wenn nicht irreführend), ein Konfidenzintervall anzugeben / darzustellen (z. B. 95% CI: .65878 - .65881), es scheint jedoch auch unmöglich, Aussagen über Unsicherheiten zu vermeiden.
Bitte sag mir was du denkst. Ich würde mich über Literatur zu diesem Thema freuen. Möglichkeiten, um zu viel Vertrauen in Daten auch bei einer großen Stichprobe zu vermeiden.
Antworten:
Dieses Problem ist auch in einigen meiner Forschungen aufgetaucht (als Epidemiemodellierer habe ich den Luxus, meine eigenen Datensätze zu erstellen, und mit ausreichend großen Computern können diese im Wesentlichen beliebig dimensioniert werden. Ein paar Gedanken:
Bei großen Datenmengen geht es im Großen und Ganzen darum, präzise Schätzungen bereitzustellen, sodass Sie sich meiner Meinung nach nicht vor dieser Präzision scheuen müssen. Sie müssen jedoch bedenken, dass Sie schlechte Daten nicht einfach verbessern können, indem Sie größere Mengen an schlechten Daten sammeln.
quelle
Dieses Problem ist in meinen eigenen Manuskripten aufgetaucht.
1. Berichtsoptionen: Wenn Sie nur ein oder mehrere CIs zu melden haben, ist die Berichterstellung "(z. B. 95% CI: .65878 - .65881)" nicht übermäßig ausführlich und unterstreicht die Genauigkeit des CIs. Wenn Sie jedoch über zahlreiche CIs verfügen, kann eine pauschale Aussage für den Leser hilfreich sein. Ich werde zum Beispiel normalerweise etwas berichten, das den Effekt hat, dass bei dieser Stichprobengröße die 95% ige Fehlerquote für jedes Verhältnis unter +/- .010 lag. Normalerweise melde ich so etwas in der Methode oder in der Überschrift von Tabelle oder Abbildung oder in beiden.
2. Vermeiden von "Überbewusstsein" auch bei großen Stichproben: Bei einer Stichprobe von 100.000 schützt Sie der zentrale Grenzwertsatz, wenn Sie CIs nach Anteilen auswerten. In der von Ihnen beschriebenen Situation sollten Sie also in Ordnung sein, es sei denn, es gibt andere Annahmen, deren Verstöße ich nicht kenne (z. B. Verstöße gegen IID).
quelle
Geben Sie keine Konfidenzintervalle an. Geben Sie stattdessen den genauen Stichprobenumfang und die Proportionen an. Der Leser kann seine eigenen CIs nach Belieben berechnen.
quelle
Berücksichtigen Sie die Möglichkeit, dass die Anteile der 100 verschiedenen Krankenhäuser nicht zum gleichen Mittelwert konvergieren. Haben Sie die Varianz zwischen den Gruppen getestet? Wenn es einen messbaren Unterschied zwischen Krankenhäusern gibt, wird die Annahme, dass die Stichproben aus einer gemeinsamen Normalverteilung generiert wurden, nicht unterstützt und Sie sollten sie nicht bündeln.
Wenn Ihre Daten jedoch tatsächlich aus einer normalverteilten großen Stichprobe stammen, werden Sie keine nützlichen "Aussagen über die Unsicherheit" als Eigenschaft der Daten finden, sondern nach Überlegung, warum oder warum Ihre Statistiken verallgemeinern sollten - aufgrund von Einige inhärente Verzerrungen bei der Sammlung oder fehlende Stationarität usw., auf die Sie hinweisen sollten.
quelle