Konfidenzintervalle bei sehr großen Stichproben

14

Meine Frage könnte wie folgt umformuliert werden: "Wie kann ein Stichprobenfehler mithilfe von Big Data bewertet werden?", Insbesondere für eine Zeitschriftenveröffentlichung. Hier ist ein Beispiel, um eine Herausforderung zu veranschaulichen.

Aus einem sehr großen Datensatz (> 100000 eindeutige Patienten und deren verschriebene Medikamente aus 100 Krankenhäusern) wollte ich einen Anteil der Patienten abschätzen, die ein bestimmtes Medikament einnehmen. Es ist unkompliziert, dieses Verhältnis zu erhalten. Sein Konfidenzintervall (z. B. parametrisch oder Bootstrap) ist unglaublich eng, weil n sehr groß ist. Obwohl es ein Glück ist, eine große Stichprobe zu haben, suche ich immer noch nach einer Möglichkeit, einige Arten von Fehlerwahrscheinlichkeiten zu bewerten, darzustellen und / oder zu visualisieren. Es erscheint zwar nicht hilfreich (wenn nicht irreführend), ein Konfidenzintervall anzugeben / darzustellen (z. B. 95% CI: .65878 - .65881), es scheint jedoch auch unmöglich, Aussagen über Unsicherheiten zu vermeiden.

Bitte sag mir was du denkst. Ich würde mich über Literatur zu diesem Thema freuen. Möglichkeiten, um zu viel Vertrauen in Daten auch bei einer großen Stichprobe zu vermeiden.

so2015
quelle
7
Sie können ein zu hohes Vertrauen vermeiden, indem Sie darauf hinweisen, dass Fehler, die nicht auf die Stichprobe zurückzuführen sind, nicht behoben werden. Wenn es Abweichungen bei der Probenahme und Messung gibt, sind sie immer noch vorhanden. Unabhängig davon, ob Sie einzelne (ich würde eher sagen "verschiedene") Patienten oder auf andere Weise definierte Beobachtungen zählen, gibt es (ich nehme an) Clusterstrukturen, die Arzneimittel für denselben Patienten und Arzneimittel, die auf irgendeine Weise zusammen gegeben werden, miteinander verbinden werden nicht durch die einfachsten Konfidenzintervallberechnungen berücksichtigt. Ich habe keine Lösung, um dies zu quantifizieren, außer mit anderen Datensätzen zu vergleichen und die Datenproduktion zu dokumentieren.
Nick Cox

Antworten:

10

Dieses Problem ist auch in einigen meiner Forschungen aufgetaucht (als Epidemiemodellierer habe ich den Luxus, meine eigenen Datensätze zu erstellen, und mit ausreichend großen Computern können diese im Wesentlichen beliebig dimensioniert werden. Ein paar Gedanken:

  • In Bezug auf die Berichterstattung, ich glaube , Sie können genauere Konfidenzintervall berichten, obwohl der Nutzen dieses rechtmäßig ein wenig fragwürdig ist. Aber es ist nicht falsch, und bei Datensätzen dieser Größe gibt es meines Erachtens keinen großen Anlass, beide Anforderungsvertrauensbereiche zu melden und sich dann darüber zu beschweren, dass wir wirklich alle möchten, dass sie auf zwei Stellen gerundet werden usw.
  • Um zu viel Selbstvertrauen zu vermeiden, ist es meiner Meinung nach der Schlüssel, sich daran zu erinnern, dass Präzision und Genauigkeit verschiedene Dinge sind, und zu vermeiden, dass versucht wird, die beiden miteinander zu verschmelzen. Wenn Sie eine große Stichprobe haben, ist es sehr verlockend, sich ein Bild davon zu machen, wie genau der geschätzte Effekt ist, und nicht zu glauben, dass er auch falsch sein könnte. Das denke ich ist der Schlüssel - ein voreingenommener Datensatz wird diese Voreingenommenheit bei N = 10 oder 100 oder 1000 oder 100.000 haben.

Bei großen Datenmengen geht es im Großen und Ganzen darum, präzise Schätzungen bereitzustellen, sodass Sie sich meiner Meinung nach nicht vor dieser Präzision scheuen müssen. Sie müssen jedoch bedenken, dass Sie schlechte Daten nicht einfach verbessern können, indem Sie größere Mengen an schlechten Daten sammeln.

Fomite
quelle
Ich denke, eine große Menge an schlechten Daten ist immer noch besser als eine kleine Menge an schlechten Daten.
Aksakal
@Aksakal Warum? Eine genau falsche Antwort ist immer noch falsch.
Fomite
@Fomite - ja, aber du bist mehr zuversichtlich , dass es falsch ist :)
Duncan
6

Dieses Problem ist in meinen eigenen Manuskripten aufgetaucht.

1. Berichtsoptionen: Wenn Sie nur ein oder mehrere CIs zu melden haben, ist die Berichterstellung "(z. B. 95% CI: .65878 - .65881)" nicht übermäßig ausführlich und unterstreicht die Genauigkeit des CIs. Wenn Sie jedoch über zahlreiche CIs verfügen, kann eine pauschale Aussage für den Leser hilfreich sein. Ich werde zum Beispiel normalerweise etwas berichten, das den Effekt hat, dass bei dieser Stichprobengröße die 95% ige Fehlerquote für jedes Verhältnis unter +/- .010 lag. Normalerweise melde ich so etwas in der Methode oder in der Überschrift von Tabelle oder Abbildung oder in beiden.

2. Vermeiden von "Überbewusstsein" auch bei großen Stichproben: Bei einer Stichprobe von 100.000 schützt Sie der zentrale Grenzwertsatz, wenn Sie CIs nach Anteilen auswerten. In der von Ihnen beschriebenen Situation sollten Sie also in Ordnung sein, es sei denn, es gibt andere Annahmen, deren Verstöße ich nicht kenne (z. B. Verstöße gegen IID).

Anthony
quelle
0

Geben Sie keine Konfidenzintervalle an. Geben Sie stattdessen den genauen Stichprobenumfang und die Proportionen an. Der Leser kann seine eigenen CIs nach Belieben berechnen.

Aksakal
quelle
4
Warum sollte diese Argumentation nicht auf alle Meldungen quantitativer Daten angewendet werden?
whuber
@whuber, gute Frage. Ich bin alle für reproduzierbare Forschung, wünschte, jeder veröffentlicht ihre Datensätze.
Aksakal
6
Ich wollte nicht, dass es als Vorschlag aufgefasst wird. Selbst wenn alle ihre Datensätze veröffentlichen würden, würden sie ihre wissenschaftlichen Pflichten aufheben, wenn sie keine Analyse liefern würden - und dazu gehört auch eine Analyse der Unsicherheit. Sie scheinen in eine Richtung zu gehen, die logischerweise mit dem Vorschlag enden würde, dass Wissenschaftler nichts anderes tun, als Daten zu veröffentlichen, ohne überhaupt eine Analyse! Dies ist eine Anklage gegen die Empfehlung, CIs nicht zu melden. Dies deutet im Gegenteil darauf hin, dass in jedem Fall eine statistische Analyse angeboten werden sollte, unabhängig von der Stichprobengröße.
Whuber
0

Berücksichtigen Sie die Möglichkeit, dass die Anteile der 100 verschiedenen Krankenhäuser nicht zum gleichen Mittelwert konvergieren. Haben Sie die Varianz zwischen den Gruppen getestet? Wenn es einen messbaren Unterschied zwischen Krankenhäusern gibt, wird die Annahme, dass die Stichproben aus einer gemeinsamen Normalverteilung generiert wurden, nicht unterstützt und Sie sollten sie nicht bündeln.

Wenn Ihre Daten jedoch tatsächlich aus einer normalverteilten großen Stichprobe stammen, werden Sie keine nützlichen "Aussagen über die Unsicherheit" als Eigenschaft der Daten finden, sondern nach Überlegung, warum oder warum Ihre Statistiken verallgemeinern sollten - aufgrund von Einige inhärente Verzerrungen bei der Sammlung oder fehlende Stationarität usw., auf die Sie hinweisen sollten.

John Mark
quelle