Dynamische Berechnung der Anzahl der Proben, die zur Schätzung des Mittelwerts erforderlich sind

9

Ich versuche, den Mittelwert einer mehr oder weniger Gaußschen Verteilung durch Stichproben zu schätzen. Ich habe keine Vorkenntnisse über den Mittelwert oder die Varianz. Jede Probe ist teuer zu bekommen. Wie entscheide ich dynamisch, wie viele Proben ich benötige, um ein bestimmtes Maß an Vertrauen / Genauigkeit zu erreichen? Woher weiß ich alternativ, wann ich die Probenahme beenden kann?

Alle Antworten auf Fragen wie diese, die ich finden kann, scheinen ein gewisses Wissen über die Varianz vorauszusetzen, aber das muss ich auch auf dem Weg entdecken. Andere sind auf Umfragen ausgerichtet, und mir (Anfänger) ist nicht klar, wie sich das verallgemeinert - mein Mittelwert ist nicht w / in [0,1] usw.

Ich denke, dies ist wahrscheinlich eine einfache Frage mit einer bekannten Antwort, aber mein Google-Fu versagt mir. Es wäre schon hilfreich, mir nur zu sagen, wonach ich suchen soll.

Josh Bleecher Snyder
quelle
Gibt es einen Grund, warum Sie dies als CW markiert haben? Die Frage scheint spezifisch genug zu sein, um eine richtige Antwort zu ermöglichen , und sollte daher nicht CW sein.
1
@ Josh, das ist in Ordnung. Ich war nur neugierig auf deine Wahl.
1
Google "Adaptive Sampling" und "Sequential Sampling". Wenn Sie immer noch nicht weiterkommen, geben Sie "Wald" als Schlüsselwort an und arbeiten Sie dann historisch weiter (dh schauen Sie sich Papiere an, die auf Walds Arbeit zur sequentiellen Abtastung verweisen, und schauen Sie sich dann Papiere an, die auf sie verweisen usw.).
whuber
1
@Robby McKilliam: Aber welche Daten verwenden Sie? Diese Frage stellt sich, bevor Daten gesammelt wurden. Wenn Sie nacheinander Werte erfassen und nach dem Hinzufügen jedes neuen zum Datensatz ein CI berechnen, können Sie aufgrund der von Ihnen durchgeführten korrelierten Mehrfachvergleiche keine Standardformeln für die Intervalle verwenden. Daher benötigen Sie eine Stoppregel , die die Summe des statistischen Risikos Ihres Schätzers und der Kosten für die Erfassung jeder zusätzlichen Stichprobe optimiert.
whuber
1
@whuber danke! Ich verdaue das Material immer noch, aber ich denke, dass dies genau das ist, wonach ich suche. Wenn dies eine Antwort wäre, würde ich sie akzeptieren ...
Josh Bleecher Snyder

Antworten:

2

Sie müssen nach "Bayesian Adaptive Designs" suchen. Die Grundidee lautet wie folgt:

  1. Sie initialisieren den Prior für die interessierenden Parameter.

    Vor jeder Datenerfassung wären Ihre Prioritäten diffus. Wenn zusätzliche Daten eingehen, setzen Sie das Prior auf das Posterior zurück, das den 'Prior + -Daten bis zu diesem Zeitpunkt' entspricht.

  2. Daten sammeln.

  3. Berechnen Sie den Posterior basierend auf Daten + Priors. Der hintere Teil wird dann wie der vorherige in Schritt 1 verwendet, wenn Sie tatsächlich zusätzliche Daten erfassen.

  4. Prüfen Sie, ob Ihre Stoppkriterien erfüllt sind

    Zu den Stoppkriterien könnte gehören, dass das zu 95% glaubwürdige Intervall für die interessierenden Parameter nicht größer als Einheiten sein sollte. Sie könnten auch formalere Verlustfunktionen haben, die mit den interessierenden Parametern verknüpft sind, und den erwarteten Verlust in Bezug auf die hintere Verteilung für den interessierenden Parameter berechnen.±ϵ

Anschließend wiederholen Sie die Schritte 1, 2 und 3, bis Ihre Stoppkriterien aus Schritt 4 erfüllt sind.

user28
quelle
0

Normalerweise möchten Sie, dass mindestens 30 den zentralen Grenzwertsatz aufrufen (obwohl dies etwas willkürlich ist). Anders als bei Umfragen usw., die anhand der Binomialverteilung modelliert werden, können Sie nicht im Voraus eine Stichprobengröße bestimmen, die eine Genauigkeit bei einem Gaußschen Prozess garantiert. Dies hängt davon ab, welche Residuen Sie erhalten, die den Standardfehler bestimmen.

Es sollte beachtet werden, dass Sie mit einer robusten Stichprobenstrategie viel genauere Ergebnisse erzielen können als mit einer viel größeren Stichprobengröße mit einer schlechten Strategie.

James
quelle
3
Warum sollte man die CLT aufrufen müssen, wenn man von einer bekannten (oder angenommenen) Gaußschen Verteilung abtastet? Der Mittelwert einer Stichprobe wird normal verteilt!
whuber
Guter Punkt! RTQ nicht richtig.
James