Auswahl der Prioritäten basierend auf dem Messfehler

9

Wie berechnen Sie den entsprechenden Prior, wenn Sie den Messfehler eines Instruments haben? Dieser Absatz stammt aus Cressies Buch "Statistik für räumlich-zeitliche Daten":

Es ist häufig der Fall, dass einige vorherige Informationen bezüglich der Messfehlervarianz verfügbar sind, so dass ein ziemlich informatives Parametermodell spezifiziert werden kann. Wenn wir zum Beispiel bedingt unabhängige Messfehler annehmen, die iid , sollten wir einen informativen Prior für σ 2 ϵ angeben . Angenommen, wir waren an der Umgebungslufttemperatur interessiert und haben festgestellt, dass die Angaben des Geräteherstellers einen „Fehler“ von anzeigen . Unter der Annahme, dass dieser „Fehler“ 2 Standardabweichungen entspricht (eine Annahme, die überprüft werden sollte!), Können wir dann angebenGeinu(0,σϵ2)σϵ2±0,1°C.σϵ2 mit einem vorherigen Mittelwert von . Aufgrund der Spezifikation des Instrumentenherstellers würden wir eine Verteilung annehmen, die einen klar definierten und ziemlich engen Peak bei 0,0025 hatte (z. B. inverses Gamma). Tatsächlich konnten wir nur bei 0,0025 fixieren; Der Datenmodellfehler kann jedoch auch andere Unsicherheitskomponenten aufweisen (Abschnitt 7.1). Um mögliche Identifizierbarkeitsprobleme mit Prozessmodellfehlern zu vermeiden, ist es sehr wichtig, dass Modellierer die Unsicherheit so weit wie möglich reduzieren, einschließlich Nebenstudien, die darauf ausgelegt sind, Daten zu replizieren.(0,1/.2)2=0,0025

Weiß jemand, wie das allgemeine Verfahren zum Erhalten der Werte eines Prior wie oben beschrieben ist (obwohl sich der Absatz nur auf das Erhalten des vorherigen Mittelwerts bezieht)?

Robert Smith
quelle

Antworten:

6

Zwei Standardmethoden sind

  1. Konsultieren Sie die "Angaben des Instrumentenherstellers", wie im Angebot angegeben. Dies ist normalerweise ein grober Rückfall, der verwendet werden muss, wenn keine anderen Informationen verfügbar sind, da (a) das, was der Instrumentenhersteller wirklich unter "Genauigkeit" und "Präzision" versteht, häufig unbestimmt ist und (b) wie das Instrument im Neuzustand reagiert hat Ein Testlabor war wahrscheinlich viel besser als es im Feld funktioniert.

  2. Sammeln Sie Replikatproben. Bei Umweltproben gibt es etwa ein halbes Dutzend Ebenen, auf denen Proben routinemäßig repliziert werden (und viele weitere, auf denen sie repliziert werden könnten), wobei jede Ebene zur Kontrolle einer zuweisbaren Variationsquelle verwendet wird. Solche Quellen können sein:

    • Identität der Person, die die Probe entnimmt.
    • Vor der Entnahme einer Probe werden vorläufige Verfahren durchgeführt, z. B. die Rettung von Brunnen.
    • Variabilität im physikalischen Probenahmeprozess.
    • Heterogenität innerhalb des Probenvolumens.
    • Änderungen, die auftreten können, wenn eine Probe aufbewahrt und an ein Labor geschickt wird.
    • Variationen in vorläufigen Laborverfahren, wie das Homogenisieren einer physikalischen Probe oder das Verdauen zur Analyse.
    • Die Identität des Laboranalytikers.
    • Unterschiede zwischen Laboratorien.
    • Unterschiede zwischen physikalisch unterschiedlichen Instrumenten wie zwei Gaschromatographen.
    • Drift in der Instrumentenkalibrierung im Laufe der Zeit.
    • Tägliche Variation. (Dies kann natürlich und systematisch sein, kann jedoch zufällig erscheinen, wenn die Stichprobenzeiten beliebig sind.)

Eine vollständige quantitative Bewertung der Variabilitätskomponenten kann nur durch systematische Variation jedes dieser Faktoren gemäß einem geeigneten Versuchsaufbau erreicht werden.

Normalerweise werden nur die Quellen untersucht, von denen angenommen wird, dass sie die größte Variabilität bewirken. Beispielsweise werden viele Studien einen bestimmten Teil der Proben systematisch aufteilen, sobald sie erhalten wurden, und sie an zwei verschiedene Labors senden. Eine Untersuchung der Unterschiede zwischen den Ergebnissen dieser Teilungen kann ihren Beitrag zur Messvariabilität quantifizieren. Wenn genügend solche Teilungen erhalten werden, kann die vollständige Verteilung der Messvariabilität als Prior in einem hierarchischen Bayes'schen räumlich-zeitlichen Modell geschätzt werden. Da viele Modelle Gaußsche Verteilungen annehmen (für jede Berechnung), kommt es beim Erhalten eines Gaußschen Prior letztendlich darauf an, den Mittelwert und die Varianz der Unterschiede zwischen den Teilungen zu schätzen. In komplizierteren Studien, die darauf abzielen, mehr als eine Varianzkomponente zu identifizieren,

Einer der Vorteile, wenn Sie überhaupt über diese Probleme nachdenken, besteht darin, dass Sie Wege finden, um einige dieser Fehlerkomponenten zu reduzieren oder sogar zu eliminieren (ohne sie jemals quantifizieren zu müssen), wodurch Sie dem Ideal von Cressie & Wikle näher kommen, "die Unsicherheit zu verringern" so viel die Wissenschaft erlaubt. "

Ein ausführliches Beispiel (bei der Bodenprobenahme) finden Sie unter

Van Ee, Blume und Starks, eine Begründung für die Bewertung von Fehlern bei der Probenahme von Böden. US EPA, Mai 1990: EPA / 600 / 4-90 / 013.

whuber
quelle
2
Das Problem hier, Robert, ist, dass manchmal jemand eine Standardabweichung von für die Schätzung angibt; andere Male melden sie es zweimal (woher die Division durch zwei) oder ein zweiseitiges Konfidenzintervall; und manchmal sogar etwas anderes; Daher gibt es keine definitive Regel für die Umwandlung von Genauigkeits- und Präzisionsaussagen in Prioritäten: Sie müssen die Fußnoten und andere technische Details konsultieren, um genau herauszufinden, was die Zahlen darstellen. Der Standardfehler einer Schätzung, der eine Funktion der Größe der verwendeten Stichprobe ist, ist für diesen Zweck übrigens irrelevant.
whuber
1
m1m2m1- -m2mϵσϵN.(mϵ,σϵ2)
1
Sie können die Genauigkeit nicht mit Teilungen bewerten. Dazu müssen Sie Stichproben bekannter Werte messen. (Hierfür werden Laborspikes und Duplikate mit Spikes verwendet.) Dadurch wird der Mittelwert bestimmt. Normalerweise wird dies bei der Kalibrierung des Messprozesses behandelt, sodass der Mittelwert als Null angenommen wird. Die Varianz wird mit den üblichen ANOVA-Formeln geschätzt. Damit können Sie einen Prior für die entsprechende Komponente des Messsystems angeben.
whuber
2
Nicht so: Die Referenz, die ich gegeben habe, ist die US-amerikanische EPA-Anleitung, die es seit einem Vierteljahrhundert gibt, und viele neuere Leitlinien bauen auf ihren Ideen auf. Ich habe diesen Ansatz einmal in einem Bundesgerichtsverfahren verwendet, um die Auswirkung von Messfehlern auf Konturlinien zu bewerten, die (basierend auf einem geostatistischen Prädiktor) gezeichnet wurden, um eine Schadstofffahne abzugrenzen: Der Messfehler war größer als die Konzentration, die zum Binden der Wolke verwendet wurde! (Mit anderen Worten, die Unsicherheit bei der Abgrenzung der
Federn
1
Wirklich nett. Übrigens wollte ich sagen, dass Priors normalerweise ohne große Sorgfalt eingestellt werden. Ich habe dies in der Bayes'schen Modellierung und im maschinellen Lernen deutlicher gesehen, vielleicht weil eine Vermutung oft genug ist, um anständige Ergebnisse zu erzielen.
Robert Smith