Kann ich die Gültigkeit zuvor angegebener Daten testen?

10

Problem

Ich schreibe eine R-Funktion, die eine Bayes'sche Analyse durchführt, um eine posteriore Dichte bei einem informierten Prior und Daten zu schätzen. Ich möchte, dass die Funktion eine Warnung sendet, wenn der Benutzer den vorherigen überdenken muss.

In dieser Frage möchte ich lernen, wie man einen Prior bewertet. Frühere Fragen befassten sich mit der Mechanik der Angabe informierter Prioritäten ( hier und hier ).

In den folgenden Fällen muss der Prior möglicherweise neu bewertet werden:

  • Die Daten stellen einen Extremfall dar, der bei der Angabe des Prior nicht berücksichtigt wurde
  • Fehler in Daten (z. B. wenn Daten in Einheiten von g angegeben sind, wenn der Prior in kg angegeben ist)
  • Aufgrund eines Fehlers im Code wurde aus einer Reihe verfügbarer Prioritäten der falsche Prior ausgewählt

Im ersten Fall sind die Prioritäten normalerweise noch so diffus, dass die Daten sie im Allgemeinen überwältigen, es sei denn, die Datenwerte liegen in einem nicht unterstützten Bereich (z. B. <0 für logN oder Gamma). Die anderen Fälle sind Fehler oder Irrtümer.

Fragen

  1. Gibt es Probleme hinsichtlich der Gültigkeit der Verwendung von Daten zur Bewertung eines Prior?
  2. Ist ein bestimmter Test für dieses Problem am besten geeignet?

Beispiele

Hier sind zwei Datensätze, die schlecht mit einem übereinstimmen, da sie aus Populationen mit entweder (rot) oder (blau) stammen.logN(0,1)N(0,5)N(8,0.5)

Die blauen Daten könnten eine gültige Kombination aus Prior und Daten sein, während die roten Daten eine vorherige Verteilung erfordern würden, die für negative Werte unterstützt wird.

Geben Sie hier die Bildbeschreibung ein

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')
David LeBauer
quelle

Antworten:

4

Sie müssen klar sein, was Sie mit "vor" meinen. Wenn Sie zum Beispiel an meiner vorherigen Überzeugung über die Lebenserwartung in Großbritannien interessiert sind, kann das nicht falsch sein. Es ist mein Glaube! Es kann mit den beobachteten Daten inkonsistent sein, aber das ist eine ganz andere Sache.

Auch der Kontext ist wichtig. Nehmen wir zum Beispiel an, wir interessieren uns für die Bevölkerung von etwas. Mein Vorgänger behauptet, dass diese Menge streng nicht negativ sein darf. Die Daten wurden jedoch fehlerhaft beobachtet und wir haben negative Messungen. In diesem Fall ist der Prior nicht ungültig, sondern nur der Prior für den latenten Prozess.

Um Ihre Fragen zu beantworten,

  1. Gibt es Probleme hinsichtlich der Gültigkeit der Verwendung von Daten zur Bewertung eines Prior?

Ein Purist würde argumentieren, dass Sie die Daten nicht zweimal verwenden sollten. Die pragmatische Person würde jedoch nur kontern, dass Sie überhaupt nicht genug über den Prior nachgedacht hatten.

2 Ist ein bestimmter Test für dieses Problem am besten geeignet?

Dies hängt wirklich vom jeweiligen Modell ab. Ich nehme an, Sie könnten den vorherigen Bereich höchstens mit dem Datenbereich vergleichen.

csgillespie
quelle
danke für deine antwort, besonders auf # 1 ist hilfreich. Für den Test hatte ich daran gedacht, aber der Bereich der meisten Prioritäten wird eine Grenze von , also dachte ich darüber nach, vielleicht die Grenzen von Quantilintervallen zu vergleichen, z. B. eine Warnung senden, wenn: das 80. Quantil von Daten> 99. Quantil des vorherigen oder wenn: Daten sind größer als das 100-10e-log (n) -te Quantil), obwohl ich mit den Zahlen herumspielen müsste, damit ich die richtigen Fehler abfange.
David LeBauer
3

Hier meine zwei Cent:

  1. Ich denke, Sie sollten sich Gedanken über frühere Parameter machen, die mit Verhältnissen verbunden sind.

  2. Sie sprechen über informative Prior, aber ich denke, Sie sollten Benutzer warnen, was ein vernünftiger nicht informativer Prior ist. Ich meine, manchmal ist ein Normalwert mit einem Mittelwert von Null und einer Varianz von 100 ziemlich uninformativ und manchmal informativ, abhängig von den verwendeten Skalen. Wenn Sie beispielsweise die Löhne in Höhen (Zentimetern) als die oben genannten zurückführen, ist dies sehr informativ. Wenn Sie jedoch die Protokolllöhne auf Höhen (Metern) zurückführen, ist der oben genannte Prior nicht so informativ.

  3. Wenn Sie einen Prior verwenden, der ein Ergebnis einer vorherigen Analyse ist, dh der neue Prior ist tatsächlich ein alter Posteriori einer vorherigen Analyse, dann sind die Dinge anders. Ich gehe davon aus, dass dies der Fall ist.

Manoel Galdino
quelle
Könnten Sie bitte Punkt 1 klarstellen? Zu Punkt 2: Wie im OP erwähnt, interessiert mich diese Frage, wie der Prior festgelegt werden soll, nicht so sehr. Zu Punkt 3: Viele der informierten Prioritäten stammen aus der Analyse verfügbarer Daten (Anpassung einer geeigneten Verteilung an Daten), während andere auf Expertenwissen beruhen (diese sind im Allgemeinen weniger eingeschränkt).
David LeBauer
Angenommen, Sie passen ein Modell wie folgt an: y ~ a + b * x / z. Wenn die Werte von Z nicht eingeschränkt sind (wenn sie positiv oder negativ sein können), ist es schwer zu wissen, was von b über das Signal zu erwarten ist. Wenn Z nahe Null sein kann, kann b außerdem zu niedrig oder zu groß sein. Dies kann Ihre vorherige unangemessen machen. Siehe diesen Eintrag auf Gelmans Blog: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Manoel Galdino
# 3: Wie bereits erwähnt, sollten Sie die Daten zweimal verwenden. On Thin ist zum Beispiel ein hierarchisches Modell, und ein anderes besteht darin, einen Prior auszuwählen, der mit der Wahrscheinlichkeit übereinstimmt. Im späteren Fall würde ich mich mit einer solchen Analyse befassen. Ich sehe die Wahl eines Prior eher als Regularisierungswerkzeug.
Manoel Galdino