Berechnung der Konfidenzintervalle mittels Bootstrap anhand abhängiger Beobachtungen

12

Der Bootstrap in seiner Standardform kann verwendet werden, um Konfidenzintervalle der geschätzten Statistiken zu berechnen, vorausgesetzt, die Beobachtungen sind korrekt. I. Visser et al. In " Konfidenzintervalle für versteckte Markov-Modellparameter " wurde ein parametrischer Bootstrap verwendet, um CIs für HMM-Parameter zu berechnen. Wenn wir jedoch ein HMM an eine Beobachtungssequenz anpassen, haben wir bereits angenommen, dass die Beobachtungen abhängig sind (im Gegensatz zu Mischungsmodellen).

Ich habe zwei Fragen:

  1. Was macht die iid-Annahme mit dem Bootstrap?
  2. Können wir die iid-Anforderung in einem parametrischen Bootstrap ignorieren?

Visser et al.Methode ist kurz wie folgt:

  1. Angenommen , wir haben eine Beobachtungssequenz resultierte aus der Abtastung eines HMM mit einem reellen, aber unbekannten Parametersatz θ =Y=o1,o2,...,onθ=θ1,θ2,...,θl .
  2. Die Parameter können geschätzt werden , um den EM - Algorithmus: θ = θ 1 , θ 2 , . . . , Θ lθ^=θ^1,θ^2,...,θ^l
  3. Verwenden des geschätzten HMM eine Bootstrap - Probe mit einer Größe zu erzeugen , : Y * = o * 1 , o * 2 , . . . , o nnY=o1,o2,...,on
  4. Schätzen Parameter des HMM nach dem Bootstrap - Probe: θ * = θ * 1 , θ * 2 , . . . , Θ * lθ^=θ^1,θ^2,...,θ^l
  5. Wiederholen Sie die Schritte 3 und 4 für - mal (zB B = 1000) , die sich in B Bootstrap Abschätzungen: θ * ( 1 ) , θ * ( 2 ) , . . . , Θ * ( B )BBBθ^(1),θ^(2),...,θ^(B)
  6. Berechnen Sie die CI jeden geschätzten Parameters θ i unter Verwendung der Verteilung von θ * iθ^iθ^i in Bootstrap - Schätzungen.

Notizen (meine Ergebnisse):

  1. Die Perzentilmethode sollte zur Berechnung von CIs verwendet werden, um eine korrekte Abdeckung zu erzielen (Normalität ist eine schlechte Annahme).
  2. Die Abweichung der Bootstrap-Verteilung sollte korrigiert werden. Was bedeutet , dass die Verteilung Mittelwert von θ * i verschoben werden soll , um & theta; iθ^iθ^i
Sadeghd
quelle
Erste Frage mit anderen Worten: Wie wirkt sich die Annahme auf den Bootstrap aus? Ist es eine vereinfachende Annahme, die durch Befolgen eines komplexeren Algorithmus oder einer komplexeren Formel beseitigt werden kann?
Sadeghd

Antworten:

11

Kurze Antworten: 1. Es vereinfacht es. (Ehrlich gesagt habe ich die Frage nicht bekommen). 2. Nein, Sie können es niemals ignorieren, da ein Mangel an IID unmittelbare Konsequenzen für die Abweichungen von dem hat, was Sie schätzen.

Mittlere Antwort: Ziemlich das zentrale Problem mit dem Bootstrap ist, "Reproduziert das vorgeschlagene Verfahren die Merkmale der Daten?" . Ein Verstoß gegen die iid-Annahme ist eine große Sache: Ihre Daten sind abhängig, Sie haben (höchstwahrscheinlich) weniger Informationen in Ihren Daten als in einem iid-Sample der gleichen Größe, und wenn Sie einen naiven Bootstrap ausführen (resample das Individuum) Beobachtungen), werden die Standardfehler, die Sie von ihm erhalten, zu klein sein. Das vorgeschlagene Verfahren umgeht das Problem der mangelnden Unabhängigkeit, indem die Abhängigkeit in der Modellstruktur und den Parametern erfasst wird (oder zumindest versucht wird, diese zu erfassen). Bei Erfolg würde jedes Bootstrap-Beispiel die Merkmale der Daten nach Bedarf reproduzieren.

Lange Antwort:Es gibt mehrere Ebenen von Annahmen bezüglich des Bootstraps, und selbst im einfachsten Fall (iid-Daten, Schätzung des Mittelwerts) müssen Sie mindestens drei Annahmen treffen: (1) Die interessierende Statistik ist eine reibungslose Funktion der Daten (wahr im Fall des Mittelwerts, nicht so wahr, selbst im Fall von Perzentilen, völlig abgeschlagen mit Schätzern für Übereinstimmungen mit dem nächsten Nachbarn); (2) Die Verteilung, von der aus Sie booten, ist "nah" an der Populationsverteilung (funktioniert bei ID-Daten in Ordnung; funktioniert möglicherweise nicht in Ordnung bei abhängigen Daten, bei denen Sie im Wesentlichen nur eine Flugbahn = eine Beobachtung in der Bei Zeitreihen müssen zusätzliche Annahmen wie Stationarität und Vermischung herangezogen werden, um diese einzelne Beobachtung zu einer Quasi-Population zusammenzufassen. (3) Ihre Monte-Carlo-Bootstrap-Stichprobe ist eine hinreichende Annäherung an den vollständigen Bootstrap mit allen möglichen Teilstichproben (die Ungenauigkeit bei der Verwendung von Monte-Carlo gegenüber dem vollständigen Bootstrap ist viel geringer als die Unsicherheit, die Sie erfassen möchten). Beim parametrischen Bootstrap gehen Sie auch davon aus, dass (4) Ihr Modell alle Merkmale der Daten perfekt erklärt.

Denken Sie als Warnung vor dem, was mit (4) schief gehen könnte, an eine Regression mit heteroskedastischen Fehlern: y=xβ+ϵVar[ϵ]=exp[xγ], sagen. Wenn Sie ein OLS - Modell anpassen und die Residuen neu abtasten, als wären sie iid, erhalten Sie eine falsche Antwort (eine Art vonσ¯2(XX)-1 wo σ¯2 ist der Durchschnitt 1/nichexp[xichγ], anstelle der entsprechenden (XX)-1exp[xichγ]xichxich(XX)-1). Wenn Sie also eine vollständig parametrische Bootstrap-Lösung haben möchten, müssen Sie das Modell für die Heteroskedastizität zusammen mit dem Modell für den Mittelwert anpassen. Und wenn Sie eine serielle oder eine andere Art von Korrelation vermuten, müssten Sie das Modell auch dafür anpassen. (Siehe, die nicht-parametrische, verteilungsfreie Variante des Bootstraps ist vorerst ziemlich verschwunden, da Sie die Stimme der Daten durch die synthetisierte Stimme Ihres Modells ersetzt haben.)

Die von Ihnen beschriebene Methode umgeht die iid-Annahme, indem eine ganz neue Stichprobe erstellt wird. Das größte Problem mit dem abhängigen Daten-Bootstrap besteht darin, das Sample zu erstellen, das die Abhängigkeitsmuster aufweist, die denen in den Originaldaten ausreichend nahe kommen. Bei Zeitreihen können Sie Block-Bootstraps verwenden. Bei Cluster-Daten werden die gesamten Cluster gebootet. Bei heteroskedastischer Regression müssen Sie mit wilden Bootstraps arbeiten (was eine bessere Idee ist als der Bootstrap von Residuen, selbst wenn Sie ein heteroskedasticty-Modell daran angepasst haben). Im Block-Bootstrap müssen Sie eine fundierte Vermutung anstellen (oder mit anderen Worten, Sie haben gute Gründe zu glauben), dass entfernte Teile von Zeitreihen ungefähr unabhängig sind, sodass die gesamte Korrelationsstruktur von den benachbarten 5 oder 10 erfasst wird Beobachtungen, die den Block bilden. Anstatt also die Beobachtungen einzeln neu abzutasten, was die Korrelationsstruktur der Zeitreihen völlig ignoriert, tasten Sie sie in Blöcken neu ab, in der Hoffnung, dass dies die Korrelationsstruktur respektiert. Der parametrische Bootstrap, auf den Sie sich bezogen haben, lautet: "Anstatt mit den Daten zu fummeln und die neuen Puppen aus den Teilen der alten zusammenzusetzen, warum stempele ich nicht einfach die gesamte geformte Barbie für Sie? Ich habe herausgefunden, welche Art von Barbies, die du magst, und ich verspreche, dass ich dich zu einem machen werde, den du auch magst. " Anstatt mit den Daten herumzuspielen und die neuen Puppen aus den Teilen der alten zusammenzusetzen, warum stempele ich nicht stattdessen einfach die gesamte geformte Barbie für Sie? Ich habe herausgefunden, welche Art von Barbies du magst, und ich verspreche, dass ich dich zu einer machen werde, die du auch magst. " Anstatt mit den Daten herumzuspielen und die neuen Puppen aus den Teilen der alten zusammenzusetzen, warum stempele ich nicht stattdessen einfach die gesamte geformte Barbie für Sie? Ich habe herausgefunden, welche Art von Barbies du magst, und ich verspreche, dass ich dich zu einer machen werde, die du auch magst. "

Bei dem von Ihnen beschriebenen parametrischen Bootstrap müssen Sie verdammt sicher sein, dass Ihr HMM-Modell nahezu perfekt passt, da Ihr parametrischer Bootstrap sonst zu falschen Ergebnissen führen kann (Barbies, die ihre Arme nicht bewegen können). Denken Sie an das obige heteroskedastische Regressionsbeispiel. Oder überlegen Sie, ob Sie ein AR (1) -Modell an AR (5) -Daten anpassen möchten: Was auch immer Sie mit den parametrisch simulierten Daten tun, sie haben nicht die Struktur, die die ursprünglichen Daten hatten.

Edit : Da Sadeghd seine Frage geklärt hat, kann ich auch darauf antworten. Es gibt eine enorme Vielfalt an Bootstrap-Verfahren, die sich jeweils mit der jeweiligen Eigenart befassen, entweder mit der Statistik, der Stichprobengröße, der Abhängigkeit oder mit einem Problem mit dem Bootstrap. Es gibt zum Beispiel keinen einzigen Weg, um die Abhängigkeit anzugehen. (Ich habe mit Umfrage-Bootstraps gearbeitet. Es gibt ungefähr 8 verschiedene Verfahren, von denen einige eher methodisch als praktisch interessant sind. Einige sind eindeutig minderwertig, da sie nur in speziellen, nicht leicht verallgemeinerbaren Fällen anwendbar sind.) Für a Allgemeine Diskussion der Probleme, die Sie mit dem Bootstrap haben könnten, siehe Canty, Davison, Hinkley und Ventura (2006). Bootstrap-Diagnose und Abhilfemaßnahmen. The Canadian Journal of Statistics, 34 (1), 5-27 .

StasK
quelle
Um Ihrer Aussage, dass Sie weniger Informationen haben, wenn Sie abhängige Datencluster haben (im Abschnitt " Mittel "), ein wenig hinzuzufügen , glaube ich, dass dies zutrifft, wenn eine positive Korrelation zwischen den Klassen innerhalb eines Clusters besteht, aber das Gegenteil ist zutrifft, wenn es negative gibt Intraclass-Korrelation. Natürlich scheinen die Korrelationen zwischen Klassen in den meisten realen Datenanwendungen positiv zu sein.
Makro
@Macro: Sie haben in beiden Punkten sicherlich Recht (dass dies technisch möglich und praktisch irrelevant ist). Das Gleiche gilt, wenn Sie das mittlere Niveau eines AR (1) -Prozesses mit einer negativen Korrelation schätzen, aber ich bin wieder ratlos, wenn ich an reale Prozesse denke, die diese Funktion haben könnten. Im Gegensatz zur positiven Autokorrelation, die sich auf verschiedenen Zeitskalen selbst reproduzieren lässt, muss die negative Korrelation verschwinden, wenn Sie die Länge Ihres Referenzzeitraums verdoppeln. (Die Konjunkturzyklusdaten weisen wie das US-BIP negative Korrelationen bei einer Verzögerung von etwa drei Jahren auf.)
StasK
Danke für deine ausführliche Antwort. Ich kam zu dem Schluss, dass die parametrische Neuabtastung den Abhängigkeitseffekt verringern kann. Die Parameterverteilung muss jedoch zu einem guten Teil repräsentativ für die tatsächliche Population sein, und die Abhängigkeitsmuster müssen bei der erneuten Stichprobenerfassung neu generiert werden.
Sadeghd