Konsequenzen der Gaußschen Korrelationsungleichung für die Berechnung gemeinsamer Konfidenzintervalle

31

Gemäß diesem sehr interessanten Artikel im Quanta Magazine: "Ein lang ersehnter Beweis, gefunden und fast verloren" - wurde bewiesen, dass ein gegebener Vektor eine multivariate Gaußsche Verteilung hat, und gegebenen Intervallen I 1 , ... , I n , die mittels der entsprechenden Komponenten zentriert um x , dannx=(x1,,xn)I1,,Inx

p(x1I1,,xnIn)i=1np(xiIi)

(Gaußsche Korrelationsungleichheit oder GCI; siehe https://arxiv.org/pdf/1512.08776.pdf für die allgemeinere Formulierung).

Dies scheint wirklich nett und einfach zu sein, und der Artikel sagt, dass es Konsequenzen für die Intervalle des gemeinsamen Vertrauens hat. In dieser Hinsicht scheint es mir jedoch ziemlich nutzlos zu sein. Angenommen , wir sind Abschätzen Parameter , und wir fanden Schätzer ^ θ 1 , ... , ^ θ n , die (vielleicht asymptotisch) gemeinsam normal (zum Beispiel des MLE - Schätzer). Wenn ich dann 95% -Konfidenzintervalle für jeden Parameter berechne, garantiert der GCI, dass der Hyperwürfel I 1 × I n ein gemeinsamer Vertrauensbereich mit einer Abdeckung von nicht weniger als (θ1,,θnθ1^,,θn^I1×In ... was auch für mäßige n eine recht geringe Abdeckung darstellt.(0.95)nn

Daher scheint es kein kluger Weg zu sein, gemeinsame Vertrauensbereiche zu finden: Der übliche Vertrauensbereich für einen multivariaten Gaußschen, dh ein Hyperellipsoid, ist nicht schwer zu finden, wenn die Kovarianzmatrix bekannt und schärfer ist. Vielleicht könnte es nützlich sein, Vertrauensbereiche zu finden, wenn die Kovarianzmatrix unbekannt ist? Können Sie mir ein Beispiel für die Relevanz von GCI für die Berechnung gemeinsamer Vertrauensbereiche geben?

DeltaIV
quelle
2
Du hast die richtige Idee. Die individuellen Konfidenzintervalle müssen viel höher als 95% sein, damit die Gelenkregion 95% erreicht. Jeder Wert muss mindestens 0,95 hoch 1 / n sein.
Michael R. Chernick
1
IkIk={x:|x|xk}
1
@amoeba Ich bin nicht besorgt über die Schwierigkeit des Beweises, sondern über seine Relevanz für die angewandte Statistik. Wenn die Betrachtung eines Hyperrechtecks ​​es einfacher macht, eine solche Relevanz zu zeigen, ist dies gut. Wenn Sie stattdessen der Meinung sind, dass diese Ungleichung in der Praxis nur dann von Nutzen ist, wenn ein beliebiges Polygon berücksichtigt wird, ist dies fair genug. Ich werde eine Antwort akzeptieren, die besagt: "Wenn Sie nur Hyperrechtecke betrachten, ist GCI kein sehr nützliches Werkzeug für einen angewandten Statistiker, weil ... Aber wenn Sie beliebige Polygone betrachten, wird es relevant, weil ..."
DeltaIV
1
Ich wollte die Papiere mit den Proofs bearbeiten und habe sie durchgesehen, aber jetzt bin ich nicht mehr zu 100% sicher, ob es sich bei dem Hyperrechteck um einen speziellen / einfachen Fall oder eine äquivalente Formulierung handelt. Ich lasse es jetzt und komme vielleicht später wieder hierher.
Amöbe sagt Reinstate Monica
1
Hx=(x1,,xn)HxH

Antworten:

2

Ich denke, die Frage ist relevanter. In gewissem Sinne betrachten Sie das Testen mehrerer Hypothesen und vergleichen es mit dem Ausführen mehrerer Hypothesentests.

Ja, in der Tat gibt es eine Untergrenze, die das Produkt der p-Werte der Tests unter der Annahme der Unabhängigkeit ist. Dies ist die Basis für Anpassungen von p-Werten in Multihypothesentests wie Bonferroni- oder Holm-Anpassungen. Bei den Bonferroni- und Holm-Einstellungen (unter der Annahme der Unabhängigkeit) handelt es sich jedoch um Tests mit besonders geringer Leistung.

In der Praxis kann man viel besser vorgehen (und dies erfolgt über Bootstrap, siehe z. B. den Bootstrap Reality Check von H White, die Arbeiten von Romano-Wolf und die neueren Arbeiten zu Modell-Konfidenz-Sets). Bei jedem dieser Tests handelt es sich um einen Versuch, eine Hypothese mit höherer Leistung zu testen (z. B. die geschätzte Korrelation zu verwenden, um eine bessere Leistung zu erzielen, als nur diese Untergrenze zu verwenden), und folglich wesentlich relevanter.

NBF
quelle