Angenommen, wir haben ein Szenario mit mehreren Vergleichen, z. B. eine Post-Hoc- Folgerung für paarweise Statistiken oder eine multiple Regression, bei der wir insgesamt Vergleiche durchführen. Angenommen, wir möchten die Inferenz in diesen Multiplikatoren mithilfe von Konfidenzintervallen unterstützen.
1. Wenden wir mehrere Vergleichsanpassungen auf CIs an? Das heißt, genau wie mehrere Vergleiche eine Neudefinition von zu entweder der familienbezogenen Fehlerrate (FWER) oder der falschen Entdeckungsrate (FDR) zwingen , hat dies die Bedeutung von Vertrauen (oder Glaubwürdigkeit 1 oder Unsicherheit oder Vorhersage) oder inferential ... wählen Sie Ihr Intervall) durch mehrere Vergleiche ähnlich verändert werden? Mir ist klar, dass eine negative Antwort hier meine verbleibenden Fragen beantworten wird.
2. Gibt es einfache Übersetzungen von mehreren Vergleichsanpassungsverfahren vom Hypothesentest zur Intervallschätzung? Beispielsweise würden sich Anpassungen darauf konzentrieren, den Begriff im Konfidenzintervall zu ändern : ?
3. Wie würden wir die Auf- oder Abwärtskontrollverfahren für Kreditinstitute angehen? Einige familienbezogene Fehlerratenanpassungen vom Ansatz des Hypothesentests bis zur Inferenz sind "statisch", da genau dieselbe Anpassung für jede einzelne Inferenz vorgenommen wird. Zum Beispiel erfolgt die Bonferroni-Anpassung durch Ändern des Ablehnungskriteriums von:
- ablehnen, wenn an:
- ablehnen, wenn ,
Die Holm-Bonferroni-Aufwärtskorrektur ist jedoch nicht "statisch", sondern erfolgt durch:
- Ordne zuerst die Werte von klein nach groß und dann
- ablehnen, wenn , (wobei die Reihenfolge der Werte indiziert ) bis
- Wir lehnen eine Nullhypothese nicht ab und lehnen automatisch alle nachfolgenden Nullhypothesen nicht ab.
Da Ablehnung / Nichtablehnung bei CIs nicht vorkommt (siehe die folgenden Verweise), bedeutet dies, dass schrittweise Prozeduren nicht übersetzt werden (dh alle FDR-Methoden einschließen)? Ich möchte hier darauf hinweisen, dass ich nicht frage, wie CIs in Hypothesentests übersetzt werden sollen (die Vertreter der unten zitierten Literatur zu visuellen Hypothesentests kommen zu dieser nicht trivialen Frage).
4. Was ist mit einem der anderen Intervalle, die ich in 1 in Klammern erwähnt habe?
1 Gosh, ich sicher , hoffe ich nicht in Schwierigkeiten mit dieser rockin' den süßen, süßen Bayesian Arten von diesem Wort hier verwendet wird . :)
Literaturhinweise
Afshartous, D. und Preston, R. (2010). Konfidenzintervalle für abhängige Daten: Gleichsetzung von Nichtüberschneidung mit statistischer Signifikanz. Computational Statistics & Data Analysis , 54 (10): 2296–2305.
Cumming, G. (2009). Inferenz mit dem Auge: Lesen der Überlappung unabhängiger Konfidenzintervalle. Statistics In Medicine , 28 (2): 205–220.
Payton, ME, Greenstone, MH und Schenker, N. (2003). Überlappende Konfidenzintervalle oder Standardfehlerintervalle: Was bedeuten sie für die statistische Signifikanz? Journal of Insect Science , 3 (34): 1–6.
Tryon, WW und Lewis, C. (2008). Eine Inferenz-Konfidenzintervall-Methode zur Ermittlung der statistischen Äquivalenz zur Korrektur des Tryon-Reduktionsfaktors (2001). Psychological Methods , 13 (3): 272–277.
Antworten:
Ein exzellentes Thema, dem leider nicht genug Beachtung geschenkt wird.
Bei der Diskussion mehrerer Parameter und Konfidenzintervalle sollte zwischen simultaner und selektiver Inferenz unterschieden werden. Ref. [2] gibt eine hervorragende Demonstration der Sache.
Gleichzeitige Konfidenzintervalle bedeuten, dass alle Parameter mit Konfidenz abgedeckt sind . Selektive Konfidenzintervalle bedeuten, dass eine Teilmenge ausgewählter Parameter abgedeckt wird.1 - α
Diese beiden Konzepte können kombiniert werden: Angenommen, Sie erstellen Intervalle nur für Parameter, für die Sie die Nullhypothese abgelehnt haben. Sie haben es eindeutig mit selektiven Schlussfolgerungen zu tun. Möglicherweise möchten Sie die gleichzeitige Abdeckung ausgewählter Parameter oder die marginale Abdeckung ausgewählter Parameter gewährleisten. Ersteres wäre das Gegenstück zur FWER-Kontrolle und letzteres zur FDR-Kontrolle.
Jetzt mehr zum Punkt: Nicht alle Testverfahren haben ihre zugehörigen Intervalle. Zu FWER-Verfahren und den zugehörigen Intervallen siehe [3]. Leider ist diese Referenz etwas veraltet. Zum Intervallgegenstück der BH-FDR-Kontrolle siehe [1] und einen Antrag in [4] (der auch eine kurze Übersicht über die Angelegenheit enthält). Bitte beachten Sie, dass dies ein neues und aktives Forschungsfeld ist, sodass Sie in naher Zukunft weitere Ergebnisse erwarten können.
[1] Benjamini, Y. und D. Yekutieli. "False Discovery Rate Adjusted Multiple Confidence Intervals für ausgewählte Parameter." Journal der American Statistical Association 100, No. 469 (2005): 71–81.
[2] Cox, DR "Eine Bemerkung zu mehreren Vergleichsmethoden". Technometrics 7, No. 2 (1965): 223–24.
[3] Hochberg, Y. und AC Tamhane. Mehrere Vergleichsverfahren. New York, NY, USA: John Wiley & Sons, Inc., 1987.
[4] Rosenblatt, JD und Y. Benjamini. „Selektive Korrelationen; Nicht Voodoo. ”NeuroImage 103 (Dezember 2014): 401–10.
quelle
Würde ich niePassen Sie die Konfidenzintervalle für mehrere Tests an. Ich bin kein großer Fan von p-Werten, weil ich glaube, dass das Schätzen von Parametern eine bessere Verwendung von Statistiken ist, als das Testen von Hypothesen, die niemals genau zutreffen. Ich gebe jedoch zu, dass das Testen von Hypothesen seinen Wert hat, beispielsweise in einer randomisierten kontrollierten Studie, in der zumindest argumentiert werden kann, dass die Nullhypothese wahr ist, wenn eine Behandlung nicht funktioniert. Wie ich bereits an anderer Stelle gesagt habe [1], beinhaltet dies normalerweise ein primäres Ergebnis. Die Konfidenzintervalle enthalten in der Definition des Frequentisten jedoch keine Hypothesen und müssen daher nicht für andere, möglicherweise irrelevante Vergleiche angepasst werden. Angenommen, ich teste Phänotypen, die mit einem bestimmten Gen assoziiert sind, beispielsweise Höhe und Blutdruck. ICH' Ich würde gerne wissen, wie groß der Höhenunterschied zwischen denen mit und ohne Gen ist und wie gut ich ihn eingeschätzt habe. Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] Ich sehe nicht, dass die Tatsache, dass ich auch den Blutdruck gemessen habe, etwas damit zu tun hat. Es könnte von Bedeutung sein, wenn diese beiden von Hunderten, die wir getestet haben, die einzigen signifikanten wären. Dann ist es wahrscheinlich, dass die Unterschiede zufällig größer sind als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, aber Hunderte von Experimenten durchgeführt haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] größer als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, es aber Hunderte von Experimenten gemacht haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2] größer als die erwarteten kontrafaktischen Experimente, bei denen wir nur Höhe und Blutdruck gemessen haben, es aber Hunderte von Experimenten gemacht haben. Unter diesen Umständen würde jedoch keine einfache Anpassung funktionieren, und es wäre besser, die nicht angepasste Schätzung anzugeben, sondern zu überprüfen, wie Sie diese Vergleiche erhalten haben. Wir haben auch einige Ergebnisse zu überlappenden Konfidenzintervallen veröffentlicht. [2]
[1] Statistiken von Campbell MJ und Swinscow TDV (2009) bei Square One. 11. Aufl. Oxford; BMJ Bücher Blackwell Publishing
[2] Julious SA, Campbell MJ, Walters SJ (2007). Auf der Grundlage der Ergebnisse des aktuellen Versuchs wird vorhergesagt, wo künftige Mittel liegen werden. Contemporary Clinical Trials, 28, 352-357.
quelle