Bedeutet ein niedrigerer p-Wert, dass der Test eine höhere Leistung hat?

7

Allgemeine Version der Frage: Wenn Sie zwei statistische Tests mit unterschiedlichen Annahmen für dieselben Daten vergleichen und einer einen niedrigeren p-Wert als der andere ergibt, bedeutet dies, dass er eine höhere Leistung hat?

Biostatistik-Version: Vergleich der SKAT- und SKAT-O-Tests ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3440237/pdf/kxs014.pdf ). SKAT-O soll mehr Leistung haben, wenn die getesteten genetischen Varianten unidirektional sind. Wenn es also einen niedrigeren (näher an Null liegenden) Wert als SKAT gibt, hat es in diesem Szenario mehr Leistung, und ich kann davon ausgehen, dass die genetische Architektur ist unidirektional und eher wie Belastungstests bevorzugte Einrichtung? Ich bin neugierig, weil ich mit der Antwort darauf genau entscheiden kann, welche p-Werte ich verwenden soll.

Cianius
quelle

Antworten:

6

Im Allgemeinen lautet die Antwort NEIN . Angenommen, Sie haben zwei verschiedene Hypothesentests und für dasselbe Hypothesentestproblem gegenüber für dieselben Daten. Angeblich verwenden und verschiedene Aspekte der Daten, beispielsweise Originaldaten gegenüber Rängen. Um einen aussagekräftigen Vergleich zu ermöglichen, müssen wir annehmen, dass die beiden Tests das gleiche Signifikanzniveau haben (sagen wir = 0,05). Zumindest ist das der übliche Ansatz. TTH0H1TTα

Oft werden jedoch nur p-Werte ohne vorherige Wahl des Signifikanzniveaus angegeben, und der p-Wert wird als Maß für die "Beweiskraft" interpretiert. Wenn dies gültig ist, wird natürlich ein gutes Maß für die Beweiskraft (Wichtig: NICHT Assoziationsstärke oder Effektgröße!) Diskutiert. Wenn Sie diesen Weg gehen, ist Macht kein natürliches Konzept, da dies vom (nicht gewählten!) Signifikanzniveau abhängt. Die Idee ist irgendwie, dass ein p-Wert nahe Null ein starker Beweis gegen die Nullhypothese ist. Das war zumindest Fischers Argument.

Wie können wir nun die Hypothesentests ohne das Konzept der Macht vergleichen? Wir können die Verteilung von (den p-Wert) betrachten. Unter der Null ist für beide Tests gleichmäßig verteilt. Wir wollen einen Test, der alternativ dazu neigt, kleine Werte von . Nun können die beiden Tests auf der Grundlage der Verteilung von unter der alternativen Hypothese verglichen werden . Wir wollen den Test, der das ergibt, das in gewissem Sinne "stochastisch kleiner" ist.PPPPP

Weitere Informationen zu diesem Ansatz finden Sie unter https://www.bookdepository.com/Confidence-Likelihood-Probability-Tore-Schweder/9780521861601

kjetil b halvorsen
quelle
4

Die Belastungs-, SKAT- und SKAT-O-Tests stellen drei Möglichkeiten dar, Informationen aus niederfrequenten genetischen Varianten zu bündeln, damit die Beziehungen von Genomloci zu einem biologischen Merkmal (Phänotyp) bewertet werden können. Belastungstests gehen davon aus, dass alle niederfrequenten Varianten an einem Ort dieselbe Beziehung zum Phänotyp haben (unidirektional), sodass alle Varianten zusammengefasst werden, um einen einzigen Regressionskoeffizienten für den Ort zu erhalten. Der SKAT-Test behandelt stattdessen Varianten als zufällige Effekte, wobei ein Nettoeffekt von Null unter den Varianten angenommen wird und das Ausmaß der Varianz der phänotypischen Effekte zwischen genetischen Varianten bewertet wird .

Das SKAT-O ist effektiv eine gewichtete Kombination aus Belastungs- und SKAT-Tests, wobei das geeignete Gewicht zwischen Belastungsmodellen (unidirektional) und SKAT-Modellen (Mittelwert Null) aus den Daten bestimmt wird. Es wäre daher zu erwarten, dass es besser abschneidet als Belastungstests oder SKAT-Tests, wenn eine Tendenz zu einer Richtung des phänotypischen Effekts besteht. In dem verlinkten Artikel, der SKAT-O beschreibt, führten die Autoren empirische Leistungstests basierend auf Simulationen durch und untersuchten dann einen veröffentlichten Datensatz mit all diesen Methoden. Sie schätzten die relative Leistung des veröffentlichten Datensatzes durch Vergleich der p- Werte, die vermutlich Teil der Grundlage für diese Frage sind.

Im Zusammenhang mit dieser Arbeit ist die Verwendung von p- Werten zur Bewertung einiger eng verwandter Tests mit demselben Datensatz sinnvoll. Im Allgemeinen können jedoch allgemeine Aussagen über das Verhältnis von p- Werten zur Macht irreführend sein, wie @kjetil b halvorsen in einer anderen Antwort hier feststellt.

Wenn Sie eine Analyse Ihrer eigenen Daten mit diesen Methoden in Betracht ziehen, sollten Sie zuerst Ihr Wissen über die Genomloci berücksichtigen. Führen Sie nicht alle 3 Tests durch und wählen Sie einfach den Test mit dem niedrigsten p- Wert. Wenn Sie keine Vorkenntnisse über die Art oder die Auswirkungen genomischer Varianten an Ihren interessierenden Orten haben, ist der SKAT-O-Test vorzuziehen, da er aus Ihren Daten das beste Gewicht zwischen den Belastungs- und SKAT-Modellen auswählt. Dies verbraucht einen zusätzlichen Freiheitsgrad (möglicherweise 2) für statistische Tests, jedoch mit einer großen Anzahl von Varianten, die in Bezug auf die Leistung keinen großen praktischen Unterschied machen sollten.

EdM
quelle