Ich versuche, den Inflationsgrad zu quantifizieren (dh wie die beobachteten Datenpunkte am besten zu den Erwartungen passen). Eine Möglichkeit ist, sich das QQ-Diagramm anzusehen. Aber ich möchte einen numerischen Indikator für die Inflation berechnen - bedeutet, wie gut das Beobachtete zur theoretischen Gleichverteilung passt.
Beispieldaten:
# random uniform distribution
pvalue <- runif(100, min=0, max=1)
# with inflation expected i.e. not uniform distribution
pvalue1 <- rnorm(100, mean = 0.5, sd=0.1)
probability
distributions
qq-plot
rdorlearn
quelle
quelle
Antworten:
Es gibt verschiedene Möglichkeiten, wie wir Abweichungen von jeder Verteilung testen können (in Ihrem Fall einheitlich):
(1) Nichtparametrische Tests:
Sie können Kolmogorov-Smirnov- Tests verwenden, um zu sehen, wie die Verteilung der beobachteten Werte den Erwartungen entspricht.
R hat eine
ks.test
Funktion, die einen Kolmogorov-Smirnov-Test durchführen kann.(2) Chi-Quadrat-Anpassungstest
In diesem Fall kategorisieren wir die Daten. Wir notieren die beobachteten und erwarteten Häufigkeiten in jeder Zelle oder Kategorie. Für den kontinuierlichen Fall können die Daten durch Erstellen künstlicher Intervalle (Bins) kategorisiert werden.
(3) Lambda
Wenn Sie eine genomweite Assoziationsstudie (GWAS) durchführen, möchten Sie möglicherweise den genomischen Inflationsfaktor berechnen , der auch als Lambda (λ) bezeichnet wird ( siehe auch ). Diese Statistik ist in der statistischen Genetik beliebt. Per Definition ist λ definiert als der Median der resultierenden Chi-Quadrat-Teststatistik geteilt durch den erwarteten Median der Chi-Quadrat-Verteilung. Der Median einer Chi-Quadrat-Verteilung mit einem Freiheitsgrad beträgt 0,4549364. Ein λ-Wert kann aus Z-Scores, Chi-Quadrat-Statistiken oder P-Werten berechnet werden, abhängig von der Ausgabe, die Sie aus der Assoziationsanalyse erhalten. Manchmal wird der Anteil des p-Werts vom oberen Schwanz verworfen.
Für p-Werte können Sie dies tun durch:
Wenn die Analyseergebnisse Ihrer Daten der normalen Chi-Quadrat-Verteilung folgen (keine Inflation), beträgt der erwartete λ-Wert 1. Wenn der λ-Wert größer als 1 ist, kann dies ein Hinweis auf eine systematische Verzerrung sein, die in Ihrer Analyse korrigiert werden muss .
Lambda kann auch mithilfe der Regressionsanalyse geschätzt werden.
Eine andere Methode zur Berechnung des Lambda ist die Verwendung von 'KS' (Optimierung der Anpassung der Chi2.1df-Verteilung mithilfe des Kolmogorov-Smirnov-Tests).
quelle