Ich habe simulierte Daten von 2500 Personen bezüglich der Inzidenz einer seltenen Krankheit über 20 Jahre
year number_affected
1 0
2 0
3 1
4 0
5 0
6 0
7 1
8 0
9 1
10 0
11 1
12 0
13 0
14 1
15 1
16 0
17 1
18 0
19 2
20 1
Welchen Test kann ich anwenden, um zu zeigen, dass die Krankheit immer häufiger auftritt?
Bearbeiten: Wie von @Wrzlprmft vorgeschlagen, habe ich eine einfache Korrelation mit Spearman- und auch Kendall-Methoden versucht:
Spearman's rank correlation rho
data: year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3989206
Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
Cannot compute exact p-value with ties
>
Kendall's rank correlation tau
data: year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3296319
Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
Cannot compute exact p-value with ties
Sind diese für diese Art von Daten ausreichend gut? Der Mann-Kendall-Test unter Verwendung der von @AWebb gezeigten Methode ergibt einen P-Wert von [1] 0,04319868. Die von @dsaxton vorgeschlagene Poisson-Regression ergibt folgendes Ergebnis:
Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3187 -0.8524 -0.6173 0.5248 1.2158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.79664 0.85725 -2.096 0.0361 *
year 0.09204 0.05946 1.548 0.1217
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.636 on 19 degrees of freedom
Residual deviance: 14.038 on 18 degrees of freedom
AIC: 36.652
Number of Fisher Scoring iterations: 5
Die Jahreskomponente ist hier nicht signifikant. Was kann ich endlich schließen? In all diesen Analysen wurde auch die Zahl 2500 (Nennerpopulationszahl) nicht verwendet. Macht diese Zahl keinen Unterschied? Können wir die einfache lineare Regression (Gauß) unter Verwendung der Inzidenz (number_affected / 2500) gegenüber dem Jahr verwenden?
drop1(fit, test="LRT")
einen Likelihood-Ratio-Test durchführen, anstatt einen asymptotischen Z- Test für die Poisson-Statistik durchzuführen . ( Wenn Sie dies tun, erhalten Sie einen p- Wert von 0,107, der statistisch immer noch nicht signifikant ist.) Sie müssen die Bevölkerungszahl nicht in die Regression einbeziehen, wenn sie für jedes Jahr gleich ist. Dann spielt es nur noch die Rolle eines Skalierungsfaktors. Aber man sollte es enthalten (mit pro-jährigen Bevölkerung Werte), wie die Bevölkerung in Gefahr wahrscheinlich nicht die 20 Jahre variieren. Fügen Sie einfachoffset=log(pop_at_risk)
demglm
Anruf hinzu.Antworten:
Sie können den nicht parametrischen Mann-Kendall-Test verwenden . Für diese Beispieldaten
cases
und die einseitige Nullhypothese, dass es keinen zunehmenden Trend gibt, können Sie wie folgt in r implementieren .Und lehnen Sie bei 5% zugunsten eines zunehmenden Trends ab.
quelle
Sie könnten ein sehr einfaches Regressionsmodell anpassen, das nur aus einem Achsenabschnitt und einer Zeitkomponente besteht, und die "Signifikanz" der Zeitkomponente testen. Zum Beispiel könnten Sie Poisson wobei die Anzahl der Vorkommen im Jahr und und prüfen, ob .Yt∼ (λt) Yt t log(λt)=α+βt β>0
quelle
Überprüfen Sie einfach, ob Ihre Anzahl neuer Fälle (dh
number_affected
) signifikant mit der Zeit (dhyear
) korreliert . Da jede mögliche lineare Abhängigkeit der Ereignisrate zumindest zur Beobachtungsdiskretisierung verzerrt ist, möchten Sie einen rangbasierten Korrelationskoeffizienten verwenden, z. B. Kendalls τ oder Spearmans ρ.quelle