Wenn ich über einen Datensatz mit einer sehr seltenen positiven Klasse verfüge und die negative Klasse heruntersuche, muss ich dann eine logistische Regression durchführen, um die Regressionskoeffizienten anzupassen, um die Tatsache widerzuspiegeln, dass ich die Prävalenz der positiven Klasse geändert habe?
Angenommen, ich habe einen Datensatz mit 4 Variablen: Y, A, B und C. Y, A und B sind binär, C ist stetig. Für 11.100 Beobachtungen ist Y = 0 und für 900 Y = 1:
set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)
Ich passe eine logistische Regression an, um Y vorauszusagen, wenn A, B und C gegeben sind.
dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)
Um Zeit zu sparen, konnte ich jedoch 10.200 Nicht-Y-Beobachtungen entfernen, was 900 Y = 0 und 900 Y = 1 ergab:
require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)
Die Regressionskoeffizienten der beiden Modelle sehen sehr ähnlich aus:
> coef(summary(mod1))
Estimate Std. Error z value Pr(>|z|)
(Intercept) -127.67782 20.619858 -6.191983 5.941186e-10
A -257.20668 41.650386 -6.175373 6.600728e-10
B -13.20966 2.231606 -5.919353 3.232109e-09
C -127.73597 20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
Estimate Std. Error z value Pr(>|z|)
(Intercept) -167.90178 59.126511 -2.83970391 0.004515542
A -246.59975 4059.733845 -0.06074284 0.951564016
B -16.93093 5.861286 -2.88860377 0.003869563
C -170.18735 59.516021 -2.85952165 0.004242805
Was mich zu der Annahme veranlasst, dass das Downsampling die Koeffizienten nicht beeinflusst hat. Dies ist jedoch ein einziges Beispiel, und ich möchte es lieber mit Sicherheit wissen.
mod2
) istPr(>|z|)
forA
fast 1. Wir können die Nullhypothese, dass der KoeffizientA
0 ist, nicht zurückweisen, also haben wir eine Kovariate verloren, die in verwendet wirdmod1
. Ist das nicht ein wesentlicher Unterschied?Antworten:
Downsampling entspricht dem Fall-Kontroll-Design in der medizinischen Statistik - Sie bestimmen die Anzahl der Antworten und beobachten die kovariaten Muster (Prädiktoren). Vielleicht ist die Schlüsselreferenz Prentice & Pyke (1979), "Logistic Disease Incidence Models and Case-Control Studies", Biometrika , 66 , 3.
Sie verwendeten den Satz von Bayes, um jeden Term in der Wahrscheinlichkeit für die Wahrscheinlichkeit eines gegebenen kovariaten Musters umzuschreiben, das davon abhängig ist, dass es sich um einen Fall oder eine Kontrolle handelt, und zwar als zwei Faktoren. Eine repräsentiert eine gewöhnliche logistische Regression (Wahrscheinlichkeit, ein Fall oder eine Kontrolle zu sein, die von einem kovariaten Muster abhängig ist), und die andere repräsentiert die marginale Wahrscheinlichkeit des kovariaten Musters. Sie zeigten, dass die Maximierung der Gesamtwahrscheinlichkeit unter der Bedingung, dass die Grenzwahrscheinlichkeiten für einen Fall oder eine Kontrolle durch das Stichprobenschema festgelegt werden, die gleichen Quotenquotientenschätzungen ergibt wie die Maximierung des ersten Faktors ohne Einschränkung (dh Durchführung einer normalen logistischen Regression). .
Der Intercept für die Population kann aus dem Fall-Kontroll-Intercept geschätzt werden, wenn die Populationsprävalenz bekannt ist:β∗0 β^0 π
Dabei ist & die Anzahl der untersuchten Kontrollen und Fälle.n0 n1
Wenn Sie Daten wegwerfen, haben Sie sich natürlich die Mühe gemacht, Daten zu sammeln, obwohl dies der am wenigsten nützliche Teil ist, und Sie verringern die Genauigkeit Ihrer Schätzungen. Einschränkungen bei den Rechenressourcen sind der einzige gute Grund, den ich dafür kenne, aber ich erwähne ihn, weil einige Leute denken, dass "ein ausgeglichener Datensatz" wichtig ist, aus einem anderen Grund, den ich nie feststellen konnte.
quelle
success
Instanzen sehr schlecht ist . Mit anderen Worten, sehr niedriger TPR. Durch Ändern des Schwellenwerts wird der TPR erhöht, aber die Genauigkeit ist sehr schlecht, was bedeutet, dass über 70% der als positiv gekennzeichneten Instanzen tatsächlich negativ sind. Ich habe gelesen, dass logistische Regression in seltenen Fällen nicht gut funktioniert. Hier spielt Firths Methode eine Rolle, oder zumindest eine der Rollen, die sie einnehmen kann. Die Ergebnisse der Firth-Methode waren jedoch der üblichen logit-Methode sehr ähnlich. Ich dachte, ich könnte mich bei Firths irren, aber anscheinend ist alles in Ordnung