Ich forsche auf dem Gebiet der funktionellen Reaktion von Milben. Ich möchte eine Regression durchführen, um die Parameter (Angriffsrate und Bearbeitungszeit) der Rogers Typ II-Funktion abzuschätzen. Ich habe einen Datensatz mit Messungen. Wie kann ich Ausreißer am besten bestimmen?
Für meine Regression verwende ich das folgende Skript in R (eine nichtlineare Regression): (Die Datenmenge ist eine einfache zweispaltige Textdatei namens data.txt
Datei mit N0
Werten (Anzahl der ersten Beute) und FR
Werten (Anzahl der gefressenen Beute während 24 Stunden):
library("nlstools")
dat <- read.delim("C:/data.txt")
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters
Zum Zeichnen der Calssic Residuendiagramme verwende ich folgendes Skript:
res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
boxplot (res$resi2,main="boxplot normalised residuals")
Fragen
- Wie kann ich am besten feststellen, welche Datenpunkte Ausreißer sind?
- Gibt es Tests, die ich in R verwenden kann, die objektiv sind und mir zeigen, welche Datenpunkte Ausreißer sind?
quelle
Für univariate Ausreißer gibt es den Dixon-Ratio-Test und den Grubbs-Test unter der Annahme der Normalität. Um einen Ausreißer zu testen, müssen Sie eine Bevölkerungsverteilung annehmen, da Sie zeigen möchten, dass der beobachtete Wert extrem oder ungewöhnlich ist, um von der angenommenen Verteilung zu stammen. Ich habe einen Artikel im American Statistician aus dem Jahr 1982, auf den ich hier bereits verwiesen habe, der zeigt, dass der Dixon-Ratio-Test in kleinen Stichproben auch für einige nicht normale Verteilungen verwendet werden kann. Chernick, MR (1982) "Ein Hinweis zur Robustheit des Dixon-Verhältnisses in kleinen Stichproben" American Statistician S. 140. Für multivariate Ausreißer und Ausreißer in Zeitreihen sind Einflussfunktionen für Parameterschätzungen nützliche Maßnahmen zur informellen Erkennung von Ausreißern (ich weiß nicht) von formalen Tests, die für sie erstellt wurden, obwohl solche Tests möglich sind)."Ausreißer in statistischen Daten" zur detaillierten Behandlung von Ausreißererkennungsmethoden.
quelle
Siehe http://www.waset.org/journals/waset/v36/v36-45.pdf , "Zur Ausreißererkennung bei nichtlinearer Regression" [ sic ].
Abstrakt
quelle
Ein Ausreißer ist ein Punkt, der "zu weit" von "einer Grundlinie" entfernt ist. Der Trick besteht darin, beide Sätze zu definieren! Bei nichtlinearer Regression kann man nicht einfach univariate Methoden verwenden, um festzustellen, ob ein Ausreißer "zu weit" von der am besten geeigneten Kurve entfernt ist, da der Ausreißer einen enormen Einfluss auf die Kurve selbst haben kann.
Ron Brown und ich haben eine einzigartige Methode entwickelt (die wir ROUT - Robuste Regression und Ausreißerentfernung nennen), um Ausreißer mit nichtlinearer Regression zu erkennen, ohne dass der Ausreißer die Kurve zu stark beeinflusst. Passen Sie die Daten zunächst mit einer robusten Regressionsmethode an, bei der Ausreißer nur geringen Einfluss haben. Das bildet die Basis. Verwenden Sie dann die Ideen der False Discovery Rate (FDR), um zu definieren, wann ein Punkt "zu weit" von dieser Basislinie entfernt ist und somit ein Ausreißer. Schließlich werden die identifizierten Ausreißer entfernt und die verbleibenden Punkte konventionell angepasst.
Die Methode wird in einem Open-Access-Journal veröffentlicht: Motulsky HJ und Brown RE, Erkennung von Ausreißern beim Anpassen von Daten mit nichtlinearer Regression - eine neue Methode, die auf robuster nichtlinearer Regression und der Rate falscher Entdeckungen basiert , BMC Bioinformatics 2006, 7: 123. Hier ist die Zusammenfassung:
Es wurde (soweit ich weiß) nicht in R implementiert. Aber wir haben es in GraphPad Prism implementiert . und geben Sie eine einfache Erklärung in der Prisma-Hilfe .
quelle
Ihre Frage ist zu allgemein. Es gibt keine beste Methode, um die "Ausreißer" auszuschließen.
Man musste einige Eigenschaften der "Ausreißer" kennen. oder Sie wissen nicht, welche Methode die beste ist. Nachdem Sie entschieden haben, welche Methode Sie verwenden möchten, müssen Sie die Parameter der Methode sorgfältig kalibrieren.
quelle