Ich habe einen Beispieldatensatz wie folgt:
Volume <- seq(1,20,0.1)
var1 <- 100
x2 <- 1000000
x3 <- 30
x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)
Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))
Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)
Aus der Abbildung kann abgeleitet werden, dass zwischen einem bestimmten Bereich von "Volumen" und "Leistung" die Beziehung linear ist. Wenn "Volumen" relativ klein wird, wird die Beziehung nicht linear. Gibt es einen statistischen Test, um dies zu veranschaulichen?
In Bezug auf einige der Empfehlungen in den Antworten an das OP:
Das hier gezeigte Beispiel ist nur ein Beispiel. Der Datensatz, den ich habe, ähnelt der hier gezeigten Beziehung, ist jedoch lauter. Die Analyse, die ich bisher durchgeführt habe, zeigt, dass bei der Analyse eines Volumens einer bestimmten Flüssigkeit die Leistung eines Signals bei geringem Volumen drastisch zunimmt. Angenommen, ich hatte nur eine Umgebung, in der das Volumen zwischen 15 und 20 lag. Es würde fast wie eine lineare Beziehung aussehen. Indem wir jedoch den Bereich der Punkte vergrößern, dh kleinere Volumina haben, sehen wir, dass die Beziehung überhaupt nicht linear ist. Ich suche jetzt nach statistischen Ratschlägen, wie dies statistisch dargestellt werden kann. Hoffe das macht Sinn.
R
Code :plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")
. Es zeigt eine nahezu konstante Restgröße über den gesamten Bereich.Antworten:
Dies ist im Grunde ein Problem bei der Modellauswahl. Ich empfehle Ihnen, eine Reihe physikalisch plausibler Modelle auszuwählen (linear, exponentiell, möglicherweise eine diskontinuierliche lineare Beziehung) und das Akaike Information Criterion oder das Bayesian Information Criterion zu verwenden, um die besten auszuwählen - unter Berücksichtigung des Heteroskedastizitätsproblems, auf das @whuber hinweist.
quelle
Haben Sie versucht, dies zu googeln? Eine Möglichkeit, dies zu tun, besteht darin, eine höhere Leistung oder andere nichtlineare Terme an Ihr Modell anzupassen und zu testen, ob sich ihre Koeffizienten signifikant von 0 unterscheiden.
Hier finden Sie einige Beispiele: http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf
In Ihrem Fall möchten Sie Ihren Datensatz möglicherweise in zwei Abschnitte aufteilen, um die Nichtlinearität für Volumen <5 und die Linearität für Volumen> 5 zu testen.
Das andere Problem, das Sie haben, ist, dass Ihre Daten heteroskedastisch sind, was die Normalitätsannahme für Regressionsdaten verletzt. Der bereitgestellte Link enthält auch Beispiele für Tests hierfür.
quelle
Ich schlage vor, nichtlineare Regression zu verwenden, um ein Modell an alle Ihre Daten anzupassen. Was bringt es, ein beliebiges Volumen auszuwählen und ein Modell an kleinere Volumina und ein anderes Modell an größere Volumina anzupassen? Gibt es einen Grund, jenseits des Aussehens der Figur 5 als scharfe Schwelle zu verwenden? Glauben Sie wirklich, dass nach einer bestimmten Volumenschwelle die ideale Kurve linear ist? Ist es nicht wahrscheinlicher, dass es sich mit zunehmendem Volumen der Horizontalen nähert, aber nie ganz linear ist?
Natürlich muss die Auswahl des Analysewerkzeugs davon abhängen, welche wissenschaftlichen Fragen Sie beantworten möchten und welche Vorkenntnisse Sie über das System haben.
quelle