statistischer Test, um festzustellen, ob die Beziehung linear oder nicht linear ist

9

Ich habe einen Beispieldatensatz wie folgt:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

Geben Sie hier die Bildbeschreibung ein

Aus der Abbildung kann abgeleitet werden, dass zwischen einem bestimmten Bereich von "Volumen" und "Leistung" die Beziehung linear ist. Wenn "Volumen" relativ klein wird, wird die Beziehung nicht linear. Gibt es einen statistischen Test, um dies zu veranschaulichen?

In Bezug auf einige der Empfehlungen in den Antworten an das OP:

Das hier gezeigte Beispiel ist nur ein Beispiel. Der Datensatz, den ich habe, ähnelt der hier gezeigten Beziehung, ist jedoch lauter. Die Analyse, die ich bisher durchgeführt habe, zeigt, dass bei der Analyse eines Volumens einer bestimmten Flüssigkeit die Leistung eines Signals bei geringem Volumen drastisch zunimmt. Angenommen, ich hatte nur eine Umgebung, in der das Volumen zwischen 15 und 20 lag. Es würde fast wie eine lineare Beziehung aussehen. Indem wir jedoch den Bereich der Punkte vergrößern, dh kleinere Volumina haben, sehen wir, dass die Beziehung überhaupt nicht linear ist. Ich suche jetzt nach statistischen Ratschlägen, wie dies statistisch dargestellt werden kann. Hoffe das macht Sinn.

KatyB
quelle
5
Hier sind mehrere Dinge im Gange. Erstens sieht eine Beziehung natürlich linear aus, vorausgesetzt, die Bereiche der Variablen sind angemessen eingeschränkt. Zweitens ist die Heteroskedastizität der Daten fast so ausgeprägt wie die nichtlineare Beziehung: Die Streuung ist bei hohen Volumina und niedrigen Leistungen größer als bei niedrigen Volumina und hohen Leistungen. Unabhängig davon, was genau möchten Sie testen? Die Linearität der Beziehung über den gesamten Bereich?
whuber
4
Eigentlich würde Ich mag die Bemerkung über heteroscedasticity zurück nehmen: die Handlung gibt dem Aussehen solcher, aber es ist eine Illusion , die durch den relativ steilen Hängen in geringeren Mengen. (Das Volumen in Bezug auf die Leistung hat jedoch eine extrem heteroskedastische Beziehung.) Sobald wir feststellen, dass die Variation der Leistung nicht heteroskedastisch ist, schließt dies einige Arten von Analysen aus (wir möchten keine nichtlinearen Transformationen der Leistung anwenden) und schlägt vor Bevorzugung anderer (wie nichtlinearer kleinster Quadrate oder eines verallgemeinerten linearen Modells), sobald die Nichtlinearität eindeutig festgestellt ist.
whuber
Ich habe jetzt eine kurze Beschreibung des vorliegenden Problems hinzugefügt. Vielen Dank für Ihre bisherigen Kommentare. Diese werden sehr geschätzt und helfen mir, das Problem zu durchdenken.
KatyB
Warum nicht auf quadratischen Effekt testen?
AdamO
2
@ Simon Ich habe keinen Test verwendet, aber Sie können trotzdem sehen, dass dies homoskedastisch ist, indem Sie die typische Größe der Residuen gegen das Volumen auftragen . Hier ist ein RCode : plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Es zeigt eine nahezu konstante Restgröße über den gesamten Bereich.
whuber

Antworten:

4

Dies ist im Grunde ein Problem bei der Modellauswahl. Ich empfehle Ihnen, eine Reihe physikalisch plausibler Modelle auszuwählen (linear, exponentiell, möglicherweise eine diskontinuierliche lineare Beziehung) und das Akaike Information Criterion oder das Bayesian Information Criterion zu verwenden, um die besten auszuwählen - unter Berücksichtigung des Heteroskedastizitätsproblems, auf das @whuber hinweist.

Drew Steen
quelle
2

Haben Sie versucht, dies zu googeln? Eine Möglichkeit, dies zu tun, besteht darin, eine höhere Leistung oder andere nichtlineare Terme an Ihr Modell anzupassen und zu testen, ob sich ihre Koeffizienten signifikant von 0 unterscheiden.

Hier finden Sie einige Beispiele: http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

In Ihrem Fall möchten Sie Ihren Datensatz möglicherweise in zwei Abschnitte aufteilen, um die Nichtlinearität für Volumen <5 und die Linearität für Volumen> 5 zu testen.

Das andere Problem, das Sie haben, ist, dass Ihre Daten heteroskedastisch sind, was die Normalitätsannahme für Regressionsdaten verletzt. Der bereitgestellte Link enthält auch Beispiele für Tests hierfür.

Simon Hayward
quelle
Link ist unterbrochen.
Jatin
2

Ich schlage vor, nichtlineare Regression zu verwenden, um ein Modell an alle Ihre Daten anzupassen. Was bringt es, ein beliebiges Volumen auszuwählen und ein Modell an kleinere Volumina und ein anderes Modell an größere Volumina anzupassen? Gibt es einen Grund, jenseits des Aussehens der Figur 5 als scharfe Schwelle zu verwenden? Glauben Sie wirklich, dass nach einer bestimmten Volumenschwelle die ideale Kurve linear ist? Ist es nicht wahrscheinlicher, dass es sich mit zunehmendem Volumen der Horizontalen nähert, aber nie ganz linear ist?

Natürlich muss die Auswahl des Analysewerkzeugs davon abhängen, welche wissenschaftlichen Fragen Sie beantworten möchten und welche Vorkenntnisse Sie über das System haben.

Harvey Motulsky
quelle