... die Beziehung ist nichtlinear, aber es gibt eine klare Beziehung zwischen x und y. Wie kann ich die Assoziation testen und ihre Natur kennzeichnen?
Eine Möglichkeit, dies zu tun, besteht darin, als semi-parametrisch geschätzte Funktion von anzupassen, indem beispielsweise ein verallgemeinertes additives Modell verwendet wird und geprüft wird, ob diese funktionale Schätzung konstant ist oder nicht, was darauf hindeutet, dass zwischen und keine Beziehung besteht . Durch diesen Ansatz müssen Sie keine polynomielle Regression mehr durchführen und können mitunter willkürliche Entscheidungen über die Reihenfolge des Polynoms usw. treffen.x y xyxyx
Wenn Sie Beobachtungen haben , können Sie das Modell :(Yi,Xi)
E(Yi|Xi)=α+f(Xi)+εi
und teste die Hypothese . In können Sie dies mit der Funktion tun . Wenn dies Ihr Ergebnis und Ihr Prädiktor ist, können Sie Folgendes eingeben:H0:f(x)=0, ∀xR
gam()
y
x
library(mgcv)
g <- gam(y ~ s(x))
Durch Tippen erhalten summary(g)
Sie das Ergebnis des obigen Hypothesentests. Soweit dies die Art der Beziehung charakterisiert, sollte dies am besten mit einer Handlung geschehen. Eine Möglichkeit, dies zu tun R
(vorausgesetzt, der obige Code wurde bereits eingegeben)
plot(g,scheme=2)
Wenn Ihre Antwortvariable diskret ist (z. B. binär), können Sie dies in diesem Rahmen berücksichtigen, indem Sie ein logistisches GAM anpassen (in R
, das Sie family=binomial
Ihrem Aufruf hinzufügen möchten gam
). Wenn Sie mehrere Prädiktoren haben, können Sie auch mehrere additive Terme (oder gewöhnliche lineare Terme) einschließen oder multivariable Funktionen anpassen, z. B. wenn Sie Prädiktoren hatten . Die Komplexität der Beziehung wird automatisch durch Kreuzvalidierung ausgewählt, wenn Sie die Standardmethoden verwenden, obwohl hier eine große Flexibilität besteht - siehe die Hilfedatei, wenn Sie interessiert sind.f(x,z)x, z
gam
Wenn die nichtlineare Beziehung eine monotone Rangkorrelation gewesen wäre (Spearman's Rho), wäre dies angemessen. In Ihrem Beispiel gibt es einen klaren kleinen Bereich, in dem sich die Kurve von monoton ansteigend zu montonisch abnehmend ändert, wie es eine Parabel an dem Punkt tun würde, an dem die erste Ableitung gleich .0
Ich denke, wenn Sie über Modellierungskenntnisse (jenseits der empirischen Informationen) verfügen, an denen dieser Änderungspunkt auftritt (etwa bei ), können Sie die Korrelation als positiv charakterisieren und Spearmans Rho für die Menge von Paaren mit , um eine Schätzung dieser Korrelation bereitzustellen, und verwenden Sie eine andere Schätzung der Spearman-Korrelation für wenn die Korrelation negativ ist. Diese zwei Schätzungen charakterisieren dann die Korrelationsstruktur zwischen und und im Gegensatz zu einer Korrelationsschätzung, die nahe wäre, wenn sie unter Verwendung aller Daten geschätzt würde, werden diese Schätzungen sowohl groß als auch mit entgegengesetztem Vorzeichen sein.( x , y ) x < a x > a x y 0x=a (x,y) x<a x>a x y 0
Einige könnten argumentieren, dass nur die empirischen Informationen ( dh die beobachteten Paare) ausreichen, um dies zu rechtfertigen.(x,y)
quelle
Sie können jede Art von Abhängigkeit mithilfe von Distanzkorrelationstests testen. Weitere Informationen zur Entfernungskorrelation finden Sie hier: Grundlegendes zu Entfernungskorrelationsberechnungen
Und hier das Originalpapier: https://arxiv.org/pdf/0803.4101.pdf
In R wird dies im
energy
Paket mit derdcor.test
Funktion implementiert .quelle
Jemand korrigiert mich, wenn mein Verständnis hier falsch ist, aber eine Möglichkeit, mit nichtlinearen Variablen umzugehen, besteht darin, eine lineare Approximation zu verwenden. Wenn Sie beispielsweise ein Protokoll der Exponentialverteilung erstellen, können Sie die Variable als Normalverteilung behandeln. Es kann dann verwendet werden, um das Problem wie eine lineare Regression zu lösen.
quelle
Früher habe ich das allgemeine additive Modell implementiert, um die nichtlineare Beziehung zwischen zwei Variablen zu ermitteln. Kürzlich habe ich jedoch herausgefunden, dass die nichtlineare Korrelation über
nlcor
package in R implementiert wurde. Sie können diese Methode auf dieselbe Weise wie die Pearson-Korrelation implementieren liegt der Korrelationskoeffizient wie bei der Pearson-Korrelation zwischen 0 und 1 und nicht zwischen -1 und 1. Ein höherer Korrelationskoeffizient impliziert die Existenz einer starken nichtlinearen Beziehung. Nehmen wir zwei Zeitreihen an,x2
undy2
die nichtlineare Korrelation zwischen den beiden Zeitreihen wird wie folgt getestetDie beiden Variablen scheinen über eine nichtlineare Beziehung stark korreliert zu sein. Sie können auch den angepassten p-Wert für den Korrelationskoeffizienten erhalten
Sie können die Ergebnisse auch grafisch darstellen
Sie können diesen Link für weitere Details anzeigen
quelle