Wie teste ich eine nichtlineare Zuordnung?

37

Für Diagramm 1 kann ich die Zuordnung zwischen x und y testen, indem ich eine einfache Korrelation durchführe. Grundstück 1

Wie kann ich für Diagramm 2, in dem die Beziehung nichtlinear ist, jedoch eine eindeutige Beziehung zwischen x und y besteht, die Zuordnung testen und ihre Natur kennzeichnen? Grundstück 2

user1447630
quelle

Antworten:

35

... die Beziehung ist nichtlinear, aber es gibt eine klare Beziehung zwischen x und y. Wie kann ich die Assoziation testen und ihre Natur kennzeichnen?

Eine Möglichkeit, dies zu tun, besteht darin, als semi-parametrisch geschätzte Funktion von anzupassen, indem beispielsweise ein verallgemeinertes additives Modell verwendet wird und geprüft wird, ob diese funktionale Schätzung konstant ist oder nicht, was darauf hindeutet, dass zwischen und keine Beziehung besteht . Durch diesen Ansatz müssen Sie keine polynomielle Regression mehr durchführen und können mitunter willkürliche Entscheidungen über die Reihenfolge des Polynoms usw. treffen.x y xyxyx

Wenn Sie Beobachtungen haben , können Sie das Modell :(Yi,Xi)

E(Yi|Xi)=α+f(Xi)+εi

und teste die Hypothese . In können Sie dies mit der Funktion tun . Wenn dies Ihr Ergebnis und Ihr Prädiktor ist, können Sie Folgendes eingeben:H0:f(x)=0, xRgam()yx

library(mgcv) 
g <- gam(y ~ s(x)) 

Durch Tippen erhalten summary(g)Sie das Ergebnis des obigen Hypothesentests. Soweit dies die Art der Beziehung charakterisiert, sollte dies am besten mit einer Handlung geschehen. Eine Möglichkeit, dies zu tun R(vorausgesetzt, der obige Code wurde bereits eingegeben)

plot(g,scheme=2)

Wenn Ihre Antwortvariable diskret ist (z. B. binär), können Sie dies in diesem Rahmen berücksichtigen, indem Sie ein logistisches GAM anpassen (in R, das Sie family=binomialIhrem Aufruf hinzufügen möchten gam). Wenn Sie mehrere Prädiktoren haben, können Sie auch mehrere additive Terme (oder gewöhnliche lineare Terme) einschließen oder multivariable Funktionen anpassen, z. B. wenn Sie Prädiktoren hatten . Die Komplexität der Beziehung wird automatisch durch Kreuzvalidierung ausgewählt, wenn Sie die Standardmethoden verwenden, obwohl hier eine große Flexibilität besteht - siehe die Hilfedatei, wenn Sie interessiert sind.f(x,z)x, zgam

Makro
quelle
1
Ich bevorzuge diesen Ansatz gegenüber den beiden getrennten Rangkorrelationen auf beiden Seiten von weil er die Beziehung als Ganzes untersucht. Es ist auch besser als das parametrische Modell, daher habe ich dies stattdessen akzeptiert. x=a
user1447630
@ user1447630 Dies ist ein Modell für die Beziehung. Polynomielle lineare oder nichtlineare Regression sowie additive Modelle sind Methoden zur Charakterisierung einer funktionalen Beziehung. Ich hätte jede davon erwähnen können. Aber Sie haben um ein gewisses Maß an Assoziation gebeten, also habe ich Ihnen andere mögliche Formen der Korrelation gegeben. So schön Macros Antwort auch sein mag, sie passt zu einer funktionalen Beziehung, liefert jedoch kein Maß für die Assoziation.
Michael Chernick
1
@ Michael, ich weiß nicht , welche Frage Sie gelesen haben, aber der OP gefragt , wie zu Test für einen Verein, nicht für eine Maßnahme der Assoziation. Auf jeden Fall, so schön Ihre Antwort auch sein mag (und ohne die Tatsache zu berücksichtigen, dass es ziemlich genaue Kenntnisse darüber erfordert, wo der Änderungspunkt auftritt), denke ich, dass er zu stark auf die spezifische Handlung in dieser Frage zugeschnitten ist, anstatt auf die allgemeine Problem der "nichtlinearen Assoziation".
Makro
3
@Michael, deine Interpretation ( "die Frage war, wie man das Konzept der Korrelation verallgemeinert .." ) und das statistische "Argument", das du gibst (übrigens "Prüfung der Signifikanz der Koeffizienten und des Modells" in einem linearen Modell, das ist ") Das gleiche gilt für das Testen einer Korrelation. Angesichts der Tatsachen ergibt dies keinen Sinn. Ich werde sie daher nicht ansprechen. Aber "... nachdem du deine gegeben hast, wurde meine nicht akzeptiert und deine akzeptiert ... ich hatte nur das Gefühl, dass das nicht richtig war", kämpft für deine Antwort, die nur eine Fixierung auf Wiederholungspunkte widerspiegelt und nichts Nützliches für die Community ist.
Makro
5
@Macro und Michael: Wenn ich ein Modell der Beziehung zwischen und halb- / nichtparametrisch anpasse, ist dies eine Möglichkeit, die Assoziation zwischen beiden zu testen. Ein solcher Test könnte erweitert werden, indem das Ausmaß der Assoziation mit den verschiedenen von Ihnen jeweils vorgeschlagenen Methoden gemessen wird. Ich denke, beide Antworten und das Follow-up hier waren für mich sehr nützlich, ohne dass dies der Fall ist . Da meine Frage jedoch beinhaltete, wie wir "seine Natur" bezeichnen könnten, was als Modellanpassung interpretiert werden könnte, bleibe ich bei der Antwort von Macro. yxy
user1447630
14

Wenn die nichtlineare Beziehung eine monotone Rangkorrelation gewesen wäre (Spearman's Rho), wäre dies angemessen. In Ihrem Beispiel gibt es einen klaren kleinen Bereich, in dem sich die Kurve von monoton ansteigend zu montonisch abnehmend ändert, wie es eine Parabel an dem Punkt tun würde, an dem die erste Ableitung gleich .0

Ich denke, wenn Sie über Modellierungskenntnisse (jenseits der empirischen Informationen) verfügen, an denen dieser Änderungspunkt auftritt (etwa bei ), können Sie die Korrelation als positiv charakterisieren und Spearmans Rho für die Menge von Paaren mit , um eine Schätzung dieser Korrelation bereitzustellen, und verwenden Sie eine andere Schätzung der Spearman-Korrelation für wenn die Korrelation negativ ist. Diese zwei Schätzungen charakterisieren dann die Korrelationsstruktur zwischen und und im Gegensatz zu einer Korrelationsschätzung, die nahe wäre, wenn sie unter Verwendung aller Daten geschätzt würde, werden diese Schätzungen sowohl groß als auch mit entgegengesetztem Vorzeichen sein.( x , y ) x < a x > a x y 0x=a(x,y)x<ax>axy0

Einige könnten argumentieren, dass nur die empirischen Informationen ( dh die beobachteten Paare) ausreichen, um dies zu rechtfertigen.(x,y)

Michael Chernick
quelle
Im Wesentlichen würde ich die x ~ y-Beziehung in zwei Teile aufteilen. Unterhalb von x = a ist die Korrelation von Spearmans Rho positiv. Oberhalb von x = a ist die Korrelation nach Spearmans Rho negativ. Ich mag diesen Ansatz. Es gibt jedoch auch eine Möglichkeit, parametrisch zu testen, ob die Beziehung zwischen x und y zu einer inversen Parabel passt, dh , wobei negativ ist. Möglicherweise erfordert dies einen benutzerdefinierten statistischen Test? ay=ax2+bx+ca
user1447630
1
Dazu passen Sie das quadratische Modell mit der linearen OLS-Regression an und führen einen statistischen Standardtest durch, bei dem der Koeffizient a größer als 0 ist (beispielsweise ein einseitiger t-Test).
Michael Chernick
1
@Michael, in Bezug auf deinen letzten Kommentar, wenn nicht symmetrisch um Null verteilt ist, könnte es eine große Kollinearität zwischen und . Da sich dies wahrscheinlich auf den Standard- Test für einen Regressionskoeffizienten auswirkt , ist ein Likelihood-Ratio-Test möglicherweise geeigneter, oder? x x 2 txxx2t
Makro
@Macro Ich denke, wenn es einen hohen Grad an Korrelation zwischen x und x Ihr Vorschlag gut sein. Ich denke jedoch, dass es üblich ist, einzelne t-Tests auf Koeffizienten anzuwenden, obwohl die Kovariaten X und X korreliert sein können. Eine hohe Kollinearität macht die Koeffizienten sehr instabil, da die Identifizierbarkeit fast verloren geht. In solchen Fällen ist es möglicherweise nicht sinnvoll, die Koeffizienten der Kovariaten zu testen. 1 2212
Michael Chernick
0

Jemand korrigiert mich, wenn mein Verständnis hier falsch ist, aber eine Möglichkeit, mit nichtlinearen Variablen umzugehen, besteht darin, eine lineare Approximation zu verwenden. Wenn Sie beispielsweise ein Protokoll der Exponentialverteilung erstellen, können Sie die Variable als Normalverteilung behandeln. Es kann dann verwendet werden, um das Problem wie eine lineare Regression zu lösen.

Akshata T
quelle
8
Ich denke, das beantwortet die Frage nicht wirklich. Das Aufzeichnen von Protokollen ist nicht dasselbe wie eine lineare Approximation. Selbst wenn Sie Protokolle erstellen, ist die Verteilung, für die das Protokoll der ursprünglichen Variablen eine normalverteilte Variable ist, nicht die Exponentialverteilung, sondern die logarithmische Normalverteilung . Es muss jedoch weder die unabhängige noch die abhängige Variable normalverteilt sein, damit eine lineare Regression angemessen ist - hier geht es um die Beziehung zwischen den Variablen, nicht um ihre Randverteilungen.
Silverfish
0

Früher habe ich das allgemeine additive Modell implementiert, um die nichtlineare Beziehung zwischen zwei Variablen zu ermitteln. Kürzlich habe ich jedoch herausgefunden, dass die nichtlineare Korrelation über nlcorpackage in R implementiert wurde. Sie können diese Methode auf dieselbe Weise wie die Pearson-Korrelation implementieren liegt der Korrelationskoeffizient wie bei der Pearson-Korrelation zwischen 0 und 1 und nicht zwischen -1 und 1. Ein höherer Korrelationskoeffizient impliziert die Existenz einer starken nichtlinearen Beziehung. Nehmen wir zwei Zeitreihen an, x2und y2die nichtlineare Korrelation zwischen den beiden Zeitreihen wird wie folgt getestet

install.packages("devtools") 
library(devtools)
install_github("ProcessMiner/nlcor")
library(nlcor)
c <- nlcor(x2, y2, plt = T)
c$cor.estimate
[1] 0.897205

Die beiden Variablen scheinen über eine nichtlineare Beziehung stark korreliert zu sein. Sie können auch den angepassten p-Wert für den Korrelationskoeffizienten erhalten

c$adjusted.p.value
[1] 0

Sie können die Ergebnisse auch grafisch darstellen

print(c$cor.plot)

Sie können diesen Link für weitere Details anzeigen

Ameer
quelle