Was ist eine strikte Definition einer U-förmigen Beziehung?

7

Ich habe jetzt mehrere Artikel gesehen, die U-förmige oder inverse U-förmige Beziehungen zwischen Variablen analysieren (in einem Regressionsrahmen). Das allgemeine Verständnis, das ich von dort habe, ist, dass es sich um eine bestimmte Art einer nichtlinearen Beziehung handelt, die wir alle leicht visualisieren können.

Ich bin jedoch etwas verwirrt darüber, wie genau Menschen U-förmige Regressionsfunktionen mathematisch definieren. Angenommen, der Einfachheit halber gibt es nur den Regressor .x

Bedeutet eine U-förmige Regressionsfunktion, dass die Regressionsfunktion konvex ist und in bis zu einem gewissen Punkt c abnimmt und dann, nachdem c konvex ist und in x zunimmt ?xccx

Oder bedeutet es einfach, dass die Regressionsfunktion in x bis zu einem Punkt c abnimmt cund dann, nachdem c in x zunimmt x?

Neznajka
quelle
3
Unterschiedliche Autoren können unterschiedliche Definitionen haben - sollte die Beziehung kontinuierlich sein? Differenzierbar? Konvex? Die allgemeinste Definition, die mit der Idee von "Erhöhen, dann Verringern" oder "Verringern, dann Erhöhen" übereinstimmt, lautet: Eine Zuordnung f:AR mit AR ist "U-förmig" es gibt eine Zerlegung von A=BC wobei (1) jedes Element von B kleiner oder gleich jedem Element von C ; (2) f ist sowohl auf B als auch auf C monoton C; (3) die Bilder f(B) und f(C) haben jeweils mindestens zwei Werte; und (4) die Richtungen der Monotonie von funterscheiden sich B und C .
whuber
@whuber Dies ist genau das, wonach ich suche - wenn es eine allgemeine Vereinbarung darüber gibt, wie man es definiert ....
Neznajka
2
Ich konnte keine allgemeine Übereinstimmung bestätigen - und ich bin sicher, dass viele Autoren Einwände dagegen erheben würden, dass meine Definition weiter gefasst ist als beabsichtigt. Deshalb habe ich es als Kommentar hinterlassen.
whuber
3
Ich denke nicht, dass "U-förmig" ein mathematisch gut definierter Begriff ist; Es gibt keine allgemein akzeptierte Definition und ich denke nicht, dass Sie nach einer suchen sollten. Ich habe die ersten beiden Sätze meiner Antwort geändert, um dies zu betonen.
Amöbe

Antworten:

8

Die kurze Antwort auf Ihre Frage (wie an anderer Stelle angegeben) lautet, dass es keine einzige mathematische Definition einer U-Form gibt. Der Kommentar von @whuber ist die beste allgemeine Definition, die ich gesehen habe.

Ich recherchiere über Tests von U-Formen und für meine Präsentation habe ich eine Folie mit dem Titel "Was bedeutet ein U für Sie?", Was bedeutet, dass es subjektiv ist, was Menschen unter dem Begriff "U-Form" verstehen. Das Wichtigste ist, dass Sie, wenn Sie den Begriff "U-Form" verwenden, genau definieren, was Sie damit meinen, ohne davon auszugehen, dass andere wissen, was Sie meinen.

Da Sie nur einen Regressor angegeben haben, werde ich mich darauf konzentrieren. Ich habe die folgenden Definitionen in verschiedenen Artikeln gesehen:

  • Eine U-Form ist ein Quadrat.
  • Eine U-Form bedeutet Konvexität (für eine Anwendung in dieser Richtung siehe Van Landeghems 2012 "Ein Test für die Konvexität des menschlichen Wohlbefindens über den Lebenszyklus: Längsschnitt aus einem 20-Jahres-Panel").
  • Eine U-Form ist eine Funktion mit einer gewichteten durchschnittlichen Ableitung, die bis zu einem Punkt negativ ist, und einer gewichteten durchschnittlichen Ableitung, die nach diesem Punkt positiv ist (siehe Uri Simonsohns Zwei-Linien: Der erste gültige Test für U-förmige Beziehungen ).
  • Eine U-Form ist eine Funktion mit genau einem Wendepunkt. Dies entspricht einer Funktion, die quasi konvex, aber nicht monoton ist.

Eine Komplikation ist, was passiert, wenn der Wendepunkt nahe am Ende des Bereichs der x-Variablen liegt? Sollten wir eine solche Funktion immer noch als U-Form betrachten? Meiner Meinung nach sollte eine solche Diskussion stattfinden, wenn Sie definieren, was eine U-Form für Sie für Ihre Anwendung bedeutet, und wenn Sie Ihre Nullhypothese angeben.

Die Definition, die ich in meinem Artikel " Nichtparametrisches Testen von U-förmigen Beziehungen" verwende , lautet wie folgt:

Lassen die Regressionsfunktion und lassen , die Unterstützung von . Für eine bestimmte Menge sind wir daran interessiert, Folgendes zu testen:m(x)S(X)XA0S(X)

H0:aA0 st xS(X)m(x)(xa)0versusHA:aA0,xS(X) stm(x)(xa)<0

Zum Beispiel teste ich in einer Anwendung eine U-Form der Lebenszufriedenheit im Alter von 20 bis 70 Jahren, wobei der Wendepunkt zwischen 30 und 60 Jahren liegt. Mit diesem vorgeschlagenen Rahmen sind willkürliche Entscheidungen erforderlich. Das Wichtigste ist, offen für sie zu sein und zu überprüfen, wie sensibel die Ergebnisse für Änderungen sind (und andere dazu aufzufordern, dasselbe zu tun).

Zusätzlich zur Angabe der Nullhypothese sollten Sie wie immer die Annahmen angeben, auf die Sie sich verlassen. Eine verbreitete Annahme ist beispielsweise, dass die Regressionsfunktion entweder monoton U-förmig ist. Siehe zum Beispiel Lind und Mehlums 2009 "Mit oder ohne U? Der geeignete Test für eine U-förmige Beziehung", in dem sie eine Verbesserung des quadratischen Vanille-OLS-Tests vorschlagen, indem sie testen, ob die Ableitung einer bestimmten funktionellen Form bei negativ ist der Anfang des Bereichs und positiv am Ende.

Ein weiterer zu berücksichtigender Punkt ist: Möchten Sie einen Test, der die Nullhypothese aufgrund einer kleinen Verletzung der U-Form ablehnt? Wenn ja, betrachten Sie das R-Paket qmutest , das einen nichtparametrischen Test implementiert , der auf Splines der Nullhypothesen basiert, dass die Regressionsfunktion quasi konvex und separat monoton ist. Wenn Sie keinen Test wünschen, der aufgrund einer kleinen Verletzung Rückschlüsse auf eine U-Form zulässt, ist der Test mit zwei Linien von Uri möglicherweise am besten geeignet, wenn Sie testen möchten, dass eine Regressionsfunktion meistens abnimmt und dann meistens zunimmt.

Da es bei Ihrer Frage um die Verwendung des Begriffs "U-Form" und der Definition ging, finde ich es relevant, hier einige Begriffe aufzulisten, die häufig verwendet werden, um sich auf dasselbe zu beziehen wie "U-Form" und "umgekehrte U-Form" "werden verwendet, um zu bezeichnen:" talförmig "," muldenförmig "," hügelförmig "," unimodal "," einspitzig "und" glockenförmig ". Es gibt keinen inhärenten Grund, warum "U-Form" ein besserer Begriff ist als die anderen, aber seine Verwendung scheint sich durchgesetzt zu haben.

Ich arbeite an einem allgemeinen R-Paket, das nur eine Schnittstelle zu bestimmten R-Paketen (wie z. B. qmutest) sein wird, die auf U-förmige Beziehungen testen, diese jedoch definieren. Ziel ist es, den Benutzern zu helfen, verschiedene Tests zu vergleichen und über die genaue Nullhypothese nachzudenken, die sie testen möchten, und welche Annahmen sie treffen möchten.

Scottkosty
quelle
1
+1. Ich bin ein bisschen verwirrt von diesem Satz: "Möchten Sie einen Test, der die Nullhypothese wegen einer kleinen Verletzung der U-Form ablehnt?" Ich gehe davon aus, dass die Null ist, dass es keine U-Form gibt, so dass ein ausreichend kleiner p-Wert ein Beweis für die U-Form war. Ist das richtig?
Amöbe
1
(Ich bin froh zu sehen, dass Sie Uris Artikel positiv erwähnen: Ich habe es in meiner Antwort hier erwähnt und es wurde in den Kommentaren heftig kritisiert.)
Amöbe
3
(+1) Sehr schöne, nachdenkliche, maßgebliche Übersicht. Willkommen auf unserer Webseite!
whuber
1
@amoeba Wenn ich "U-Form" verwende, beziehe ich mich auf Definition 4 oben (eine Funktion mit genau einem Wendepunkt). Für meinen Test ist die Null U-Form. Was ich meine ist, dass asymptotisch die Null der U-Form zurückgewiesen wird, wenn eine Verletzung der U-Form in der zugrunde liegenden Regressionsfunktion vorliegt (z. B. gibt es zwei Wendepunkte). Dies ist beim Uri-Test nicht der Fall, da es sich beim Zwei-Linien-Test um die durchschnittliche Ableitung handelt. Es kann also zu Wackeln kommen, ohne dass dies zwangsläufig zu einer asymptotischen Folgerung gegen U-Formen führt.
Scottkosty
1
@amoeba Als Beispiel sehen Sie die Funktion mit der Bezeichnung "sin" in Abbildung 2 meines Papiers. Ich glaube (obwohl ich nicht überprüft habe), dass der Zwei-Linien-Test einen asymptotischen Rückschluss geben würde, was darauf hindeutet, dass "Sünde" eine U-Form ist, obwohl sie drei Wendepunkte hat.
Scottkosty
7

"U-förmige Beziehung" ist kein mathematisch präziser Begriff und es gibt keine allgemein akzeptierte Definition. Es in der Regel bedeutet , dass die Beziehung zuerst abnimmt und dann zunimmt, oder umgekehrt.

Mit anderen Worten bedeutet dies, dass die Beziehung nicht monoton (nicht monoton) ist, sondern genau ein Extremum (Maximum oder Minimum) hat. In der Informatik wird dies manchmal als "bitonisch" bezeichnet .

Uri Simonsohn hat kürzlich ein interessantes Papier über das Testen von U-förmigen Beziehungen geschrieben. Siehe seinen Preprint Two-Lines: Eine gültige Alternative zum ungültigen Testen von U-förmigen Beziehungen mit quadratischen Regressionen, die sehr lesbar und amüsant ist. So beginnt das Papier:

Gibt es zu viele Optionen, Tugenden oder Beispiele in einem Eröffnungssatz? Forscher interessieren sich häufig für diese Art von Fragen, um zu beurteilen, ob die Wirkung von auf für niedrige Werte von positiv , für hohe Werte von jedoch negativ ist . Zur Vereinfachung der Darstellung bezeichne ich alle diese Beziehungen als "u-förmig", ob sie symmetrisch sind oder nicht (dh U- oder J-förmig) und ob die Wirkung von auf von negativ nach positiv oder umgekehrt geht ( dh U oder invertiertes U).xyxxxy

Dies unterstützt die Definition, die ich oben gegeben habe.


Für einen kurzen Überblick über Uris Artikel kann man seinen DataColada-Beitrag lesen. Zwei Zeilen: Der erste gültige Test für U-förmige Beziehungen . Der Hauptpunkt ist, dass die Verwendung einer quadratischen Regression zum Testen des Vorhandenseins einer U-förmigen Beziehung sehr, sehr falsch ist. Anscheinend werden in einigen Bereichen häufig quadratische Anpassungen verwendet, um für eine U-förmige Beziehung zu argumentieren (dh der t-Test für den quadratischen Term wird als Test der U-Form angesehen); das ist beunruhigend.

Hier ist die Kennzahl:

U-förmige Beziehungen

Update: In den Kommentaren wird Uris Artikel kritisiert. Ich möchte betonen, dass er niemals vorschlägt, dass diskontinuierliche zweizeilige Anpassungen die Daten gut modellieren sollen (oder dass der Sprung an der Diskontinuität eine physikalische Bedeutung hat). Nein. Diese Anpassung dient ausschließlich dazu , einen statistischen Test der U-Form durchzuführen.

Natürlich stimme ich @FrankHarrell zu, dass es viel sinnvoller ist, ein Spline-Modell zu verwenden, um solche nichtlinearen Beziehungen anzupassen. Splines bieten jedoch keinen Test für die U-Form, wohingegen Uris zweizeilige Anpassung dies tut.

Amöbe
quelle
4
Ich würde sagen, dass eine quadratische Kurve in erster Linie auf eine unterschiedliche Steigung hinweist. Was ich glaube, ist ein sehr sehr guter Weg (oder zumindest ein einfacher Weg unter vielen Umständen), dies zu überprüfen. Ein sehr sehr schlechter Weg, um die (wahre) zugrunde liegende Beziehung darzustellen, insbesondere die, wenn man sagen könnte, Einheitlichkeit einer Beziehung.
Sextus Empiricus
4
Ich habe es gerade gelesen. Er sagt, "zwei Leitungen zum Verbinden zu zwingen, führt zu Voreingenommenheit". Was für ein seltsames Argument. Das Zulassen, dass sie sich nicht verbinden, führt zu Unmöglichkeiten. Ich finde das ganze zweizeilige Argument schwach. Es scheint nur Splines zu vermeiden.
Frank Harrell
2
@FrankHarrell Nun, ich stelle mir vor, es ist schwierig (wenn überhaupt möglich), einen p-Wert für die U-Form basierend auf einem Splines-Modell zu finden. Ich denke, in vielen Fällen reicht es aus, ein gutes Splines-Modell zu bauen und es dann einfach in Augenschein zu nehmen, um festzustellen, ob es Hinweise auf U-Form gibt. Und du magst sowieso keine p-Werte. Das ist also in Ordnung. In diesem Artikel wird jedoch versucht, ein Instrument für die Forscher zu entwickeln, die einen p-Wert für die U-Form berechnen möchten. und dieses Instrument sollte keine offensichtlich lächerliche Falsch-Positiv-Rate haben, wie es ein quadratischer Term in der Regression tut ... Zumindest ist das mein Verständnis.
Amöbe
3
Ich sehe nicht, dass seine Argumente stark sind. Splines passen eher; warum bei bilinear aufhören oder es sogar ernsthaft präsentieren? Bei Splines ist das Testen auf Assoziation (Ebenheit) und Nichtlinearität trivial. Das Testen auf Nicht-Monotonie ist eine Herausforderung. Ich würde gerne einen Hinweis darauf sehen. In Bezug auf das Testen auf Nichtlinearität (aber das Ignorieren der Genauigkeit von Vorhersagen) machen Quadratics einen ziemlich anständigen Job. Die zweizeilige Methode hängt stark davon ab, wo Sie die Diskontinuität platzieren.
Frank Harrell
3
Obwohl ich das Bayes'sche Modellieren liebe, bin ich nicht davon überzeugt, dass das Gedankenexperiment, sich einen Änderungspunkt vorzustellen, der direkteste Weg ist. Ich würde eher eine flexible glatte Passform mit einer vorherigen Verteilung für den Grad der Nicht-Monotonie sehen.
Frank Harrell