Ich habe jetzt mehrere Artikel gesehen, die U-förmige oder inverse U-förmige Beziehungen zwischen Variablen analysieren (in einem Regressionsrahmen). Das allgemeine Verständnis, das ich von dort habe, ist, dass es sich um eine bestimmte Art einer nichtlinearen Beziehung handelt, die wir alle leicht visualisieren können.
Ich bin jedoch etwas verwirrt darüber, wie genau Menschen U-förmige Regressionsfunktionen mathematisch definieren. Angenommen, der Einfachheit halber gibt es nur den Regressor .
Bedeutet eine U-förmige Regressionsfunktion, dass die Regressionsfunktion konvex ist und in bis zu einem gewissen Punkt c abnimmt und dann, nachdem c konvex ist und in x zunimmt ?
Oder bedeutet es einfach, dass die Regressionsfunktion in bis zu einem Punkt c abnimmt und dann, nachdem in x zunimmt ?
Antworten:
Die kurze Antwort auf Ihre Frage (wie an anderer Stelle angegeben) lautet, dass es keine einzige mathematische Definition einer U-Form gibt. Der Kommentar von @whuber ist die beste allgemeine Definition, die ich gesehen habe.
Ich recherchiere über Tests von U-Formen und für meine Präsentation habe ich eine Folie mit dem Titel "Was bedeutet ein U für Sie?", Was bedeutet, dass es subjektiv ist, was Menschen unter dem Begriff "U-Form" verstehen. Das Wichtigste ist, dass Sie, wenn Sie den Begriff "U-Form" verwenden, genau definieren, was Sie damit meinen, ohne davon auszugehen, dass andere wissen, was Sie meinen.
Da Sie nur einen Regressor angegeben haben, werde ich mich darauf konzentrieren. Ich habe die folgenden Definitionen in verschiedenen Artikeln gesehen:
Eine Komplikation ist, was passiert, wenn der Wendepunkt nahe am Ende des Bereichs der x-Variablen liegt? Sollten wir eine solche Funktion immer noch als U-Form betrachten? Meiner Meinung nach sollte eine solche Diskussion stattfinden, wenn Sie definieren, was eine U-Form für Sie für Ihre Anwendung bedeutet, und wenn Sie Ihre Nullhypothese angeben.
Die Definition, die ich in meinem Artikel " Nichtparametrisches Testen von U-förmigen Beziehungen" verwende , lautet wie folgt:
Lassen die Regressionsfunktion und lassen , die Unterstützung von . Für eine bestimmte Menge sind wir daran interessiert, Folgendes zu testen:m(x) S(X) X A0⊂S(X)
Zum Beispiel teste ich in einer Anwendung eine U-Form der Lebenszufriedenheit im Alter von 20 bis 70 Jahren, wobei der Wendepunkt zwischen 30 und 60 Jahren liegt. Mit diesem vorgeschlagenen Rahmen sind willkürliche Entscheidungen erforderlich. Das Wichtigste ist, offen für sie zu sein und zu überprüfen, wie sensibel die Ergebnisse für Änderungen sind (und andere dazu aufzufordern, dasselbe zu tun).
Zusätzlich zur Angabe der Nullhypothese sollten Sie wie immer die Annahmen angeben, auf die Sie sich verlassen. Eine verbreitete Annahme ist beispielsweise, dass die Regressionsfunktion entweder monoton U-förmig ist. Siehe zum Beispiel Lind und Mehlums 2009 "Mit oder ohne U? Der geeignete Test für eine U-förmige Beziehung", in dem sie eine Verbesserung des quadratischen Vanille-OLS-Tests vorschlagen, indem sie testen, ob die Ableitung einer bestimmten funktionellen Form bei negativ ist der Anfang des Bereichs und positiv am Ende.
Ein weiterer zu berücksichtigender Punkt ist: Möchten Sie einen Test, der die Nullhypothese aufgrund einer kleinen Verletzung der U-Form ablehnt? Wenn ja, betrachten Sie das R-Paket qmutest , das einen nichtparametrischen Test implementiert , der auf Splines der Nullhypothesen basiert, dass die Regressionsfunktion quasi konvex und separat monoton ist. Wenn Sie keinen Test wünschen, der aufgrund einer kleinen Verletzung Rückschlüsse auf eine U-Form zulässt, ist der Test mit zwei Linien von Uri möglicherweise am besten geeignet, wenn Sie testen möchten, dass eine Regressionsfunktion meistens abnimmt und dann meistens zunimmt.
Da es bei Ihrer Frage um die Verwendung des Begriffs "U-Form" und der Definition ging, finde ich es relevant, hier einige Begriffe aufzulisten, die häufig verwendet werden, um sich auf dasselbe zu beziehen wie "U-Form" und "umgekehrte U-Form" "werden verwendet, um zu bezeichnen:" talförmig "," muldenförmig "," hügelförmig "," unimodal "," einspitzig "und" glockenförmig ". Es gibt keinen inhärenten Grund, warum "U-Form" ein besserer Begriff ist als die anderen, aber seine Verwendung scheint sich durchgesetzt zu haben.
Ich arbeite an einem allgemeinen R-Paket, das nur eine Schnittstelle zu bestimmten R-Paketen (wie z. B. qmutest) sein wird, die auf U-förmige Beziehungen testen, diese jedoch definieren. Ziel ist es, den Benutzern zu helfen, verschiedene Tests zu vergleichen und über die genaue Nullhypothese nachzudenken, die sie testen möchten, und welche Annahmen sie treffen möchten.
quelle
"U-förmige Beziehung" ist kein mathematisch präziser Begriff und es gibt keine allgemein akzeptierte Definition. Es in der Regel bedeutet , dass die Beziehung zuerst abnimmt und dann zunimmt, oder umgekehrt.
Mit anderen Worten bedeutet dies, dass die Beziehung nicht monoton (nicht monoton) ist, sondern genau ein Extremum (Maximum oder Minimum) hat. In der Informatik wird dies manchmal als "bitonisch" bezeichnet .
Uri Simonsohn hat kürzlich ein interessantes Papier über das Testen von U-förmigen Beziehungen geschrieben. Siehe seinen Preprint Two-Lines: Eine gültige Alternative zum ungültigen Testen von U-förmigen Beziehungen mit quadratischen Regressionen, die sehr lesbar und amüsant ist. So beginnt das Papier:
Dies unterstützt die Definition, die ich oben gegeben habe.
Für einen kurzen Überblick über Uris Artikel kann man seinen DataColada-Beitrag lesen. Zwei Zeilen: Der erste gültige Test für U-förmige Beziehungen . Der Hauptpunkt ist, dass die Verwendung einer quadratischen Regression zum Testen des Vorhandenseins einer U-förmigen Beziehung sehr, sehr falsch ist. Anscheinend werden in einigen Bereichen häufig quadratische Anpassungen verwendet, um für eine U-förmige Beziehung zu argumentieren (dh der t-Test für den quadratischen Term wird als Test der U-Form angesehen); das ist beunruhigend.
Hier ist die Kennzahl:
Update: In den Kommentaren wird Uris Artikel kritisiert. Ich möchte betonen, dass er niemals vorschlägt, dass diskontinuierliche zweizeilige Anpassungen die Daten gut modellieren sollen (oder dass der Sprung an der Diskontinuität eine physikalische Bedeutung hat). Nein. Diese Anpassung dient ausschließlich dazu , einen statistischen Test der U-Form durchzuführen.
Natürlich stimme ich @FrankHarrell zu, dass es viel sinnvoller ist, ein Spline-Modell zu verwenden, um solche nichtlinearen Beziehungen anzupassen. Splines bieten jedoch keinen Test für die U-Form, wohingegen Uris zweizeilige Anpassung dies tut.
quelle