Ich habe kein bestimmtes Beispiel oder keine bestimmte Aufgabe im Sinn. Ich bin gerade neu in der Verwendung von B-Splines und wollte diese Funktion im Regressionskontext besser verstehen.
Nehmen wir an, wir wollen die Beziehung zwischen der Antwortvariablen und einigen Prädiktoren . Die Prädiktoren enthalten einige numerische Variablen sowie einige kategoriale.
Angenommen, nach dem Anpassen eines Regressionsmodells ist eine der numerischen Variablen, z . B. signifikant. Ein logischer Schritt danach besteht darin, zu beurteilen, ob Polynome höherer Ordnung, z. B.: und erforderlich sind, um die Beziehung ohne Überanpassung angemessen zu erklären.
Meine Fragen sind:
Ab wann wählen Sie zwischen B-Splines oder einfachen Polynomen höherer Ordnung. zB in R:
y ~ poly(x1,3) + x2 + x3
vs.
y ~ bs(x1,3) + x2 + x3
Wie können Sie Diagramme verwenden, um Ihre Wahl zwischen diesen beiden zu treffen, und was passiert, wenn dies aus den Diagrammen nicht wirklich hervorgeht (z. B. aufgrund großer Datenmengen)?
Wie würden Sie die wechselseitigen Interaktionsterme zwischen und bewerten
Wie ändert sich das oben Gesagte für verschiedene Modelltypen?
Würden Sie in Betracht ziehen, niemals Polynome höherer Ordnung zu verwenden und immer B-Splines anzupassen und die hohe Flexibilität zu bestrafen?
quelle
mgcv
Warum nicht (verallgemeinerte) additive Modelle verwenden, wenn man bedenkt, wie gut entwickelt ist? Die Auswahl der Glätte erfolgt automatisch, und die Inferenzmethoden sind gut entwickelt.Antworten:
Normalerweise würde ich eher Splines als Polynome betrachten. Polynome können keine Schwellenwerte modellieren und sind oft unerwünscht global, dh Beobachtungen in einem Bereich des Prädiktors haben einen starken Einfluss darauf, was das Modell in einem anderen Bereich tut ( Magee, 1998, The American Statistician und Frank Harrells Regressionsmodellierungsstrategien ). Und natürlich sind eingeschränkte Splines, die außerhalb der Extremalknoten linear sind, besser für die Extrapolation oder sogar für die Intrapolation bei Extremwerten der Prädiktoren.
Ein Fall, in dem Sie möglicherweise Polynome berücksichtigen möchten, ist, wenn es wichtig ist, Ihr Modell einem nichttechnischen Publikum zu erklären. Menschen verstehen Polynome besser als Splines. (Bearbeiten: Matthew Drury weist darauf hin, dass die Leute vielleicht nur denken, sie verstehen Polynome besser als Splines. Ich werde in dieser Frage keine Partei ergreifen.)
Diagramme sind oft nicht sehr nützlich, um zwischen verschiedenen Arten des Umgangs mit Nichtlinearität zu entscheiden. Besser eine Kreuzvalidierung durchführen. Dies hilft Ihnen auch dabei, Interaktionen zu bewerten oder eine gute Bestrafung zu finden.
Schließlich ändert sich meine Antwort nicht mit der Art des Modells, da die obigen Punkte für jedes statistische oder ML-Modell gelten.
quelle
In Abschnitt 7.4.5 von "Die Elemente des statistischen Lernens" heißt es, dass Splines häufig bessere Ergebnisse liefern als die Polynomregression, weil:
quelle