Auswahl von k Knoten im Regressionsglättungs-Spline entsprechend k kategorialen Variablen?

9

Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich:

Geben Sie hier die Bildbeschreibung ein

Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of Statistical Learning (Hastie et al., 2009, S.151) beträgt die optimale Knotenplatzierung einen Knoten pro eindeutigem Wert des Mitgliedsalters.

Ist der bestrafte Glättungs-Spline angesichts der Tatsache, dass ich das Alter als Ganzzahl behalte, gleichbedeutend mit einer Ridge-Regression oder einem Lasso mit 101 verschiedenen Altersindikatorvariablen, eine pro Alterswert im Datensatz (minus eine als Referenz)? Eine Überparametrisierung wird dann vermieden, da die Koeffizienten für jeden Altersindikator gegen Null geschrumpft werden.

RobertF
quelle
Ihr Vorschlag von Altersindikatoren + Schrumpfung ist im Wesentlichen dasselbe wie ein glättender Spline der Ordnung 0.
Glen_b - Monica am
Es wäre hilfreich, wenn Sie die anderen prädiktiven Variablen als eine der vorgeschlagenen Antworten angeben würden, wenn Sie aus Gründen der Zulassung steuern, dass Sie möglicherweise ein ganz anderes Diagramm haben.
Seanv507

Antworten:

11

Gute Frage. Ich glaube, dass die Antwort auf die Frage, die Sie stellen - "ist der bestrafte Glättungs-Spline, der dem Ausführen einer Gratregression oder eines Lassos entspricht" - ja ist. Es gibt eine Reihe von Quellen, die Kommentare und Perspektiven liefern können. Ein Ort , mit dem Sie beginnen möchten, ist dieser PDF-Link . Wie im Anhang vermerkt:

"Das Anpassen eines Glättungs-Spline-Modells bedeutet, eine Form der Gratregression auf der Grundlage natürlicher Splines durchzuführen."

Wenn Sie nach einer allgemeinen Lektüre suchen, können Sie dieses ausgezeichnete Papier über bestrafte Regressionen lesen : Die Brücke gegen das Lasso . Dies könnte helfen, die Frage zu beantworten, ob der bestrafte Glättungs-Spline genau gleichwertig ist - obwohl er eine allgemeinere Perspektive bietet. Ich finde es interessant, da sie verschiedene Techniken miteinander verglichen haben, insbesondere ein neues Brückenregressionsmodell mit dem LASSO sowie die Ridge-Regression.

L.=(y- -f)T.W.(y- -f)+λcT.Σcc(X.T.W.X.+λΣ)c=X.T.W.y

Nathaniel Payne
quelle
Keine Sorge @RobertF. Hab einen schönen Nachmittag.
Nathaniel Payne
1
Der Link zum Link PDF in Absatz 1 ist fehlerhaft.
Jthorpe
3

Ich bin mir nicht sicher, ob Sie angesichts der Handlung wirklich so viele Knoten wollen.

Es sieht so aus, als hätten Sie in einem bestimmten Alter einige kleine Proben. Der Peak bei 74 und die 0-Werte am unteren und oberen Ende sind wenig sinnvoll.

In Anbetracht der Autorität der Quelle, die Sie veröffentlichen, möchten Sie vielleicht stattdessen eingeschränkte kubische Splines mit einer viel geringeren Anzahl von Knoten?

Peter Flom - Monica wieder einsetzen
quelle
1
Danke Peter - ja, viele Obs sind für sehr jung und alt spärlich. Die Verwendung so vieler Knoten scheint nicht intuitiv zu sein. Ich habe beim ersten Lesen in ESL eine mentale Doppelaufnahme gemacht, bei der das Setzen eines Knotens bei jeder Beobachtung die bestrafte Restsumme der Quadrate minimiert. Ich nehme an, der Beweis liegt im Pudding, ob ein eingeschränkter kubischer Spline oder ein bestrafter Glättungs-Spline meine Antwortvariable im Testdatensatz besser vorhersagen kann.
RobertF
0

Ich komme zu spät zu dieser Diskussion, aber sehen Sie sich das Diagramm der Daten an ... dass die offensichtliche Spikeyness in den Daten über 70 nicht das altersbedingte Risiko widerspiegelt, sondern ein Symptom für spärliche Daten und eine gewisse Zufälligkeit ist.

Sie möchten dies nicht mit einem Knoten pro Jahr modellieren, da dies sicherlich zu einer Überanpassung des Geräusches führen würde.

Außerdem werden Sie ein ganz anderes Muster finden, wenn Sie sich Frau gegen Mann ansehen. Der größte Teil des Höchstwerts im Alter von 15 bis 30 Jahren wird die Geburtshilfe sein.

Doug Dame
quelle
Hallo Doug, richtig, es gibt definitiv weniger Beobachtungen über 70 Jahre. Ein bestraftes Spline-Modell mit einem Jahr pro Knoten würde wahrscheinlich die 70+ -Koeffizienten auf Null senken. Das Ziel hier wäre es, die manuelle Auswahl der Knotenplatzierung durch einen automatisierten Prozess zu ersetzen, der am besten zu der nichtlinearen Beziehung zwischen Alter und IP-Zulassungen passt, was insbesondere in einem Vorhersagemodell nützlich ist.
RobertF