Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich:
Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of Statistical Learning (Hastie et al., 2009, S.151) beträgt die optimale Knotenplatzierung einen Knoten pro eindeutigem Wert des Mitgliedsalters.
Ist der bestrafte Glättungs-Spline angesichts der Tatsache, dass ich das Alter als Ganzzahl behalte, gleichbedeutend mit einer Ridge-Regression oder einem Lasso mit 101 verschiedenen Altersindikatorvariablen, eine pro Alterswert im Datensatz (minus eine als Referenz)? Eine Überparametrisierung wird dann vermieden, da die Koeffizienten für jeden Altersindikator gegen Null geschrumpft werden.
Antworten:
Gute Frage. Ich glaube, dass die Antwort auf die Frage, die Sie stellen - "ist der bestrafte Glättungs-Spline, der dem Ausführen einer Gratregression oder eines Lassos entspricht" - ja ist. Es gibt eine Reihe von Quellen, die Kommentare und Perspektiven liefern können. Ein Ort , mit dem Sie beginnen möchten, ist dieser PDF-Link . Wie im Anhang vermerkt:
"Das Anpassen eines Glättungs-Spline-Modells bedeutet, eine Form der Gratregression auf der Grundlage natürlicher Splines durchzuführen."
Wenn Sie nach einer allgemeinen Lektüre suchen, können Sie dieses ausgezeichnete Papier über bestrafte Regressionen lesen : Die Brücke gegen das Lasso . Dies könnte helfen, die Frage zu beantworten, ob der bestrafte Glättungs-Spline genau gleichwertig ist - obwohl er eine allgemeinere Perspektive bietet. Ich finde es interessant, da sie verschiedene Techniken miteinander verglichen haben, insbesondere ein neues Brückenregressionsmodell mit dem LASSO sowie die Ridge-Regression.
quelle
Ich bin mir nicht sicher, ob Sie angesichts der Handlung wirklich so viele Knoten wollen.
Es sieht so aus, als hätten Sie in einem bestimmten Alter einige kleine Proben. Der Peak bei 74 und die 0-Werte am unteren und oberen Ende sind wenig sinnvoll.
In Anbetracht der Autorität der Quelle, die Sie veröffentlichen, möchten Sie vielleicht stattdessen eingeschränkte kubische Splines mit einer viel geringeren Anzahl von Knoten?
quelle
Ich komme zu spät zu dieser Diskussion, aber sehen Sie sich das Diagramm der Daten an ... dass die offensichtliche Spikeyness in den Daten über 70 nicht das altersbedingte Risiko widerspiegelt, sondern ein Symptom für spärliche Daten und eine gewisse Zufälligkeit ist.
Sie möchten dies nicht mit einem Knoten pro Jahr modellieren, da dies sicherlich zu einer Überanpassung des Geräusches führen würde.
Außerdem werden Sie ein ganz anderes Muster finden, wenn Sie sich Frau gegen Mann ansehen. Der größte Teil des Höchstwerts im Alter von 15 bis 30 Jahren wird die Geburtshilfe sein.
quelle