Wenn ich Regressionsmodelle verwende, bin ich misstrauisch, wenn ich auf Annahmen einer linearen Assoziation zurückgreife. stattdessen mag ich die funktionale Form von Beziehungen zwischen abhängigen und erklärenden Variablen Regression nichtparametrischer Glättung zu erforschen (zB verallgemeinerten Additivmodell , Lowess / Lowess , Linie Glätter läuft , etc.) , bevor ein parametrisches Modell, als geeignete Abschätzung, nichtlineare Regression der kleinsten Quadrate um Parameter für Funktionen zu schätzen, die vom nichtparametrischen Modell vorgeschlagen werden.
Was ist ein guter Weg, um eine Kreuzvalidierung in der nichtparametrischen Glättungsregressionsphase eines solchen Ansatzes durchzuführen? Ich frage mich, ob ich in einer Situation auftreten könnte, in der in einer zufälligen Holdout-Stichprobe A eine Beziehung erkennbar ist, die durch eine lineare Scharnierfunktion mit "gebrochenem Stab" angenähert wird, während die Holdout-Stichprobe B eine Beziehung vorschlägt, die durch eine Parabolschwellenfunktion besser angenähert werden kann.
Würde man einen nicht erschöpfenden Ansatz wählen, einen zufällig ausgewählten Teil der Daten zurückhalten, die nichtparametrische Regression durchführen, plausible Funktionsformen für das Ergebnis interpretieren und dies einige (vom Menschen handhabbare) Male wiederholen und geistig plausible Funktionsformen zählen ?
Oder würde man einen erschöpfenden Ansatz wählen (z. B. LOOCV) und einen Algorithmus verwenden, um "alle Glättungen zu glätten" und diese glattesten Glättungen verwenden, um plausible funktionale Formen zu informieren? (Obwohl ich denke, dass LOOCV meiner Meinung nach sehr unwahrscheinlich ist, dass es zu sehr unterschiedlichen funktionalen Beziehungen kommt, da es unwahrscheinlich ist, dass eine funktionale Form einer ausreichend großen Stichprobe durch einen einzelnen Datenpunkt geändert wird.)
Meine Anwendungen umfassen normalerweise eine vom Menschen verwaltbare Anzahl von Prädiktorvariablen (etwa eine Handvoll bis einige Dutzend), aber meine Stichprobengrößen reichen von einigen Hundert bis zu einigen Hunderttausend. Mein Ziel ist es, ein intuitiv kommuniziertes und leicht zu übersetzendes Modell zu erstellen, das verwendet werden kann, um Vorhersagen von Personen mit anderen als meinen Datensätzen zu treffen, und die die Ergebnisvariablen nicht enthalten.
Referenzen in Antworten sind sehr willkommen.
Antworten:
Mir scheint, Ihre Frage enthält zwei Verwirrungen:
Erstens erfordert die lineare Regression (kleinstes Quadrat) keine lineare Beziehung in den unabhängigen Variablen , sondern in den Parametern .
Zweitens, wie bestimmen Sie ein "korrektes" Funktionsmodell aus einem Glatter, dh wie gehen Sie von Schritt 1 zu Schritt 2?
Soweit ich weiß, gibt es aus Glättungstechniken wie Splines, neuronalen Netzen usw. keine Möglichkeit, "welche Funktionen von Regressoren zu verwenden sind" abzuleiten, außer vielleicht durch Zeichnen der geglätteten Ausgaben und Bestimmen von Beziehungen durch Intuition, aber das tut es nicht. Es klingt für mich nicht sehr robust, und es scheint, dass man dafür keine Glättung braucht, nur Streudiagramme.
Wenn Ihr Endziel ein lineares Regressionsmodell ist und Sie das Problem haben, dass Sie nicht genau wissen, welche funktionale Form der Regressoren verwendet werden soll, sollten Sie ein reguliertes lineares Regressionsmodell (wie LASSO ) direkt mit a anpassen große Basiserweiterung der ursprünglichen Regressoren (wie Polynome der Regressoren, Exponentiale, Protokolle, ...). Das Regularisierungsverfahren sollte dann die nicht benötigten Regressoren eliminieren und Ihnen ein (hoffentlich gutes) parametrisches Modell hinterlassen. Mithilfe der Kreuzvalidierung können Sie den optimalen Bestrafungsparameter ermitteln (der die tatsächlichen Freiheitsgrade des Modells bestimmt).
Sie können nichtparametrische Regressionen immer als Benchmark für Generalisierungsfehler verwenden, um zu überprüfen, ob Ihr reguliertes lineares Modell externe Daten ebenso vorhersagt wie einen nichtparametrischen Glättungsfaktor.
quelle