In den Fällen können Sie die Dummy-Variablencodierung verwenden. Sie können diese Idee auch auf Ihr Problem ausweiten. Ich werde das Verfahren für eine einfache lineare Regression veranschaulichen.
Stellen Sie sich vor, wir möchten das Einkommen einer Person anhand der jahrelangen Ausbildung , der gelehrten Vorlesungen , der veröffentlichten und der aktuellen akademischen Position . Die Stichprobe enthält sowohl akademische als auch nichtakademische Personen.yix1ix2ix3ix4i
1. Alternative : Weisen Sie natürliche Hohlraumwerte zu. ZB Wenn wir ein Kind suchen, ist es nicht sinnvoll, das Einkommen einzubeziehen. Das Einkommen hat jedoch einen natürlichen Leerwert von . Sie können überprüfen, ob Ihre Variablen auch einen solchen ungültigen Wert zulassen.0
2. Alternative : Sie können den Datensatz in zwei Gruppen aufteilen (akademisch und nicht akademisch). Und führen Sie zwei separate Modelle aus.
3. Alternative : eine neue Dummy-Variable Diese Variable ist wenn die Person nicht akademisch ist, und der Wert ist wenn die Person akademisch ist. Dann würde Ihr Regressionsmodell so aussehenis_academic
x5i0i1i
yi=w0+w~0x5i+w1x1i+w~1x5ix1i+w~2x5ix2i+w~3x5ix3i++w~4x5ix4i+εi
Unser Datensatz ist also nicht sondern Jetzt ist der Datensatz vollständig, aber das Modell verwendet keine lineare Basisfunktion mehr.x1i,x2i,x3i,x4i,yix1i,x5i,x5ix1i,x5ix2i,x5ix3i,x5ix4i,yi
Ebenso können Sie über Ihr Dataset nachdenken und Dummy-Variablen einführen, wenn Sie feststellen, dass einige Funktionen nur für eine Teilstichprobe in Ihrem Dataset vorhanden / nützlich sind.