Ich mache ein einfaches AIC-basiertes Rückwärtseliminierungsmodell, bei dem einige Variablen kategoriale Variablen mit mehreren Ebenen sind. Diese Variablen werden als Satz von Dummy-Variablen modelliert. Sollte ich bei der Rückwärtseliminierung alle Ebenen einer Variablen zusammen entfernen? Oder sollte ich jede Dummy-Variable separat behandeln? Und warum?
Als verwandte Frage behandelt Schritt in R jede Dummy-Variable separat, wenn eine Rückwärtseliminierung durchgeführt wird. Wenn ich eine ganze kategoriale Variable auf einmal entfernen wollte, kann ich das mit Schritt tun? Oder gibt es Alternativen zu Schritten, die damit umgehen können?
model-selection
nerdbound
quelle
quelle
Antworten:
Ich denke, Sie müssten die gesamte kategoriale Variable entfernen. Stellen Sie sich eine logistische Regression vor, bei der Sie vorhersagen möchten, ob eine Person eine Krankheit hat oder nicht. Das Geburtsland kann einen großen Einfluss darauf haben, also nehmen Sie es in Ihr Modell auf. Wenn der spezifische amerikanische Ursprung keinen Einfluss auf AIC hätte und Sie ihn fallen ließen, wie würden Sie für einen Amerikaner berechnen ? R verwendet standardmäßig Referenzkontraste für Faktoren, daher denke ich, dass sie, wenn überhaupt, nur auf der Referenzebene (z. B. Botswana) berechnet werden. Das wird wahrscheinlich nicht gut enden ...y^
Eine bessere Option wäre, im Voraus sinnvolle Kodierungen des Geburtslandes zu sortieren - in Regionen, Kontinente usw. zusammenzufallen und herauszufinden, welche davon für Ihr Modell am besten geeignet sind.
Natürlich gibt es viele Möglichkeiten, die schrittweise Variablenauswahl zu missbrauchen. Stellen Sie also sicher, dass Sie es richtig machen. Auf dieser Seite gibt es jedoch viel darüber; Die Suche nach "schrittweise" bringt einige gute Ergebnisse. Dies ist besonders relevant , mit vielen guten Ratschlägen in den Antworten.
quelle
Was das Beispiel von Ländern betrifft, denke ich, wenn die Dummy-Variable für ein bestimmtes Land ausgewählt ist, bedeutet dies, dass dieses Land im Vergleich zu allen anderen Ländern zusammen ein Prädiktor ist (keine Notwendigkeit, eine neue binäre Variable zu erstellen). Das Problem, das ich sehr oft habe, sind Dummy-Variablen, die zum Beispiel die Schwere einer Krankheit widerspiegeln (wie -, +, ++, +++). Manchmal wird die Dummy-Variable für ++ ausgewählt, die Dummy-Variable für +++ jedoch nicht. In diesem Fall kann eine Neuklassifizierung hilfreich sein.
quelle