Basisdaten : Ich habe ~ 1.000 Personen, die mit Bewertungen gekennzeichnet sind: "1", "[gut]" 2 "," [mittel] oder "3" [schlecht] - dies sind die Werte, die ich für die Zukunft der Menschen vorhersagen möchte . Zusätzlich habe ich einige demografische Informationen: Geschlecht (kategorial: M / W), Alter (numerisch: 17-80) und Rasse (kategorial: Schwarz / Kaukasisch / Latino).
Ich habe hauptsächlich vier Fragen:
Ich habe ursprünglich versucht, das oben beschriebene Dataset als multiple Regressionsanalyse auszuführen. Aber ich habe kürzlich erfahren, dass ich, da meine Abhängigkeit ein geordneter Faktor und keine kontinuierliche Variable ist, für so etwas die ordinale logistische Regression verwenden sollte. Ich habe anfangs so etwas benutzt
mod <- lm(assessment ~ age + gender + race, data = dataset)
, kann mich jemand in die richtige Richtung weisen?Ausgehend von der Annahme, dass ich Koeffizienten erhalte, mit denen ich mich wohl fühle, verstehe ich, wie man nur numerische Werte für x1, x2 usw. einfügt - aber wie würde ich mit Rennen umgehen, wenn es mehrere Antworten gibt: schwarz / kaukasisch / latino? Wenn also der kaukasische Koeffizient 0,289 beträgt und jemand, den ich vorhersagen möchte, ein Kaukasier ist, wie kann ich ihn wieder einstecken, da der Wert nicht numerisch ist?
Ich habe auch zufällige Werte, die fehlen - einige für die Rasse, einige für das Geschlecht usw. Muss ich zusätzliche Maßnahmen ergreifen, um sicherzustellen, dass dies nichts verzerrt? (Mir ist aufgefallen, wenn mein Datensatz in R-Studio geladen wird, wenn die fehlenden Daten
NA
wie(162 observations deleted due to missingness)
folgt geladen werden : R sagt so etwas wie - aber wenn sie als Leerzeichen geladen werden, geschieht nichts.)Angenommen, all dies funktioniert und ich habe neue Daten zu Geschlecht, Alter und Rasse, die ich vorhersagen möchte - gibt es in R einen einfacheren Weg, all das durchzuarbeiten, was auch immer meine Formel mit neuen Koeffizienten ergibt? anstatt es manuell zu tun? (Wenn diese Frage hier nicht zutreffend ist, kann ich sie zum R-Forum zurückbringen.)
latino
, und Dummys für die beiden anderen. Ein 1-Wert für dencaucasian
Dummy gibt einen kaukasischen Befragten an, ähnlich wie für dieblack
Dummy-Variable. Ein 0-Wert für beide gibt einen Latino-Befragten an. Sinn ergeben?