Ich habe eine unabhängige Variable namens "Qualität"; Diese Variable hat 3 Antwortmodalitäten (schlechte Qualität; mittlere Qualität; hohe Qualität). Ich möchte diese unabhängige Variable in meine multiple lineare Regression einführen. Wenn ich eine binäre unabhängige Variable habe (Dummy-Variable, ich kann 0
/ codieren 1
), ist es einfach, sie in ein Modell mit mehreren linearen Regressionen einzuführen.
Aber mit 3 Antwortmodalitäten habe ich versucht, diese Variable wie folgt zu codieren:
Bad quality Medium quality High quality
0 1 0
1 0 0
0 0 1
0 1 0
Aber es gibt ein Problem, wenn ich versuche, meine multiple lineare Regression durchzuführen: Die Modalität Medium quality
gibt mir NA
:
Coefficients: (1 not defined because of singularities)
Wie kann ich diese Variable "Qualität" mit 3 Modalitäten codieren? Muss ich eine Variable als Faktor ( factor
in R
) erstellen , kann ich diesen Faktor dann in eine multiple lineare Regression einführen?
Antworten:
Das Problem, das Sie haben (dh "Singularitäten"), kann als ein Beispiel für Multikollinearität angesehen werden . Multikollinearität wird häufig definiert als:
Dies ist in der Tat eine ziemlich strenge Definition; Es ist eine perfekte Multikollinearität, und Sie können leicht ein Problem mit Multikollinearität haben, ohne dass eine Ihrer Variablen eine perfekte lineare Kombination von anderen ist. Darüber hinaus tritt eine perfekte Multikollinearität selten auf. Sie sind jedoch auf einen Fall gestoßen, bei dem es vorkommen kann. Lassen Sie uns sehen , wie wir können perfekt vorhersagenY. X1 X2
medium quality
von unserem Wissen von den beiden anderen Kategorien (wir werden mit einem Regressionsmodell tun dies , womedium quality
ist und & sind X 1 & X 2 jeweils): Y = β 0 + β 1bad quality
high quality
Es ist zu beachten, dass kein Fehlerterm ε angegeben ist, da wir dies perfekt vorhersagen können. Dazu setzen wir β 0 = 1 , ß 1 = - 1 und β 2 = - 1 . Wenn Sie nun haben, dann ist X 1 = 1 , was β 0 ( 1 auslöscht
bad quality
medium quality
R
factor
R
Ich werde das alles für Sie tun - es wird richtig gemacht und es ist viel bequemer - trotzdem ist es wert zu verstehen, dass dies das ist, was sich hinter den Kulissen abspielt.quelle
lm
formula (+ 0
) auf Null setzen, würde das funktionieren?@gung hat die Theorie klar erklärt. Hier ist ein praktisches Beispiel zur Veranschaulichung:
bad
Wenn wir nun die Dummy-Variablen selbst codieren und versuchen, ein Modell unter Verwendung aller Variablen anzupassen:
Wir erhalten den erwarteten Fehler:
singular fit encountered
quelle
factor
kümmert sich in der Regel um die Dummy-Variablencodierung, ist aber gut zu wissen, was unter der Haube vor sich geht.