Regression für kategorial unabhängige Variablen und eine stetig abhängige

20

Ich habe gerade festgestellt, dass ich immer ein Regressionsproblem bearbeitet habe, bei dem die unabhängigen Variablen immer numerisch waren. Kann ich die lineare Regression verwenden, wenn alle unabhängigen Variablen kategorisch sind?

Famargar
quelle

Antworten:

23

Nur eine Semantik und um es klar zu sagen:

  • abhängige Variable == Ergebnis == " " in Regressionsformeln wie yy=β0+β1x1+β2x2+...+βkxk
  • unabhängige Variable == Prädiktor == eine von " " in Regressionsformeln wie y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_kxky=β0+β1x1+β2x2+...+βkxk

In den meisten Situationen hängt die Art der Regression von der Art der abhängigen, resultierenden oder " y " -Variablen ab . Beispielsweise wird die lineare Regression verwendet, wenn die abhängige Variable stetig ist, die logistische Regression, wenn die abhängige mit 2 Kategorien kategorisiert ist, und die multinationale Regression, wenn die abhängige mit mehr als 2 Kategorien kategorisiert ist. Die Prädiktoren können beliebig sein (nominal oder ordinal kategorial oder stetig oder eine Mischung) .

(Die folgende Bemerkung könnte für Sie überflüssig sein, aber ich füge sie trotzdem hinzu.)

Beachten Sie jedoch, dass Sie bei den meisten Programmen kategoriale Prädiktoren in ein binäres numerisches System umcodieren müssen . Dies bedeutet nur, dass das Geschlecht für Frauen auf 0 und für Männer auf 1 kodiert wird oder umgekehrt. Bei kategorialen Variablen mit mehr als 2 Ebenen müssen Sie diese in Dummy-Variablen umcodieren , wobei die Anzahl der Ebenen ist und diese Dummies eine 0 oder 1 enthalten, wenn sie sich in der entsprechenden Kategorie befinden. Auf diese Weise sollte jede Person (Stichprobe) dargestellt werden, indem eine 1 für die Dummy-Variable, zu der sie gehört, und eine 0 für die anderen oder eine 0 für alle Dummies, zu denen sie gehört, zur Referenzgruppe gehört.L1L

IWS
quelle
Vielen Dank. Wie ich im Fragentitel schreibe, ist die abhängige Variable stetig. Ich nehme Ihre Antwort als "Sie können lineare Regression verwenden, vorausgesetzt, Sie machen Dummy-Codierung". Bitte korrigieren Sie mich, wenn ich falsch liege.
Famargar
Ja, das habe ich gesagt.
IWS
2
Wie ich sehe, haben Sie die Frage bearbeitet, um eine zweite Frage hinzuzufügen, und hier eine ähnliche Frage gestellt: stats.stackexchange.com/questions/267137/… . Außerdem würde ich Sie fragen, was Sie mit der Glättung Ihrer Vorhersagen meinen oder was Sie mit der Vorhersage diskreter Werte meinen. AFAIK Eine lineare Regression gibt Ihnen den Mittelwert der stetigen Abhängigkeit basierend auf Ihren Prädiktorvariablen (durch die Regressionsformel). Bitte erläutern
IWS
1
Ich habe die zweite Frage gelöscht, da Sie die ursprüngliche Frage vollständig beantwortet haben. Um Ihre Frage zu beantworten: Wenn ich dem Modell neue "Ereignisse" ( ) , erhalte ich verschiedene Werte, die alle einen von vier Regressionswerten annehmen. Ich denke, ich sage, wenn die kategorialen Variablen tatsächlich ordinal wären, würde ich gerne eine (logit?) Glättung zwischen den Werten einführen. nxiny
Famargar
1
Im Fall einer Ordinalvariablen kann man immer davon ausgehen, dass sie "stetig genug" ist, um sie wie einen stetigen Prädiktor zu verwenden (indem einfach keine Dummies verwendet werden, sondern die Variable als numerische Version eingegeben wird). Allerdings , wenn Sie dies tun , und Sie haben nur wenige Ebenen, sind Sie eine Geradenanpassung (also unter der Annahme , Linearität) durch nur wenige Punkte (so zur Kenntnis , dass die Menge der Ebenen wichtig ist hier). Eine Likert-Skala ist ein gutes Beispiel für eine Variable, die auf diese Weise verwendet wird, was leider zu Problemen bei verschiedenen Gelegenheiten führt.
IWS