Ich muss eine binäre logistische Regression mit vielen unabhängigen Variablen durchführen. Die meisten von ihnen sind binär, aber einige der kategorialen Variablen haben mehr als zwei Ebenen.
Was ist der beste Weg, um mit solchen Variablen umzugehen?
Für eine Variable mit drei möglichen Werten müssen beispielsweise zwei Dummy-Variablen erstellt werden. In einem schrittweisen Regressionsverfahren ist es dann besser, beide Dummy-Variablen gleichzeitig oder separat zu testen.
Ich werde SPSS verwenden, aber ich erinnere mich nicht sehr gut daran. Wie geht SPSS mit dieser Situation um?
Darüber hinaus ist es für eine ordinale kategoriale Variable eine gute Sache, Dummy-Variablen zu verwenden, die die ordinale Skala neu erstellen. (Zum Beispiel, unter Verwendung von drei Dummy - Variablen für einen 4-state ordinal variable, setzte 0-0-0
für die Stufe , für die Stufe 2 , für die Stufe 3 , und für die Stufe 4 , anstelle von , , und für die 4 Stufen) .1-0-0
1-1-0
1-1-1
0-0-0
1-0-0
0-1-0
0-0-1
Antworten:
Auf der UCLA-Website finden Sie eine Reihe großartiger Tutorials für jedes Verfahren, aufgeschlüsselt nach dem Ihnen bekannten Softwaretyp. Überprüfen Sie die kommentierte SPSS-Ausgabe: Logistische Regression - Die erwähnte SES-Variable ist kategorisch (und nicht binär). SPSS erstellt automatisch die Indikatorvariablen für Sie. Es gibt auch eine Seite für kategoriale Prädiktoren in der Regression mit SPSS, die spezifische Informationen zum Ändern der Standardcodierungen und eine Seite für die logistische Regression enthält .
quelle
Die logistische Regression ist eine ziemlich flexible Methode. Es kann leicht als unabhängige Variablen kategoriale Variablen verwenden. Bei den meisten Programmen, die die logistische Regression verwenden, sollten Sie kategoriale Variablen verwenden.
Angenommen, eine Ihrer kategorialen Variablen ist die Temperatur, die in drei Kategorien unterteilt ist: kalt / mild / heiß. Wie Sie vorschlagen, können Sie dies als drei separate Dummy-Variablen mit dem Wert 1 oder 0 interpretieren. Die Software sollte jedoch zulassen, dass Sie stattdessen eine einzelne kategoriale Variable mit dem Textwert kalt / mild / heiß verwenden. Und die Logit-Regression würde für jede der drei Temperaturbedingungen einen Koeffizienten (oder eine Konstante) ableiten. Wenn einer nicht signifikant ist, kann die Software oder der Benutzer ihn leicht herausnehmen (nachdem t stat und p Wert beobachtet wurden).
Der Hauptvorteil der Gruppierung kategorialer Variablenkategorien in eine einzige kategoriale Variable ist die Modelleffizienz. Eine einzelne Spalte in Ihrem Modell kann so viele Kategorien verarbeiten, wie für eine einzelne kategoriale Variable erforderlich sind. Wenn Sie stattdessen eine Dummy-Variable für jede Kategorie einer kategorialen Variablen verwenden, kann Ihr Modell schnell zu zahlreichen Spalten wachsen, die angesichts der genannten Alternative überflüssig sind.
quelle
Nach meinem Verständnis ist es gut, Dummy-Variablen für kategoriale / nominale Daten zu verwenden, während wir für ordinale Daten die Codierung von 1,2,3 für verschiedene Ebenen verwenden können. Für Dummy-Variablen codieren wir 1, wenn dies für eine bestimmte Onservation zutrifft, und 0, wenn dies nicht der Fall ist. Auch Dummy-Variablen sind 1 kleiner als die Nr. Von Ebenen, zum Beispiel in binär, haben wir 1. Eine Beobachtung von '0' in der Dummy-Variablen ergibt automatisch 1 für den nicht codierten Dummy.
quelle