Kann ich mehrere Regressionen verwenden, wenn ich kategoriale und kontinuierliche Prädiktoren gemischt habe?

12

Es sieht so aus, als könnten Sie Codierung für eine kategoriale Variable verwenden, aber ich habe zwei kategoriale und eine kontinuierliche Prädiktorvariable. Kann ich in SPSS mehrere Regressionen verwenden und wenn ja, wie? Vielen Dank!


quelle
Ich bin sicher, Sie können , aber ich fürchte, ich habe keine Ahnung, wie !
am
Ich würde vorschlagen, in die mit SPSS gelieferte Hilfedokumentation so etwas wie Regression einzutragen. Sollte Brot und Butter Zeug für jede Statistik-Paket sein
Wahrscheinlichkeit
Ich weiß nicht, was Sie mit Codierung für eine kategoriale Variable meinen. Können Sie ein Beispiel in Syntax geben? Ist Ihre abhängige Variable stetig oder kategorisch?
Andy W

Antworten:

8
  1. Wenn es sich um eine SPSS-Syntaxfrage handelt, wird als Antwort einfach die entsprechend codierte kategoriale Variable in die Variablenliste für "unabhängige Variablen" zusammen mit der fortlaufenden Variablen eingefügt.
  2. Zur Statistik: Ist Ihre kategoriale Variable binär? In diesem Fall müssen Sie einen Dummy oder einen anderen gültigen Kontrastcode verwenden. Wenn es nicht binär ist, ist Ihre kategoriale Variable ordinal oder nominal? Wenn dies nominal ist, müssen Sie erneut eine kontrastierende Codestrategie verwenden, um die Auswirkung jeder Ebene der Variablen auf das Ergebnis oder die "abhängige" Variable zu modellieren. Wenn die kategoriale Variable eine Ordnungszahl ist, ist dies höchstwahrscheinlichDas Sinnvolle ist, es so wie es ist in das Modell einzutragen, so wie Sie es mit einer kontinuierlichen Prädiktorvariablen (dh einer "unabhängigen" Variablen) tun würden. In diesem Fall würden Sie annehmen, dass die Inkremente zwischen den Ebenen der Variablen für den kategorialen Prädiktor ("indepdent"); Nur selten wird dies ein Fehler sein, aber wenn dies der Fall ist, sollten Sie erneut einen Kontrastcode verwenden und die Auswirkungen der einzelnen Ebenen modellieren. Diese Frage taucht in diesem Forum häufig auf - hier eine gute Analyse
  3. Der Umgang mit fehlenden Daten ist aus meiner Sicht eine völlig andere Sache. Meines Wissens nach wird das paarweise Löschen nicht als gültiger Ansatz für die multivariate Regression angesehen. Listwise ist ziemlich verbreitet, kann aber auch zu Verzerrungen führen und ist sicherlich eine Schande. Mehrfachzurechnung ist eine Sache der Schönheit.
dmk38
quelle
Ich habe eine Frage zu DMK38. Oben schreiben Sie, dass es in Ordnung ist, eine kategoriale Variable zu einem Modell hinzuzufügen, wie es ist, wenn es ordinal ist. Ich freue mich, das zu lesen ;-) Haben Sie eine gute Quelle, die das auch erwähnt, damit ich es meiner Arbeit hinzufügen kann? Ich danke Ihnen sehr für Ihre Antwort! Lilian
Lilian Jans-Beken
1
@ LilianJans-Beken: Siehe Kontinuierliche abhängige Variable mit ordinaler unabhängiger Variable und logistischer Regression und ordinaler unabhängiger Variablen . Möglicherweise möchten Sie sich nicht mit den komplizierteren Methoden befassen, beachten Sie jedoch, dass es nicht erforderlich ist, den Prädiktor auf eine lineare Beziehung zur Antwort zu beschränken, auch wenn Sie ihn gerne als intervallskaliert betrachten. Und fühlen Sie sich nicht verpflichtet, gleiche Intervalle zwischen benachbarten Ebenen anzunehmen , wenn etwas anderes vernünftiger erscheint.
Scortchi
1
@ LilianJans-Beken: Auch wie man ordinale kategoriale Variablen als unabhängige Variable & Logit mit ordinalen unabhängigen Variablen behandelt . Oh, und willkommen bei Cross Validated!
Scortchi
2

Sie können dies definitiv tun, indem Sie dieselbe Methode anwenden, die Sie für den ersten kategorialen Prädiktor verwenden würden. Erstellen Sie Dummy-Variablen wie für die erste Variable. Es ist jedoch oft einfacher, den SPSS-Befehl Unianova zu verwenden. Sie können dies in einem gedruckten oder pdf-formatierten Syntaxhandbuch nachschlagen oder über Analysieren ... Allgemeines lineares Modell ... Univariate darauf zugreifen.

Das Regressionskommando ist zwar etwas komplizierter, bietet jedoch eine Reihe von Vorteilen gegenüber Unianova. Das Wichtigste ist, dass Sie "paarweise fehlen" auswählen können (Sie müssen einen Fall nicht verlieren, nur weil ein Wert für einen oder zwei Prädiktoren fehlt). Sie können auch viele wertvolle Diagnosen erhalten, wie z. B. Teildiagramme und Einflussstatistiken.

rolando2
quelle
1
@ rolando - gute antwort. Fehlende paarweise Ansätze verwechseln jedoch häufig den Vergleich der Effekte, da sie auf einer unterschiedlichen Anzahl von Beobachtungen beruhen. Könnte etwas sein, das man sich merken sollte.
Richiemorrisroe
Ich denke, Ihr leicht verwirrtes paarweises Fehlen ist nur dann von Bedeutung, wenn Sie vollständig getrennte Modelle ausführen (z. B. ein schrittweises Modellauswahlverfahren). Wenn Sie alle Variablen in das Modell eingeben, werden fehlende Werte immer noch listenseitig gelöscht.
Andy W
@ richiemorrisroe - ich stimme zu, es lohnt sich, daran zu denken. @ Andy W - Gerade in SPSS bestätigt, dass das paarweise und listenweise Fehlen bei erzwungener Eingabe in jeder Hinsicht unterschiedliche Ergebnisse liefert, einschließlich unterschiedlicher df.
Rolando2
Ich denke immer noch, Sie sind verwirrt. Wie kann SPSS unterschiedliche Ergebnismengen zurückgeben, indem es paarweise fehlende Daten deklariert, es sei denn, es werden Werte für die fehlenden Daten gebildet? Hier ist ein Beispiel mit simulierten Daten, die ich in einer Textdatei veröffentlicht habe: dl.dropbox.com/u/3385251/SPSS_missing_Listwise_vs_Pairwise.txt . Ich habe Ihre Antwort derzeit abgelehnt, da all dieses Gerede darüber, wie der Regressionsbefehl mit fehlenden Daten umgeht, verwirrend ist, nichts mit der ursprünglichen Frage des OP zu tun hat und wahrscheinlich irreführend ist.
Andy W
1

Eine einfache Möglichkeit, kategoriale Variablen in einen Satz von Dummy-Variablen für die Verwendung in Modellen in SPSS umzuwandeln, ist die Verwendung der Syntax do repeat. Dies ist die einfachste Verwendung, wenn Ihre kategorialen Variablen in numerischer Reihenfolge vorliegen.

*making vector of dummy variables.
vector dummy(3,F1.0).
*looping through dummy variables using do repeat, in this example category would be the categorical variable to recode. 
do repeat dummy = dummy1 to dummy3 /#i = 1 to 3.
compute dummy = 0.
if category = #i dummy = 1.
end repeat.
execute. 

Andernfalls können Sie einfach eine Reihe von if-Anweisungen ausführen, um Ihre Dummy-Variablen zu erstellen. Meine aktuelle Version (16) bietet keine native Möglichkeit, einen Satz von Dummy-Variablen automatisch im Regressionsbefehl anzugeben (wie Sie es in Stata mit dem Befehl xi tun können ), aber ich wäre nicht überrascht, wenn dies in einer neueren Version verfügbar ist. Beachten Sie auch Punkt 2 von dmk38, dieses Codierungsschema geht von nominalen Kategorien aus. Wenn Ihre Variable eine Ordnungszahl ist, kann mehr Diskretion verwendet werden.

Ich stimme auch mit dmk38 überein, und das Gerede über eine bessere Regression aufgrund der Möglichkeit, fehlende Daten auf bestimmte Weise anzugeben, ist ein völlig anderes Thema.

Andy W
quelle