Die Regressionsvariable hat für eine Kategorie keine Bedeutung

7

Für eine (binäre) logistische Regression habe ich zwei IVs in meinem Modell. Die erste IV hat drei Kategorien (eine Person, zwei Personen, drei oder mehr Personen). Die zweite Variable ist binär (Kommunikation existiert vs. nicht existiert). Für die erste Kategorie hat die zweite IV keine Bedeutung, für die zweite und dritte Kategorie jedoch.

Die Frage ist, wie kann ich alle Fälle in eine Regression einbeziehen? Der DV ist immer der gleiche.

Bas
quelle

Antworten:

5

Dies geschieht auf natürliche Weise, ohne dass Sie eingreifen müssen.

Betrachten Sie zum Beispiel die Dummy-Codierung . Dieses System verwendet Vektoren von Nullen und Einsen, um die kategorialen Variablen so anzuzeigen, dass eine einfache Interpretation der Koeffizienten möglich ist. Eine Variable mitk Kategorien wird dargestellt durch k1Begriffe (zusammen mit einem "Achsenabschnitt"). Eine Standardvektornotation zur Beschreibung verwendet die Vektornotation.

  • Der "Basis" -Beitrag zur Antwort ist der Achsenabschnitt β0. Der entsprechende Vektor ist(1,0,,0) mit k Komponenten.

  • Der Beitrag der zweiten Kategorie zur ersten istβ1, woher der Beitrag der zweiten Kategorie ist β0+β1. Der entsprechende Vektor ist(1,1,0,,0).

  • Der Beitrag der Kategorie k relativ zum ersten ist βk1, woher der Beitrag der Kategorie k ist β0+βk1. Der entsprechende Vektor ist(1,0,,0,1).

Somit hat jeder Vektor eine Initiale 1(für den Abschnitt). Die Vektoren für alle Kategorien außer der Basis haben eine einzige zusätzliche1. Jede Beobachtung, wie durch ihren Vektor gegebenxträgt bei

x(β0,β1,,βk1)

auf die Antwort. Diese Punktprodukte geben die Werte anβ0,β0+β1,,β0+βk1 in der Liste mit Aufzählungszeichen oben erwähnt.

Das gleiche System wird verwendet, wenn mehr als eine kategoriale Variable unter den Regressoren enthalten ist, aber alle denselben Achsenabschnitt teilen. Mit anderen Worten, der "Basis" -Fall ist derjenige, bei dem alle kategorialen Variablen ihre Basiswerte haben.

Der Hauptvorteil dieses Codierungssystems - abgesehen davon, dass es in nahezu jeder statistischen Rechenplattform automatisch ist - besteht darin, dass die Koeffizienten einfache natürliche Interpretationen haben. Um beispielsweise zu bewerten, ob das Vorhandensein von Kommunikation von Bedeutung ist, würden Sie den damit verbundenen Koeffizienten untersuchenx2 (β3in diesem Beispiel) und testen Sie, ob es sich signifikant von Null unterscheidet. Dieser Test wird normalerweise automatisch von der Software durchgeführt und in der zusammenfassenden Ausgabe angezeigt.


Die Frage liefert ein gutes Beispiel. Die folgende Tabelle (automatisch erstellt von R) zeigt alle sechs möglichen Kombinationen eines Regressors mit drei Kategorienx1mit den Werten "1", "2" und "3+" und einem Regressor mit zwei Kategorien x2 mit den Werten "Nein" und "Ja".

   x1  x2 Intercept x1=2  x1=3+  x2=Yes  Coefficient
   1   No         1    0     0        0  b0
   2   No         1    1     0        0  b0 + b1
   3+  No         1    0     1        0  b0 + b2
   1  Yes         1    0     0        1  b0      + b3 -- there won't be any rows like this
   2  Yes         1    1     0        1  b0 + b1 + b3
   3+ Yes         1    0     1        1  b0 + b2 + b3

Die beiden linken Spalten zeigen die kombinierten Werte von x1 und x2. Die nächsten verbleibenden vier Spalten entsprechen (a) einem Abschnitt, der beiden Variablen gemeinsam ist, (b)31=2 Komponenten für die Auswirkungen von x1 relativ zur Basis und (c) 21=1 Komponenten für die Auswirkungen von x2relativ zur Basis (dh der Unterschied zwischen Kommunikation und nicht). Wir können ihre Koeffizienten nennenβ0,β1,β2,β3in der Reihenfolge von links nach rechts. Das Punktprodukt, das den Beitrag jeder Zeile zur Antwort zeigt, ist in der Spalte ganz rechts zusammengefasst (in der b0für stehtβ0, Etc ).

Wenn bestimmte Kombinationen nicht möglich sind, wie z. B. x1=1und x2=Yes(in der vierten Zeile dargestellt), werden sie einfach nicht im Datensatz angezeigt. Aus diesem Grund könnten einige argumentieren, dass die Interpretation vonβ3sollte sich subtil ändern. Während es früher als Unterschied zwischen Kommunikation und ohne Kommunikation verstanden worden wäre, wird es jetzt als dieser Unterschied für die Fälle verstanden, in denen Kommunikation sinnvoll ist.

Hier ist ein Beispiel für die Software-Ausgabe (für eine logistische Regression) unter Verwendung dieser Codierung:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.65625    0.07841   8.369 3.09e-14 ***
x1.2        -0.33594    0.10373  -3.238  0.00147 ** 
x1.3+       -0.50781    0.10373  -4.895 2.43e-06 ***
x2Yes        0.04687    0.07841   0.598  0.55085    

Die vier Zeilen entsprechen den vier ähnlich beschrifteten Spalten in der Tabelle. In diesem Fall hat die Software einen T-Test für durchgeführt x2Yes, d. H.β3und erhielt einen p-Wert von 0.55085. Dies würde von niemandem als signifikant angesehen werden. Die Schlussfolgerung wäre, dass, obwohl es einige Hinweise darauf gibt, dass Kommunikation die Wahrscheinlichkeit einer Antwort erhöht (wie aus der positiven Schätzung hervorgeht)β^3=0.04687) ist es in diesem Datensatz nicht signifikant.

whuber
quelle
Vielen Dank für diese Ausarbeitung. Ihr Beispiel in R macht Sinn. Im Moment benutze ich SPSS für die Analysen. Wäre das auch möglich?
Bas
SPSS würde sich wahrscheinlich automatisch um all dies kümmern, wahrscheinlich genauso R.
whuber
9

Wenn ich das verstehe, sagen Sie, dass die Frage, ob Kommunikation existiert, bedeutungslos ist, wenn es nur eine Person gibt.

Sie können dieses Problem lösen, indem Sie die beiden IVs zu einer machen:

  1. Eine Person
  2. Zwei Personen, keine Kommunikation
  3. Zwei Personen, Kommunikation
  4. Drei + Personen, Kommunikation
  5. Drei + Personen, keine Kommunikation
Peter Flom
quelle
1
Ja genau. Wenn ich also Ihrem Beispiel folge, würde dies bedeuten, dass Sie entweder 1 IV mit 5 möglichen Werten oder 5 Dummy-Binärvariablen wählen?
Bas
1
Obwohl diese Codierung für jede Kombination von kategorialen Variablen immer möglich ist, erschwert sie den Prozess der Durchführung der Tests, die in einer solchen Situation natürlich wären.
whuber
@whuber meinst du 5 Dummies kompliziert? oder generell zwei IVs kombinieren?
Bas
1
Was @whuber entgeht, ist, dass Sie keine einzige mehr haben β^für den Kommunikationseffekt versus keinen Kommunikationseffekt oder den Effekt 3+ Personen versus 1 Person. Das Testen von Hypothesen auf einen dieser Haupteffekte umfasst das gemeinsame Testen von 2β^s.
BChan
Könnte man Kommunikation nicht in Menschen verschachteln Y ~ Comms %in% People? Ich weiß (denke!), Dass es praktisch dasselbe ist, aber es könnte mehr "natürlichen" Ausdruck und Interpretation ermöglichen.
user20637