Von exp (Koeffizienten) zu Odds Ratio und deren Interpretation in Logistic Regression mit Faktoren

14

Ich führte eine lineare Regression der Akzeptanz im College durch, die sich nach den SAT-Werten und dem familiären / ethnischen Hintergrund richtete. Die Daten sind fiktiv. Dies ist ein Follow-up zu einer vorherigen Frage, die bereits beantwortet wurde. Die Frage konzentriert sich auf die Erfassung und Interpretation von Quotenverhältnissen, wenn der Einfachheit halber die SAT-Scores weggelassen werden.

Die Variablen sind Accepted(0 oder 1) und Background("rot" oder "blau"). Ich habe die Daten so eingerichtet, dass Personen mit "rotem" Hintergrund eher hereinkommen:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit)))

                        Odds_Ratio_RedvBlue             2.5 %       97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

Fragen:

  1. Wird 0,7 als ungerades Verhältnis einer Person mit "blauem" Hintergrund akzeptiert? Ich frage dies, weil ich auch 0,7 für " Backgroundblue" erhalte, wenn ich stattdessen den folgenden Code ausführe:

    fit <- glm(Accepted~Background-1, data=dat, family="binomial")
    exp(cbind(OR=coef(fit), confint(fit)))
    
  2. Sollte das Quotenverhältnis von "Rot" nicht akzeptiert werden ( ), nur das : ( )?EINccepted/Red:EINccepted/BlueÖddsBlue=1/ÖddsRed

Antoni Parellada
quelle
1
Was Rdie Koeffizienten explizit nennt (über die Funktion coef), nennen Sie das "Odds Ratio" in Ihrer Ausgabe. Das legt nahe, dass Sie die Unterscheidung zwischen den beiden
Whuber
Ich habe den Beitrag auf Ihrem Hyperlink gelesen.
Antoni Parellada
Die Koeffizienten sind potenziert: exp (coef (fit)).
Antoni Parellada
Ja: und wie in meiner Antwort in diesem Thread erklärt, gibt Ihnen die Exponentiation des Abschnitts die Chancen des Referenzfalls.
Whuber

Antworten:

13

Ich habe daran gearbeitet, meine Frage zu beantworten, indem ich die Quoten und Quotenverhältnisse manuell berechnet habe:

Acceptance   blue            red            Grand Total
0            158             102                260
1            112             177                289
Total        270             279                549

Das Odds Ratio für den Einstieg in die Schule von Rot gegen Blau ist also:

Ödds EINccept ichf RedÖdds EINcccept ichf Blue=177/102112/158=1,73530,7089=2,448

Und das ist die BackgroundredRückkehr von:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_and_OR=coef(fit), confint(fit)))

                      Odds_and_OR                         2.5 %      97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

(Intercept)112/158=0,7089

Wenn ich stattdessen Folgendes ausführe:

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(Odds=coef(fit2), confint(fit2)))

                        Odds            2.5 %      97.5 %
Backgroundblue     0.7088608        0.5553459   0.9017961
Backgroundred      1.7352941        1.3632702   2.2206569

Bei den Renditen handelt es sich genau um die Wahrscheinlichkeit , "blau" zu werden: Backgroundblue(0,7089) und die Wahrscheinlichkeit , akzeptiert zu werden: "rot": Backgroundred(1,7353). Kein Odds Ratio da. Daher wird nicht erwartet, dass die beiden Rückgabewerte wechselseitig sind.

Abschließend: Wie werden die Ergebnisse gelesen, wenn der kategoriale Regressor drei Faktoren enthält?

Gleiche manuelle versus [R] Berechnung:

Ich habe einen anderen fiktiven Datensatz mit derselben Prämisse erstellt, aber diesmal gab es drei ethnische Hintergründe: "Rot", "Blau" und "Orange", und es wurde dieselbe Sequenz ausgeführt:

Erstens, die Kontingenztabelle:

Acceptance  blue    orange  red   Total
0             86        65  130     281
1             64        42  162     268
Total        150       107  292     549

Und berechnete die Wahrscheinlichkeit , für jede ethnische Gruppe einzusteigen:

  • Gewinnchancen akzeptieren, wenn Rot = 1,246154;
  • Gewinnchancen akzeptieren, wenn blau = 0,744186;
  • Gewinnchancen akzeptieren, wenn Orange = 0,646154

Sowie die verschiedenen Odds Ratios :

  • ODER rot v blau = 1,674519;
  • ODER Rot V Orange = 1,928571;
  • ODER blau v rot = 0,597186;
  • ODER blau v orange = 1,151717;
  • ODER orange / rot = 0,518519; und
  • ODER orange / blau = 0,868269

Und fuhr mit der nun routinemäßigen logistischen Regression fort, gefolgt von der Potenzierung der Koeffizienten:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit), confint(fit)))

                      ODDS     2.5 %   97.5 %
(Intercept)      0.7441860 0.5367042 1.026588
Backgroundorange 0.8682692 0.5223358 1.437108
Backgroundred    1.6745192 1.1271430 2.497853

Die Gewinnchancen für "Blues" wie (Intercept), und die Gewinnchancen-Verhältnisse von Orange versus Blue in Backgroundorangeund OR von Rot v Blue in Backgroundred.

Andererseits ergab die Regression ohne Unterbrechung vorhersehbar nur die drei unabhängigen Quoten :

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit2), confint(fit2)))

                      ODDS     2.5 %    97.5 %
Backgroundblue   0.7441860 0.5367042 1.0265875
Backgroundorange 0.6461538 0.4354366 0.9484999
Backgroundred    1.2461538 0.9900426 1.5715814
Antoni Parellada
quelle
Herzlichen Glückwunsch, Sie haben das gut herausgefunden.
gung - Reinstate Monica