Ich führte eine lineare Regression der Akzeptanz im College durch, die sich nach den SAT-Werten und dem familiären / ethnischen Hintergrund richtete. Die Daten sind fiktiv. Dies ist ein Follow-up zu einer vorherigen Frage, die bereits beantwortet wurde. Die Frage konzentriert sich auf die Erfassung und Interpretation von Quotenverhältnissen, wenn der Einfachheit halber die SAT-Scores weggelassen werden.
Die Variablen sind Accepted
(0 oder 1) und Background
("rot" oder "blau"). Ich habe die Daten so eingerichtet, dass Personen mit "rotem" Hintergrund eher hereinkommen:
fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit)))
Odds_Ratio_RedvBlue 2.5 % 97.5 %
(Intercept) 0.7088608 0.5553459 0.9017961
Backgroundred 2.4480042 1.7397640 3.4595454
Fragen:
Wird 0,7 als ungerades Verhältnis einer Person mit "blauem" Hintergrund akzeptiert? Ich frage dies, weil ich auch 0,7 für "
Backgroundblue
" erhalte, wenn ich stattdessen den folgenden Code ausführe:fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit)))
Sollte das Quotenverhältnis von "Rot" nicht akzeptiert werden ( ), nur das : ( )?
quelle
R
die Koeffizienten explizit nennt (über die Funktioncoef
), nennen Sie das "Odds Ratio" in Ihrer Ausgabe. Das legt nahe, dass Sie die Unterscheidung zwischen den beidenAntworten:
Ich habe daran gearbeitet, meine Frage zu beantworten, indem ich die Quoten und Quotenverhältnisse manuell berechnet habe:
Das Odds Ratio für den Einstieg in die Schule von Rot gegen Blau ist also:
Und das ist die
Backgroundred
Rückkehr von:(Intercept)
Wenn ich stattdessen Folgendes ausführe:
Bei den Renditen handelt es sich genau um die Wahrscheinlichkeit , "blau" zu werden:
Backgroundblue
(0,7089) und die Wahrscheinlichkeit , akzeptiert zu werden: "rot":Backgroundred
(1,7353). Kein Odds Ratio da. Daher wird nicht erwartet, dass die beiden Rückgabewerte wechselseitig sind.Abschließend: Wie werden die Ergebnisse gelesen, wenn der kategoriale Regressor drei Faktoren enthält?
Gleiche manuelle versus [R] Berechnung:
Ich habe einen anderen fiktiven Datensatz mit derselben Prämisse erstellt, aber diesmal gab es drei ethnische Hintergründe: "Rot", "Blau" und "Orange", und es wurde dieselbe Sequenz ausgeführt:
Erstens, die Kontingenztabelle:
Und berechnete die Wahrscheinlichkeit , für jede ethnische Gruppe einzusteigen:
Sowie die verschiedenen Odds Ratios :
Und fuhr mit der nun routinemäßigen logistischen Regression fort, gefolgt von der Potenzierung der Koeffizienten:
Die Gewinnchancen für "Blues" wie
(Intercept)
, und die Gewinnchancen-Verhältnisse von Orange versus Blue inBackgroundorange
und OR von Rot v Blue inBackgroundred
.Andererseits ergab die Regression ohne Unterbrechung vorhersehbar nur die drei unabhängigen Quoten :
quelle