Schätzung der Prozentsätze als abhängige Variable in der Regression

13

Ich habe die Rangprozentsätze der Studenten in 38 Prüfungen als abhängige Variable in meinem Studium. Ein Rangprozentsatz wird berechnet durch (Rang eines Schülers / Anzahl von Schülern in einer Prüfung). Diese abhängige Variable ist nahezu gleichmäßig verteilt, und ich möchte die Auswirkungen einiger Variablen auf die abhängige Variable abschätzen.

Welchen Regressionsansatz verwende ich?

regression distributions siren99
quelle

2

Bei der regulären (OLS-) Regression werden keine Annahmen über die Verteilung der abhängigen Variablen getroffen, sondern Annahmen über die Verteilung des Fehlers (wie durch Residuen geschätzt) aus einem Modell. Wenn die Anzahl der Schüler pro Prüfung variiert, können Sie wahrscheinlich mit der OLS-Regression beginnen und die Annahmen überprüfen.

Peter Flom - Wiedereinsetzung von Monica

2

Das ist ein guter Vorschlag, @Peter, aber ich bin besorgt über subtilere und dennoch wichtige Verstöße gegen die OLS-Annahmen. Der Rang eines Schülers in einer Prüfung hängt von den Eigenschaften aller anderen Schüler ab, die an der Prüfung teilnehmen. Diese gegenseitige Abhängigkeit wird von keiner (routinemäßigen) Anwendung von OLS erfasst.

whuber

Eine andere Möglichkeit, um zu verstehen, was hier vor sich geht, besteht darin, den einfachsten Fall dieses Problems zu betrachten, bei dem an jeder "Prüfung" genau zwei Studenten beteiligt sind. Die abhängige Variable gibt an, welcher Schüler besser abgeschnitten hat. Wenn wir jede Prüfung als Wettbewerb betrachten, entspricht dies dem Abhalten eines Turniers. Tatsächlich möchte die Frage eine Formel für die "Stärke" jedes Spielers in Bezug auf einige erklärende Variablen entwickeln.

whuber

Du hast recht @whuber. Wie soll das angegangen werden? Ich denke, ein IRT-Modell würde das tun, aber es ist lange her, dass ich diese Modelle studiert habe.

Peter Flom - Wiedereinsetzung von Monica

@whuber Ich denke, dass IRT eine Möglichkeit sein könnte, ein bestelltes probit (oder logit) zum Beispiel. Es ist jedoch auch möglich, den prozentualen Rang als begrenzte kontinuierliche Variable zu betrachten (wie die von Mike vorgeschlagene logistische Regression). Dies wäre eine gültige Näherung , während der geordnete Probit ein direktes Modell für das Problem wäre. Der Vorteil der Logistik ist Sparsamkeit; Um die Korrelation der Schüler zu berücksichtigen, könnte ein White- oder Sandwich-Varianzschätzer implementiert werden. Ich habe verstanden, dass die Stichprobe 38 Prüfungen für mehrere Studenten (Längsschnittprüfung) umfasst, daher sollte dies möglich sein.

JDav

3

Wenn Sie mit Stata arbeiten, sehen Sie sich das folgende Beispiel an: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm

Hier ist ein Zitat von dieser Webseite:

"Wie macht man eine Regression, wenn die abhängige Variable eine Proportion ist?

Proportionsdaten haben Werte zwischen Null und Eins. Natürlich wäre es schön, wenn die vorhergesagten Werte auch zwischen Null und Eins liegen würden. Eine Möglichkeit, dies zu erreichen, ist die Verwendung eines verallgemeinerten linearen Modells (glm) mit einer logit-Verknüpfung und der Binomialfamilie. Wir werden die robuste Option in das glm-Modell aufnehmen, um robuste Standardfehler zu erhalten, die besonders nützlich sind, wenn wir die Distributionsfamilie falsch spezifiziert haben. "

Majom
quelle

2

Das ist schön, und in anderen Zusammenhängen wäre es ein guter Rat, aber mit einem glm werden die in meiner Antwort identifizierten Probleme nicht behoben.

Whuber

Siehe auch: stats.stackexchange.com/questions/89999/…

landroni

9

Zusammenfassung

Regressionsergebnisse können bei sorgfältiger Interpretation einen begrenzten Wert haben. Unvermeidbare Variationsformen führen dazu, dass die Koeffizientenschätzungen erheblich gegen Null schrumpfen. Es wird ein besseres Modell benötigt, das mit Abweichungen angemessener umgeht.

(Ein Maximum-Likelihood-Modell kann erstellt werden, ist jedoch möglicherweise aufgrund der erforderlichen Berechnung, bei der mehrdimensionale Integrale numerisch ausgewertet werden, nicht praktikabel. Die Anzahl der Dimensionen entspricht der Anzahl der in den Klassen eingeschriebenen Schüler.)

Einführung

Um unsere Intuition zu informieren, stellen Sie sich vor, dass diese 38 Prüfungen in 38 verschiedenen Kursen während eines Semesters an einer kleinen Schule mit 200 eingeschriebenen Collegestudenten abgehalten wurden. In einer realistischen Situation verfügen diese Schüler über unterschiedliche Fähigkeiten und Erfahrungen. Als Ersatzmaßnahme für diese Fähigkeiten und Erfahrungen können wir beispielsweise die Ergebnisse der SAT-Mathematik- und Verbaltests und des College-Jahres (1 bis 4) heranziehen.

In der Regel schreiben sich die Schüler entsprechend ihren Fähigkeiten und Interessen in die Kurse ein. Erstsemester belegen Einführungskurse und Einführungskurse werden hauptsächlich von Erstsemestern besucht. Oberschüler, talentierte Neulinge und Studenten im zweiten Studienjahr belegen die Kurse für Fortgeschrittene und Hochschulabsolventen. Diese Auswahl schichtet die Schüler teilweise so, dass die angeborenen Fähigkeiten der Schüler einer Klasse in der Regel homogener sind als die Verteilung der Fähigkeiten in der gesamten Schule.

Auf diese Weise können die fähigsten Schüler in den schwierigsten, fortgeschrittenen Klassen, in denen sie sich einschreiben, ganz unten punkten, während die am wenigsten fähigen Schüler in den einfachen Einführungsklassen, die sie belegen, ganz oben punkten. Dies kann einen direkten Versuch verwechseln, die Prüfungsränge direkt mit den Attributen der Schüler und der Klassen in Beziehung zu setzen.

Analyse

Indiziere die Schüler mit und lasse die Attribute des Schülers durch den Vektor . Indiziere die Klassen mit und lasse die Attribute der Klasse durch den Vektor . Die Gruppe der in Klasse eingeschriebenen Schüler ist . $i$ $i$ $\mathbf{x}_i$ $j$ $j$ $\mathbf{z}_j$ $j$ $A_j$

Angenommen , die „Stärke“ von jedem Schüler eine Funktion ihrer Attribute plus einigen Zufallswerten, die auch einen Mittelwert von Null aufweisen kann: $s_i$

s_{i} = f (x_{i}, β) + ε_{i} .

$s_i = f(\mathbf{x}_i, \beta) + \varepsilon_i.$

Wir modellieren die Prüfung in Klasse indem wir der Stärke jedes in der Klasse eingeschriebenen Schülers unabhängige Zufallswerte hinzufügen und diese in Ränge umwandeln. Wenn der Schüler in der Klasse , wird sein relativer Rang von seiner Position in der sortierten Wertereihe bestimmt $j$ $i$ $j$ $r_{i,j}$

(s_{k} + δ_{k, j}, k \in A_{j}) .

$\left(s_k + \delta_{k,j}, k \in A_j\right).$

Diese Position wird durch eins mehr als die gesamte Klasseneinschreibung geteilt, um der abhängigen Variablen den prozentualen Rang zu geben: $r_{i,j}$

p_{i, j} = \frac{r_{i, j}}{1 + | A_{j} |} .

$p_{i,j} = \frac{r_{i,j}}{1 + |A_j|}.$

Ich behaupte, dass die Regressionsergebnisse (ziemlich viel) von der Größe und Struktur der zufälligen (nicht beobachteten) Werte und abhängen . $\varepsilon_i$ $\delta_{i,j}$ Die Ergebnisse hängen auch davon ab, wie genau die Schüler in den Unterricht eingeschrieben sind. Dies sollte intuitiv offensichtlich sein, aber was nicht so offensichtlich ist - und theoretisch schwer zu analysieren scheint - ist, wie und wie stark sich die unbeobachteten Werte und Klassenstrukturen auf die Regression auswirken.

Simulation

Ohne großen Aufwand können wir diese Situation simulieren , um einige Beispieldaten zu erstellen und zu analysieren. Ein Vorteil der Simulation ist, dass sie die wahren Stärken der Schüler einbeziehen kann , die in der Realität nicht erkennbar sind. Ein weiterer Grund ist, dass wir die typischen Größen der nicht beobachteten Werte sowie die Klassenzuweisungen variieren können. Dies bietet eine "Sandbox" für die Bewertung der vorgeschlagenen Analysemethoden, z. B. der Regression.

Stellen Sie zunächst den Zufallszahlengenerator für reproduzierbare Ergebnisse ein und legen Sie die Größe des Problems fest. Ich benutze es, Rweil es für jeden verfügbar ist.

set.seed(17)
n.pop <- 200      # Number of students
n.classes <- 38   # Number of classes
courseload <- 4.5 # Expected number of classes per student

Erstellen Sie n.classesKlassen mit unterschiedlichen Schwierigkeitsgraden auf zwei Skalen (mathematisch und verbal, mit einer negativen Korrelation), die auf unterschiedlichen akademischen Ebenen (von 1 = einführend bis 7 = forschend) und mit variabler Leichtigkeit durchgeführt werden, um Realismus zu gewährleisten . (In einer "einfachen" Klasse können die Unterschiede zwischen den Lernmengen der Schüler groß sein und / oder die Prüfung kann eine geringe Unterscheidung zwischen den Schülern bewirken. Dies wird durch zufällige Ausdrücke modelliert , die für die Klasse tendenziell groß sind Wenn die Klasse nicht "einfach" ist, sind diese zufälligen Begriffe vernachlässigbar klein und die Stärken der Schüler können die Prüfungsrangfolge perfekt bestimmen. $\delta_{i,j}$ $j$

classes <- data.frame(cbind(
  math <- runif(n.classes), 
  rbeta(n.classes, shape1=(verbal <- (1-math)*5), shape2=5-verbal),
  runif(n.classes, min=0, max=7),
  rgamma(n.classes, 10, 10)))
rm(math, verbal)
colnames(classes) <- c("math.dif", "verbal.dif", "level", "ease")
classes <- classes[order(classes$math.dif + classes$verbal.dif + classes$level), ]
row.names(classes) <- 1:n.classes
plot(classes, main="Classes")

Die Studierenden verteilen sich auf die vier Jahre und sind mit zufälligen Werten ihrer Attribute ausgestattet. Es gibt keine Korrelationen zwischen diesen Attributen:

students <- data.frame(cbind(
  as.factor(ceiling(runif(n.pop, max=4))),
  sapply(rnorm(n.pop, mean=60, sd=10), function(x) 10*median(c(20, 80, floor(x)))),
  sapply(rnorm(n.pop, mean=55, sd=10), function(x) 10*median(c(00, 80, floor(x)))),
  rnorm(n.pop)
  ))
colnames(students) <- c("year", "math", "verbal", "ability")
plot(students, main="Students")

Das Modell ist, dass jeder Schüler eine inhärente "Stärke" hat, die zum Teil durch ihre Attribute und zum Teil durch ihre "Fähigkeit" bestimmt wird, die der -Wert ist. Die Stärkekoeffizienten , die die Stärke in Bezug auf andere Attribute bestimmen, werden in der nachfolgenden Datenanalyse geschätzt. Wenn Sie mit dieser Simulation spielen möchten, ändern Sie dies . Das Folgende ist ein interessanter und realistischer Satz von Koeffizienten, die das kontinuierliche Lernen der Schüler während des gesamten Colleges widerspiegeln (mit einem großen Anteil zwischen den Jahren 2 und 3). wobei 100 Punkte auf jedem Teil des SAT ungefähr ein Schuljahr wert sind; und wo ungefähr die Hälfte der Variation auf die "Fähigkeit" -Werte zurückzuführen ist, die nicht durch SAT-Scores oder das Schuljahr erfasst wurden. $\varepsilon_i$ betabeta

beta <- list(year.1=0, year.2=1, year.3=3, year.4=4, math=1/100, verbal=1/100, ability=2, sigma=0.01)
students$strength <- (students$year==1)*beta$year.1 + 
  (students$year==2)*beta$year.2 +
  (students$year==3)*beta$year.3 +
  (students$year==4)*beta$year.4 +
  students$math*beta$math + 
  students$verbal*beta$verbal + 
  students$ability*beta$ability
students <- students[order(students$strength), ]
row.names(students) <- 1:n.pop

(Beachten Sie, dass dies students$abilitynicht beobachtbar ist: Es handelt sich um eine scheinbar zufällige Abweichung zwischen der Stärke, die aus den anderen beobachtbaren Attributen vorhergesagt wird, und der tatsächlichen Stärke bei Prüfungen. Wenn Sie diesen zufälligen Effekt beta$abilityauf Null setzen , beta$sigmawerden die easeWerte multipliziert : Dies ist im Grunde die Standardabweichung des Verhältnis zum Stärkebereich der Schüler in einem bestimmten Kurs. Werte zwischen und erscheinen mir vernünftig.) $\delta_{i,j}$ $.01$ $.2$

Lassen Sie die Schüler Kurse auswählen, die ihren Fähigkeiten entsprechen. Sobald sie dies tun, können wir die Klassengrößen berechnen und diese mit dem classesDatenrahmen für die spätere Verwendung verstauen . Der Wert spreadin der assignments <-...Zeile bestimmt, wie eng die Schüler nach Fähigkeiten in Klassen eingeteilt sind. Ein Wert nahe Wesentlichen die schwächsten Schüler mit den einfachsten Kursen. Ein Wert nahe an der Anzahl der Klassen verteilt die Schüler etwas mehr. Viel größere Werte werden unrealistisch, weil sie dazu neigen, schwächere Schüler in die schwierigsten Kurse zu stecken. $0$

pick.classes <- function(i, k, spread) {
  # i is student strength rank
  # k is number to pick
  p <- pmin(0.05, diff(pbeta(0:n.classes/n.classes, i/spread, (1+n.pop-i)/spread)))
  sample(1:n.classes, k, prob=p)
}
students$n.classes <- floor(1/2 + 2 * rbeta(n.pop,10,10) * courseload)
assignments <- lapply(1:n.pop, function(i) pick.classes(i, students$n.classes[i], spread=1))
enrolment <- function(k) length(seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))])
classes$size <- sapply(1:n.classes, enrolment)
classes$variation <- by(data, data$Class, function(x) diff(range(x$strength)))

(Ein Beispiel dafür, was dieser Schritt bewirkt hat, finden Sie in der Abbildung weiter unten.)

$n$ $1/(n+1)$ $n/(n+1)$ $1/(n+1)$ $0$ $1$

exam.do <- function(k) {
  s <- seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))]
  e <- classes$ease[k]
  rv <- cbind(rep(k, length(s)), s, order(rnorm(length(s), students$strength[s], sd=e*beta$sigma*classes$variation[k])))
  rv <- cbind(rv, rv[,3] / (length(s)+1))
  dimnames(rv) <- list(NULL, c("Class", "Student", "Rank", "Prank"))
  rv
}
data.raw <- do.call(rbind, sapply(1:n.classes, exam.do))

An diese Rohdaten hängen wir die Schüler- und Klassenattribute an, um einen für die Analyse geeigneten Datensatz zu erstellen:

data <- merge(data.raw, classes, by.x="Class", by.y="row.names")
data <- merge(data, students, by.x="Student", by.y="row.names")

Lassen Sie uns uns anhand einer zufälligen Stichprobe der Daten orientieren:

> data[sort(sample(1:dim(data)[1], 5)),]

Row Student Class Rank Prank math.dif verbal.dif  level  ease Size year math verbal ability strength n.classes
118      28     1   22 0.957  0.77997   6.95e-02 0.0523 1.032   22    2  590    380   0.576     16.9         4
248      55     5   24 0.889  0.96838   1.32e-07 0.5217 0.956   26    3  460    520  -2.163     19.0         5
278      62     6   22 0.917  0.15505   9.54e-01 0.4112 0.497   23    2  640    510  -0.673     19.7         4
400      89    10   16 0.800  0.00227   1.00e+00 1.3880 0.579   19    1  800    350   0.598     21.6         5
806     182    35   18 0.692  0.88116   5.44e-02 6.1747 0.800   25    4  610    580   0.776     30.7         4

In Datensatz 118 heißt es beispielsweise, dass Schüler Nr. 28 in Klasse Nr. 1 eingeschrieben ist und bei der Prüfung den 22. Platz (von unten) für einen prozentualen Rang von 0,957 erreicht hat. Der Schwierigkeitsgrad dieser Klasse betrug insgesamt 0,0523 (sehr leicht). Insgesamt 22 Studenten wurden eingeschrieben. Dieser Student ist im zweiten Jahr und hat 590 Mathe- und 380 verbale SAT-Noten. Ihre akademische Gesamtstärke beträgt 16,9. Sie waren zu der Zeit in vier Klassen eingeschrieben.

Dieser Datensatz stimmt mit der Beschreibung in der Frage überein. Beispielsweise sind die prozentualen Ränge in der Tat nahezu einheitlich (wie es für jeden vollständigen Datensatz der Fall sein muss, da die prozentualen Ränge für eine einzelne Klasse eine diskrete gleichmäßige Verteilung aufweisen).

Denken Sie daran, dass betadieses Modell aufgrund der Koeffizienten in einen starken Zusammenhang zwischen den Untersuchungsergebnissen und den in diesem Datensatz gezeigten Variablen angenommen hat . Aber was zeigt die Regression? Lassen Sie uns die Logistik des prozentualen Rangs gegen alle beobachtbaren Schülereigenschaften, die mit ihren Fähigkeiten zusammenhängen könnten, sowie die Indikatoren für Klassenschwierigkeiten regressieren:

logistic <- function(p) log(p / (1-p))
fit <- lm(logistic(Prank) ~ as.factor(year) + math + verbal + level, data=data)
summary(fit)

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      -2.577788   0.421579   -6.11  1.5e-09 ***
as.factor(year)2  0.467846   0.150670    3.11   0.0020 ** 
as.factor(year)3  0.984671   0.164614    5.98  3.2e-09 ***
as.factor(year)4  1.109897   0.171704    6.46  1.7e-10 ***
math              0.002599   0.000538    4.83  1.6e-06 ***
verbal            0.002130   0.000514    4.14  3.8e-05 ***
level            -0.208495   0.036365   -5.73  1.4e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.48 on 883 degrees of freedom
Multiple R-squared: 0.0661, Adjusted R-squared: 0.0598 
F-statistic: 10.4 on 6 and 883 DF,  p-value: 3.51e-11

Diagnosediagramme ( plot(fit)) sehen fastastisch aus: Die Residuen sind homoskedastisch und wunderschön normal (wenn auch leicht kurzschwänzig, was kein Problem ist). keine Ausreißer; und kein nachteiliger Einfluss auf irgendeine Beobachtung.

$3.5$ $(-9, 1.6, 3.4, 3.9, 0.009, 0.007, -0.7)$ $(*, 1, 3, 4, 0.010, 0.010, *)$ $*$ steht für einen Koeffizienten, der nicht explizit angegeben wurde).

level $0$ $7$ level

(Übrigens ändert die Verwendung der in der Regression nicht transformierten prozentualen Ränge die unten angegebenen Ergebnisse qualitativ nicht.)

spread $1$ $38$

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      -4.902006   0.349924  -14.01  < 2e-16 ***
as.factor(year)2  0.605444   0.130355    4.64  3.9e-06 ***
as.factor(year)3  1.707590   0.134649   12.68  < 2e-16 ***
as.factor(year)4  1.926272   0.136595   14.10  < 2e-16 ***
math              0.004667   0.000448   10.41  < 2e-16 ***
verbal            0.004019   0.000434    9.25  < 2e-16 ***
level            -0.299475   0.026415  -11.34  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.3 on 883 degrees of freedom
Multiple R-squared: 0.282,  Adjusted R-squared: 0.277 
F-statistic: 57.9 on 6 and 883 DF,  p-value: <2e-16

Klassenzuordnungsdiagramm

spread $38$ spread1

Diesmal ist das R-Quadrat stark verbessert (obwohl immer noch nicht großartig). Jedoch 100% - alle Koeffizienten um 20 erhöht. Diese Tabelle vergleicht sie mit einigen zusätzlichen Simulationen:

Simulation Intercept Year.2 Year.3 Year.4 Math Verbal Level R^2
Beta               *    1.0    3.0    4.0 .010   .010     *   *
Spread=1        -2.6    0.5    1.0    1.1 .003   .002 -0.21  7%
Spread=38       -4.9    0.6    1.7    1.9 .005   .004 -0.30 25%
Ability=1       -8.3    0.9    2.6    3.3 .008   .008 -0.63 58%
No error       -11.2    1.1    3.3    4.4 .011   .011 -0.09 88%

spread $38$ ability $2$ $1$ abilitysigma $0$ $\varepsilon_i$ $\delta_{i,j}$ level

Diese schnelle Analyse zeigt, dass die Regression, zumindest wie sie hier durchgeführt wird, unvermeidbare Variationsformen mit den Koeffizienten verwechseln wird. Darüber hinaus hängen die Koeffizienten (in gewissem Umfang) auch davon ab, wie die Schüler auf die Klassen verteilt sind. Dies kann teilweise durch Einbeziehen von Klassenattributen in die Regression unter den unabhängigen Variablen ausgeglichen werden, wie hier beschrieben. Der Effekt der Studentenverteilung verschwindet jedoch nicht.

Jede mangelnde Vorhersehbarkeit der tatsächlichen Schülerleistung und jede Variation des Schülerlernens und der tatsächlichen Leistung bei Prüfungen führt anscheinend dazu, dass die Koeffizientenschätzungen gegen Null schrumpfen. Sie scheinen dies einheitlich zu tun, was darauf hindeutet, dass die relativen Koeffizienten möglicherweise noch aussagekräftig sind.

whuber
quelle

ε_{i}

$\varepsilon_i$

v_{i}

$v_i$

p_{i j}

$p_{ij}$

y_{i j}

$y_{ij}$

y_{i j}

$y_{ij}$

Wenn Ihre Simulation die positive Korrelation zwischen nicht beobachteten Fähigkeiten und SAT und anderen Ergebnissen beibehält, sind die OLS-Parameter möglicherweise nach oben verzerrt (die asymp. Verzerrung ist proportional zur Korrelation zwischen Kontrollen und zufälligen Begriffen), sodass dies Ihre "negtiven" Parameter erklären könnte gegen Null gezogen?

JDav

+1, ich bin ein großer Fan von Simulationen, um statistische Ideen durchzuarbeiten.

gung - Wiedereinsetzung von Monica

3

$y_{ij}$

$\mu_{ij}$

$\ln(y_{ij}/(1-y_{ij})) = \mu_{ij} + e_{ij} + v_i$

$v_i$ $e_{ij}$ $e_{ij}$ $\mu_{ij}$

(Dies ist nur eine Idee aus meiner voreingenommenen Erfahrung, Kommentare und Kritiker sind mehr als willkommen.)

$\mu_{ij}$ $v_i$

JDav
quelle

1

Die Idee, eine logistische Transformation zu verwenden, ist gut, aber diese Art von Regressionsmodell weist Probleme auf (wie in meiner Antwort erläutert).

Whuber

μ_{i j}

$\mu_{ij}$

2

$\ln(\frac{p}{1-p})$

Mike Anderson
quelle

Die logistische Regression gilt nur für binäre Antwortvariablen, was hier anscheinend nicht der Fall ist. Schlagen Sie vielleicht eine gewöhnliche Regression des Logits des Rangprozentsatzes vor?

whuber

1

Weder eine logistische Regression noch eine gewöhnliche lineare Regression ist aus den angegebenen Gründen angemessen. Auch wenn das Modell Gaußsche Residuen haben soll, sehe ich nicht, wie sich dies in einer nahezu gleichmäßigen Verteilung für die Antwort niederschlägt. Die Abhängigkeit zwischen einzelnen Schülern in den Ranglisten ist meiner Meinung nach für die Analyse am wichtigsten.

Michael R. Chernick

\ln (p / 1 - p) = β^{'} x_{i} + u_{i}

$\ln(p/1-p)=\beta'x_i + u_i$

p_{i}

$p_i$

@J Dav Ich kann keine Referenz finden, die "logistische Regression" in dem von Ihnen beschriebenen Sinne verwendet.

whuber

1

Ich denke, er möchte ein verallgemeinertes lineares Modell mit einer bedingten Gaußschen Verteilung und einem Logit-Link zum Mittelwert erstellen. (Zumindest gehe ich davon aus, dass er das so gemeint hat.)

Shea Parkes

0

In diesem Fall ordnet ein perfektes Modell die Eingaben (unabhängig von Ihren Kovariaten) den Ausgaben (dem Rang des Schülers in der Klasse) zu. Eine andere Möglichkeit, dies zu betrachten, besteht darin, zuerst die Punktzahlen und dann die Punktzahlen dem Rang zuzuordnen. Ich werde Fehler vorerst ignorieren.

Prüfungsergebnis: $y = \sum \beta x$

Rang: $r = R(y)$

In welchem $R$ ist die Ranking-Funktion. Das Problem ist, dass $R$ ist eine nichtlineare Funktion, die vollständig von den Daten selbst abhängt. Wenn wir davon ausgehen, dass wir unendlich viele Daten haben, dann kennen wir die vollständige Verteilung von $y$ , und $R(y)$ ist im Wesentlichen die kumulative Dichtefunktion. Es gibt Auskunft darüber, wie viel Prozent der Personen im Test schlechter abgeschnitten haben als Sie, und zwar im Bereich links von Ihrer Punktzahl.

Dies scheint der funktionalen Form des verallgemeinerten linearen Modells ziemlich ähnlich zu sein. Ich denke, aus diesem Grund wurde der logistische Regressionsansatz von @Mike Anderson vorgeschlagen. Wenn Ihre Prüfungsergebnisse logistisch verteilt wären, wäre die zu verwendende Verknüpfungsfunktion die Protokollierung (deren Umkehrung ist die uns interessierende kumulative Dichtefunktion). In ähnlicher Weise wäre die Probit-Funktion die Verknüpfungsfunktion, wenn die Bewertungen normal verteilt wären.

Für Ihre Regression können Sie die Ränge nur schätzen, indem Sie sagen, dass sich dieser Punkt im 34. Perzentil befindet, da meine Daten als X verteilt sind. Ansonsten, woher wissen Sie, was eine Erhöhung Ihrer Testnote um zwei Punkte in Bezug auf den Rang bedeutet? Die Einschränkung ist, dass Sie diese Verteilung abschätzen müssen, um Ihre Link-Funktion zu wählen (bestimmte funktionale Formen werden Ihr Leben viel einfacher machen). Darüber hinaus sagt dieses Modell nicht "Sie waren der 6. Beste aus einer Klasse von 38", sondern "Wenn die Testergebnisse so verteilt würden, wie wir glauben, würden Sie mit Ihrem Ergebnis in das 15. Perzentil fallen."

alexplanation
quelle

Schätzung der Prozentsätze als abhängige Variable in der Regression

Antworten:

Zusammenfassung

Einführung

Analyse

Simulation