Ich habe die Rangprozentsätze der Studenten in 38 Prüfungen als abhängige Variable in meinem Studium. Ein Rangprozentsatz wird berechnet durch (Rang eines Schülers / Anzahl von Schülern in einer Prüfung). Diese abhängige Variable ist nahezu gleichmäßig verteilt, und ich möchte die Auswirkungen einiger Variablen auf die abhängige Variable abschätzen.
Welchen Regressionsansatz verwende ich?
regression
distributions
siren99
quelle
quelle
Antworten:
Wenn Sie mit Stata arbeiten, sehen Sie sich das folgende Beispiel an: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Hier ist ein Zitat von dieser Webseite:
quelle
Zusammenfassung
Regressionsergebnisse können bei sorgfältiger Interpretation einen begrenzten Wert haben. Unvermeidbare Variationsformen führen dazu, dass die Koeffizientenschätzungen erheblich gegen Null schrumpfen. Es wird ein besseres Modell benötigt, das mit Abweichungen angemessener umgeht.
(Ein Maximum-Likelihood-Modell kann erstellt werden, ist jedoch möglicherweise aufgrund der erforderlichen Berechnung, bei der mehrdimensionale Integrale numerisch ausgewertet werden, nicht praktikabel. Die Anzahl der Dimensionen entspricht der Anzahl der in den Klassen eingeschriebenen Schüler.)
Einführung
Um unsere Intuition zu informieren, stellen Sie sich vor, dass diese 38 Prüfungen in 38 verschiedenen Kursen während eines Semesters an einer kleinen Schule mit 200 eingeschriebenen Collegestudenten abgehalten wurden. In einer realistischen Situation verfügen diese Schüler über unterschiedliche Fähigkeiten und Erfahrungen. Als Ersatzmaßnahme für diese Fähigkeiten und Erfahrungen können wir beispielsweise die Ergebnisse der SAT-Mathematik- und Verbaltests und des College-Jahres (1 bis 4) heranziehen.
In der Regel schreiben sich die Schüler entsprechend ihren Fähigkeiten und Interessen in die Kurse ein. Erstsemester belegen Einführungskurse und Einführungskurse werden hauptsächlich von Erstsemestern besucht. Oberschüler, talentierte Neulinge und Studenten im zweiten Studienjahr belegen die Kurse für Fortgeschrittene und Hochschulabsolventen. Diese Auswahl schichtet die Schüler teilweise so, dass die angeborenen Fähigkeiten der Schüler einer Klasse in der Regel homogener sind als die Verteilung der Fähigkeiten in der gesamten Schule.
Auf diese Weise können die fähigsten Schüler in den schwierigsten, fortgeschrittenen Klassen, in denen sie sich einschreiben, ganz unten punkten, während die am wenigsten fähigen Schüler in den einfachen Einführungsklassen, die sie belegen, ganz oben punkten. Dies kann einen direkten Versuch verwechseln, die Prüfungsränge direkt mit den Attributen der Schüler und der Klassen in Beziehung zu setzen.
Analyse
Indiziere die Schüler mit und lasse die Attribute des Schülers i durch den Vektor x i gegeben werden . Indiziere die Klassen mit j und lasse die Attribute der Klasse j durch den Vektor z j gegeben sein . Die Gruppe der in Klasse j eingeschriebenen Schüler ist A j .i i xi j j zj j Aj
Angenommen , die „Stärke“ von jedem Schüler eine Funktion ihrer Attribute plus einigen Zufallswerten, die auch einen Mittelwert von Null aufweisen kann:si
Wir modellieren die Prüfung in Klasse indem wir der Stärke jedes in der Klasse eingeschriebenen Schülers unabhängige Zufallswerte hinzufügen und diese in Ränge umwandeln. Wenn der Schüler i in der Klasse j eingeschrieben ist , wird sein relativer Rang r i , j von seiner Position in der sortierten Wertereihe bestimmtj i j ri,j
Diese Position wird durch eins mehr als die gesamte Klasseneinschreibung geteilt, um der abhängigen Variablen den prozentualen Rang zu geben:ri,j
Ich behaupte, dass die Regressionsergebnisse (ziemlich viel) von der Größe und Struktur der zufälligen (nicht beobachteten) Werte und δ i , j abhängen .εi δi,j Die Ergebnisse hängen auch davon ab, wie genau die Schüler in den Unterricht eingeschrieben sind. Dies sollte intuitiv offensichtlich sein, aber was nicht so offensichtlich ist - und theoretisch schwer zu analysieren scheint - ist, wie und wie stark sich die unbeobachteten Werte und Klassenstrukturen auf die Regression auswirken.
Simulation
Ohne großen Aufwand können wir diese Situation simulieren , um einige Beispieldaten zu erstellen und zu analysieren. Ein Vorteil der Simulation ist, dass sie die wahren Stärken der Schüler einbeziehen kann , die in der Realität nicht erkennbar sind. Ein weiterer Grund ist, dass wir die typischen Größen der nicht beobachteten Werte sowie die Klassenzuweisungen variieren können. Dies bietet eine "Sandbox" für die Bewertung der vorgeschlagenen Analysemethoden, z. B. der Regression.
Stellen Sie zunächst den Zufallszahlengenerator für reproduzierbare Ergebnisse ein und legen Sie die Größe des Problems fest. Ich benutze es,
R
weil es für jeden verfügbar ist.Erstellen Sieδi,j j
n.classes
Klassen mit unterschiedlichen Schwierigkeitsgraden auf zwei Skalen (mathematisch und verbal, mit einer negativen Korrelation), die auf unterschiedlichen akademischen Ebenen (von 1 = einführend bis 7 = forschend) und mit variabler Leichtigkeit durchgeführt werden, um Realismus zu gewährleisten . (In einer "einfachen" Klasse können die Unterschiede zwischen den Lernmengen der Schüler groß sein und / oder die Prüfung kann eine geringe Unterscheidung zwischen den Schülern bewirken. Dies wird durch zufällige Ausdrücke modelliert , die für die Klasse j tendenziell groß sind Wenn die Klasse nicht "einfach" ist, sind diese zufälligen Begriffe vernachlässigbar klein und die Stärken der Schüler können die Prüfungsrangfolge perfekt bestimmen.Die Studierenden verteilen sich auf die vier Jahre und sind mit zufälligen Werten ihrer Attribute ausgestattet. Es gibt keine Korrelationen zwischen diesen Attributen:
Das Modell ist, dass jeder Schüler eine inhärente "Stärke" hat, die zum Teil durch ihre Attribute und zum Teil durch ihre "Fähigkeit" bestimmt wird, die der -Wert ist. Die Stärkekoeffizienten , die die Stärke in Bezug auf andere Attribute bestimmen, werden in der nachfolgenden Datenanalyse geschätzt. Wenn Sie mit dieser Simulation spielen möchten, ändern Sie dies . Das Folgende ist ein interessanter und realistischer Satz von Koeffizienten, die das kontinuierliche Lernen der Schüler während des gesamten Colleges widerspiegeln (mit einem großen Anteil zwischen den Jahren 2 und 3). wobei 100 Punkte auf jedem Teil des SAT ungefähr ein Schuljahr wert sind; und wo ungefähr die Hälfte der Variation auf die "Fähigkeit" -Werte zurückzuführen ist, die nicht durch SAT-Scores oder das Schuljahr erfasst wurden.εi
beta
beta
(Beachten Sie, dass diesδi,j .01 .2
students$ability
nicht beobachtbar ist: Es handelt sich um eine scheinbar zufällige Abweichung zwischen der Stärke, die aus den anderen beobachtbaren Attributen vorhergesagt wird, und der tatsächlichen Stärke bei Prüfungen. Wenn Sie diesen zufälligen Effektbeta$ability
auf Null setzen ,beta$sigma
werden dieease
Werte multipliziert : Dies ist im Grunde die Standardabweichung des Verhältnis zum Stärkebereich der Schüler in einem bestimmten Kurs. Werte zwischen 0,01 und 0,2 erscheinen mir vernünftig.)Lassen Sie die Schüler Kurse auswählen, die ihren Fähigkeiten entsprechen. Sobald sie dies tun, können wir die Klassengrößen berechnen und diese mit dem0
classes
Datenrahmen für die spätere Verwendung verstauen . Der Wertspread
in derassignments <-...
Zeile bestimmt, wie eng die Schüler nach Fähigkeiten in Klassen eingeteilt sind. Ein Wert nahe Wesentlichen die schwächsten Schüler mit den einfachsten Kursen. Ein Wert nahe an der Anzahl der Klassen verteilt die Schüler etwas mehr. Viel größere Werte werden unrealistisch, weil sie dazu neigen, schwächere Schüler in die schwierigsten Kurse zu stecken.(Ein Beispiel dafür, was dieser Schritt bewirkt hat, finden Sie in der Abbildung weiter unten.)
An diese Rohdaten hängen wir die Schüler- und Klassenattribute an, um einen für die Analyse geeigneten Datensatz zu erstellen:
Lassen Sie uns uns anhand einer zufälligen Stichprobe der Daten orientieren:
In Datensatz 118 heißt es beispielsweise, dass Schüler Nr. 28 in Klasse Nr. 1 eingeschrieben ist und bei der Prüfung den 22. Platz (von unten) für einen prozentualen Rang von 0,957 erreicht hat. Der Schwierigkeitsgrad dieser Klasse betrug insgesamt 0,0523 (sehr leicht). Insgesamt 22 Studenten wurden eingeschrieben. Dieser Student ist im zweiten Jahr und hat 590 Mathe- und 380 verbale SAT-Noten. Ihre akademische Gesamtstärke beträgt 16,9. Sie waren zu der Zeit in vier Klassen eingeschrieben.
Dieser Datensatz stimmt mit der Beschreibung in der Frage überein. Beispielsweise sind die prozentualen Ränge in der Tat nahezu einheitlich (wie es für jeden vollständigen Datensatz der Fall sein muss, da die prozentualen Ränge für eine einzelne Klasse eine diskrete gleichmäßige Verteilung aufweisen).
Denken Sie daran, dass
beta
dieses Modell aufgrund der Koeffizienten in einen starken Zusammenhang zwischen den Untersuchungsergebnissen und den in diesem Datensatz gezeigten Variablen angenommen hat . Aber was zeigt die Regression? Lassen Sie uns die Logistik des prozentualen Rangs gegen alle beobachtbaren Schülereigenschaften, die mit ihren Fähigkeiten zusammenhängen könnten, sowie die Indikatoren für Klassenschwierigkeiten regressieren:Diagnosediagramme (
plot(fit)
) sehen fastastisch aus: Die Residuen sind homoskedastisch und wunderschön normal (wenn auch leicht kurzschwänzig, was kein Problem ist). keine Ausreißer; und kein nachteiliger Einfluss auf irgendeine Beobachtung.level
level
(Übrigens ändert die Verwendung der in der Regression nicht transformierten prozentualen Ränge die unten angegebenen Ergebnisse qualitativ nicht.)
spread
spread
spread
1
Diesmal ist das R-Quadrat stark verbessert (obwohl immer noch nicht großartig). Jedoch 100% - alle Koeffizienten um 20 erhöht. Diese Tabelle vergleicht sie mit einigen zusätzlichen Simulationen:
spread
ability
ability
sigma
level
Diese schnelle Analyse zeigt, dass die Regression, zumindest wie sie hier durchgeführt wird, unvermeidbare Variationsformen mit den Koeffizienten verwechseln wird. Darüber hinaus hängen die Koeffizienten (in gewissem Umfang) auch davon ab, wie die Schüler auf die Klassen verteilt sind. Dies kann teilweise durch Einbeziehen von Klassenattributen in die Regression unter den unabhängigen Variablen ausgeglichen werden, wie hier beschrieben. Der Effekt der Studentenverteilung verschwindet jedoch nicht.
Jede mangelnde Vorhersehbarkeit der tatsächlichen Schülerleistung und jede Variation des Schülerlernens und der tatsächlichen Leistung bei Prüfungen führt anscheinend dazu, dass die Koeffizientenschätzungen gegen Null schrumpfen. Sie scheinen dies einheitlich zu tun, was darauf hindeutet, dass die relativen Koeffizienten möglicherweise noch aussagekräftig sind.
quelle
(Dies ist nur eine Idee aus meiner voreingenommenen Erfahrung, Kommentare und Kritiker sind mehr als willkommen.)
quelle
quelle
In diesem Fall ordnet ein perfektes Modell die Eingaben (unabhängig von Ihren Kovariaten) den Ausgaben (dem Rang des Schülers in der Klasse) zu. Eine andere Möglichkeit, dies zu betrachten, besteht darin, zuerst die Punktzahlen und dann die Punktzahlen dem Rang zuzuordnen. Ich werde Fehler vorerst ignorieren.
Prüfungsergebnis:y= ∑ βx
Rang:r = R ( y)
In welchemR ist die Ranking-Funktion. Das Problem ist, dassR ist eine nichtlineare Funktion, die vollständig von den Daten selbst abhängt. Wenn wir davon ausgehen, dass wir unendlich viele Daten haben, dann kennen wir die vollständige Verteilung vony , und R ( y) ist im Wesentlichen die kumulative Dichtefunktion. Es gibt Auskunft darüber, wie viel Prozent der Personen im Test schlechter abgeschnitten haben als Sie, und zwar im Bereich links von Ihrer Punktzahl.
Dies scheint der funktionalen Form des verallgemeinerten linearen Modells ziemlich ähnlich zu sein. Ich denke, aus diesem Grund wurde der logistische Regressionsansatz von @Mike Anderson vorgeschlagen. Wenn Ihre Prüfungsergebnisse logistisch verteilt wären, wäre die zu verwendende Verknüpfungsfunktion die Protokollierung (deren Umkehrung ist die uns interessierende kumulative Dichtefunktion). In ähnlicher Weise wäre die Probit-Funktion die Verknüpfungsfunktion, wenn die Bewertungen normal verteilt wären.
Für Ihre Regression können Sie die Ränge nur schätzen, indem Sie sagen, dass sich dieser Punkt im 34. Perzentil befindet, da meine Daten als X verteilt sind. Ansonsten, woher wissen Sie, was eine Erhöhung Ihrer Testnote um zwei Punkte in Bezug auf den Rang bedeutet? Die Einschränkung ist, dass Sie diese Verteilung abschätzen müssen, um Ihre Link-Funktion zu wählen (bestimmte funktionale Formen werden Ihr Leben viel einfacher machen). Darüber hinaus sagt dieses Modell nicht "Sie waren der 6. Beste aus einer Klasse von 38", sondern "Wenn die Testergebnisse so verteilt würden, wie wir glauben, würden Sie mit Ihrem Ergebnis in das 15. Perzentil fallen."
quelle