In der Sozialwissenschaft kommt es häufig vor, dass Variablen, die beispielsweise normal verteilt werden sollten , eine Diskontinuität in ihrer Verteilung um bestimmte Punkte aufweisen.
Wenn es beispielsweise bestimmte Grenzwerte wie "Bestehen / Nichtbestehen" gibt und diese Maßnahmen einer Verzerrung unterliegen, kann es an diesem Punkt zu einer Diskontinuität kommen.
Ein prominentes Beispiel (siehe unten) ist, dass standardisierte Testergebnisse von Schülern normalerweise überall verteilt sind, außer bei 60%, wo es eine sehr geringe Masse von 50-60% und eine übermäßige Masse von 60-65% gibt. Dies tritt in Fällen auf, in denen Lehrer ihre eigenen Schülerprüfungen benoten. Die Autoren untersuchen, ob Lehrer den Schülern wirklich helfen, Prüfungen zu bestehen.
Der überzeugendste Beweis ist zweifellos die Darstellung der Diagramme einer Glockenkurve mit einer großen Diskontinuität um verschiedene Grenzwerte für verschiedene Tests. Wie würden Sie jedoch einen statistischen Test entwickeln? Sie versuchten eine Interpolation und verglichen dann die Fraktion über oder unter sowie einen t-Test für die Fraktion 5 Punkte über und unter dem Cutoff. Diese sind zwar sinnvoll, aber ad-hoc. Kann sich jemand etwas Besseres vorstellen?
Link: Regeln und Diskretion bei der Bewertung von Schülern und Schulen: Der Fall der New Yorker Regentenprüfungen http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
quelle
Antworten:
Es ist wichtig, die Frage richtig zu formulieren und ein nützliches konzeptionelles Modell der Ergebnisse zu übernehmen.
Die Frage
Die potenziellen Betrugsschwellen wie 55, 65 und 85 sind a priori unabhängig von den Daten bekannt: Sie müssen nicht aus den Daten bestimmt werden. (Daher handelt es sich weder um ein Ausreißererkennungsproblem noch um ein Verteilungsanpassungsproblem.) Der Test sollte den Nachweis erbringen, dass einige (nicht alle) Werte, die nur unter diesen Schwellenwerten liegen, auf diese Schwellenwerte verschoben wurden (oder möglicherweise knapp über diesen Schwellenwerten liegen).
Konzeptionelles Modell
Für das konzeptionelle Modell ist es wichtig zu verstehen, dass es unwahrscheinlich ist, dass die Scores eine Normalverteilung aufweisen (oder eine andere leicht zu parametrisierende Verteilung). Dies wird im veröffentlichten Beispiel und in jedem anderen Beispiel aus dem ursprünglichen Bericht sehr deutlich. Diese Ergebnisse stellen eine Mischung aus Schulen dar; Selbst wenn die Verteilung innerhalb einer Schule normal wäre (sie sind es nicht), ist die Mischung wahrscheinlich nicht normal.
Ein einfacher Ansatz akzeptiert, dass es eine echte Punkteverteilung gibt: die, die mit Ausnahme dieser bestimmten Form des Betrugs gemeldet würde . Es ist daher eine nicht parametrische Einstellung. Das scheint zu weit gefasst zu sein, aber es gibt einige Merkmale der Punkteverteilung, die in den tatsächlichen Daten vorweggenommen oder beobachtet werden können:
Die Anzahl der Punkte , und wird eng korreliert sein, .i i + 1 1 ≤ i ≤ 99i−1 i i+1 1≤i≤99
Es wird Variationen in diesen Zählungen um eine idealisierte glatte Version der Punkteverteilung geben. Diese Variationen haben typischerweise eine Größe, die der Quadratwurzel der Zählung entspricht.
Das Betrügen relativ zu einem Schwellenwert hat keinen Einfluss auf die Anzahl der Punkte . Seine Wirkung ist proportional zur Anzahl jeder Punktzahl (die Anzahl der Schüler, die "gefährdet" sind, von Betrug betroffen zu sein). Für Punktzahlen unterhalb dieses Schwellenwerts wird die Anzahl um einen Bruchteil verringert und dieser Betrag wird zu addiert .i ≥ t i c ( i ) δ ( t - i ) c ( i ) t ( i )t i≥t i c(i) δ(t−i)c(i) t(i)
Das Ausmaß der Änderung nimmt mit dem Abstand zwischen einer Punktzahl und dem Schwellenwert ab: ist eine abnehmende Funktion von .i = 1 , 2 , …δ(i) i=1,2,…
Bei einem Schwellenwert lautet die Nullhypothese (kein Betrug), dass , was bedeutet, dass identisch . Die Alternative ist, dass .δ ( 1 ) = 0 δ 0 δ ( 1 ) > 0t δ(1)=0 δ 0 δ(1)>0
Einen Test erstellen
denn bei kombiniert dies einen größeren negativen Abfall mit dem Negativ eines großen positiven Anstiegs , wodurch der Betrugseffekt vergrößert wird .i=t−1 c(t+1)−c(t) c(t)−c(t−1)
Ich werde die Hypothese aufstellen - und dies kann überprüft werden -, dass die serielle Korrelation der Zählungen nahe der Schwelle ziemlich gering ist. (Eine serielle Korrelation an anderer Stelle ist irrelevant.) Dies impliziert, dass die Varianz von ungefähr istc′′(t−1)=c(t+1)−2c(t)+c(t−1)
Ich habe zuvor vorgeschlagen, dass für alle (etwas, das auch überprüft werden kann). Wohervar(c(i))≈c(i) i
sollte ungefähr Einheitsvarianz haben. Für Populationen mit großer Punktzahl (die veröffentlichte scheint etwa 20.000 zu sein) können wir auch eine ungefähr normale Verteilung von erwarten . Da wir erwarten, dass ein stark negativer Wert ein Betrugsmuster anzeigt, erhalten wir leicht einen Test der Größe : Schreiben für das cdf der Standardnormalverteilung. Lehnen Sie die Hypothese ab, dass bei der Schwelle kein Betrug vorliegt, wenn .c′′(t−1) α Φ t Φ(z)<α
Beispiel
Betrachten Sie zum Beispiel diesen Satz von echten Testergebnissen, die aus einer Mischung von drei Normalverteilungen gezogen wurden:
Dazu habe ich einen Betrugsplan bei der Schwelle angewendet, die durch . Dies konzentriert fast alle Betrügereien auf die ein oder zwei Punkte unmittelbar unter 65:t=65 δ(i)=exp(−2i)
Um ein Gefühl dafür zu bekommen, was der Test bewirkt, habe ich für jede Punktzahl berechnet , nicht nur für , und es gegen die Punktzahl aufgetragen:z t
(Um Probleme mit kleinen Zählungen zu vermeiden, habe ich zuerst 1 zu jeder Zählung von 0 bis 100 hinzugefügt, um den Nenner von zu berechnen .)z
Die Fluktuation nahe 65 ist offensichtlich, ebenso wie die Tendenz, dass alle anderen Fluktuationen etwa 1 groß sind, was mit den Annahmen dieses Tests übereinstimmt. Die Teststatistik ist mit einem entsprechenden p-Wert von , ein äußerst signifikantes Ergebnis. Ein visueller Vergleich mit der Abbildung in der Frage selbst legt nahe, dass dieser Test einen mindestens ebenso kleinen p-Wert zurückgeben würde.z=−4.19 Φ(z)=0.0000136
(Bitte beachten Sie jedoch, dass der Test selbst dieses Diagramm nicht verwendet, das zur Veranschaulichung der Ideen gezeigt wird. Der Test betrachtet nur den aufgezeichneten Wert an der Schwelle, nirgendwo sonst. Es wäre dennoch eine gute Praxis, ein solches Diagramm zu erstellen um zu bestätigen, dass die Teststatistik tatsächlich die erwarteten Schwellenwerte als Orte des Betrugs herausgreift und dass alle anderen Bewertungen keinen solchen Änderungen unterliegen. Hier sehen wir, dass bei allen anderen Bewertungen Schwankungen zwischen etwa -2 und 2 auftreten, jedoch selten Beachten Sie auch, dass man die Standardabweichung der Werte in diesem Diagramm nicht berechnen muss, um zu berechnen , wodurch Probleme vermieden werden, die mit Betrugseffekten verbunden sind, die die Schwankungen an mehreren Stellen aufblasen.)z
Wenn dieser Test auf mehrere Schwellenwerte angewendet wird, ist eine Bonferroni-Anpassung der Testgröße sinnvoll. Eine zusätzliche Anpassung bei gleichzeitiger Anwendung auf mehrere Tests wäre ebenfalls eine gute Idee.
Auswertung
Dieses Verfahren kann erst dann ernsthaft zur Anwendung vorgeschlagen werden, wenn es anhand der tatsächlichen Daten getestet wurde. Ein guter Weg wäre, Punktzahlen für einen Test zu nehmen und eine unkritische Punktzahl für den Test als Schwellenwert zu verwenden. Vermutlich war eine solche Schwelle dieser Form des Betrugs nicht unterworfen. Simulieren Sie Betrug nach diesem konzeptionellen Modell und untersuchen Sie die simulierte Verteilung von . Dies zeigt an (a) ob die p-Werte genau sind und (b) die Leistung des Tests, um die simulierte Form des Betrugs anzuzeigen. In der Tat könnte man eine solche Simulationsstudie für genau die Daten verwenden, die man auswertet, und eine äußerst effektive Methode bieten, um zu testen, ob der Test angemessen ist und welche tatsächliche Leistung er hat. Weil die Teststatistikz z ist so einfach, dass Simulationen praktikabel und schnell auszuführen sind.
quelle
Ich schlage vor, ein Modell anzupassen, das die Einbrüche explizit vorhersagt, und dann zu zeigen, dass es wesentlich besser zu den Daten passt als ein naives.
Sie benötigen zwei Komponenten:
Ein mögliches Modell für einen einzelnen Schwellenwert (mit dem Wert ) ist das folgende: wobeit
Normalerweise können Sie die Punktzahl nicht stark erhöhen. Ich würde einen exponentiellen Zerfall vermuten , wobei der Anteil der erneut überprüften (manipulierten) Scores ist.m(s′→t)≈aqt−s′ a
Als anfängliche Verteilung können Sie versuchen, die Poisson- oder Gauß-Verteilung zu verwenden. Natürlich wäre es ideal, den gleichen Test zu haben, aber für eine Gruppe von Lehrern geben Sie Schwellenwerte an und für die andere - keine Schwellenwerte.
Wenn es mehr Schwellenwerte gibt, kann man dieselbe Formel anwenden, jedoch mit Korrekturen für jedes . Vielleicht wäre auch anders (z. B. da der Unterschied zwischen Fail-Pass wichtiger sein kann als zwischen zwei bestandenen Noten).a iti ai
Anmerkungen:
quelle
Ich würde dieses Problem in zwei Teilprobleme aufteilen:
Es gibt verschiedene Möglichkeiten, eines der Teilprobleme anzugehen.
Es scheint mir, dass eine Poisson-Verteilung zu den Daten passen würde, wenn sie unabhängig und identisch verteilt wäre (iid) , was wir natürlich nicht glauben. Wenn wir naiv versuchen, die Parameter der Verteilung zu schätzen, werden wir von den Ausreißern verzerrt. Zwei Möglichkeiten, dies zu überwinden, sind die Verwendung robuster Regressionstechniken oder eine heuristische Methode wie die Kreuzvalidierung.
Für die Ausreißererkennung gibt es wiederum zahlreiche Ansätze. Am einfachsten ist es, die Konfidenzintervalle aus der Verteilung zu verwenden, die wir in Stufe 1 angepasst haben. Andere Methoden umfassen Bootstrap-Methoden und Monte-Carlo-Ansätze.
Dies sagt Ihnen zwar nicht, dass die Verteilung einen "Sprung" aufweist, zeigt jedoch an, ob für die Stichprobengröße mehr Ausreißer als erwartet vorhanden sind.
Ein komplexerer Ansatz wäre, verschiedene Modelle für die Daten zu erstellen, z. B. zusammengesetzte Verteilungen, und eine Art Modellvergleichsmethode (AIC / BIC) zu verwenden, um zu bestimmen, welches der Modelle am besten zu den Daten passt. Wenn Sie jedoch nur nach "Abweichung von einer erwarteten Verteilung" suchen, scheint dies ein Overkill zu sein.
quelle