So testen Sie formell, ob eine normale (oder eine andere) Verteilung „unterbrochen“ ist

10

In der Sozialwissenschaft kommt es häufig vor, dass Variablen, die beispielsweise normal verteilt werden sollten , eine Diskontinuität in ihrer Verteilung um bestimmte Punkte aufweisen.

Wenn es beispielsweise bestimmte Grenzwerte wie "Bestehen / Nichtbestehen" gibt und diese Maßnahmen einer Verzerrung unterliegen, kann es an diesem Punkt zu einer Diskontinuität kommen.

Ein prominentes Beispiel (siehe unten) ist, dass standardisierte Testergebnisse von Schülern normalerweise überall verteilt sind, außer bei 60%, wo es eine sehr geringe Masse von 50-60% und eine übermäßige Masse von 60-65% gibt. Dies tritt in Fällen auf, in denen Lehrer ihre eigenen Schülerprüfungen benoten. Die Autoren untersuchen, ob Lehrer den Schülern wirklich helfen, Prüfungen zu bestehen.

Der überzeugendste Beweis ist zweifellos die Darstellung der Diagramme einer Glockenkurve mit einer großen Diskontinuität um verschiedene Grenzwerte für verschiedene Tests. Wie würden Sie jedoch einen statistischen Test entwickeln? Sie versuchten eine Interpolation und verglichen dann die Fraktion über oder unter sowie einen t-Test für die Fraktion 5 Punkte über und unter dem Cutoff. Diese sind zwar sinnvoll, aber ad-hoc. Kann sich jemand etwas Besseres vorstellen?

Link: Regeln und Diskretion bei der Bewertung von Schülern und Schulen: Der Fall der New Yorker Regentenprüfungen http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Bei der Verteilung der manipulierbaren Testergebnisse in Schwarz ist der starke Dichteabfall unter dem Grenzwert und der entsprechende Anstieg darüber zu beachten

d_a_c321
quelle
Nur zur Klarstellung: Testen Sie auf einen generischen Mangel an z. B. Normalität oder auf das Vorhandensein einer Diskontinuität an einem vorgegebenen Punkt? Ihr Beispiel ist das letztere, aber natürlich wird jeder Anpassungstest, z. B. Anderson-Darling oder Shapiro-Wilk für Normalität, dienen, obwohl Sie mit einer hochspezifischen Alternative leistungsfähigere Tests erstellen könnten. Außerdem haben Sie in Ihrer obigen Grafik offensichtlich eine Stichprobe von Tausenden; Wäre das auch typisch?
Jbowman

Antworten:

6

Es ist wichtig, die Frage richtig zu formulieren und ein nützliches konzeptionelles Modell der Ergebnisse zu übernehmen.

Die Frage

Die potenziellen Betrugsschwellen wie 55, 65 und 85 sind a priori unabhängig von den Daten bekannt: Sie müssen nicht aus den Daten bestimmt werden. (Daher handelt es sich weder um ein Ausreißererkennungsproblem noch um ein Verteilungsanpassungsproblem.) Der Test sollte den Nachweis erbringen, dass einige (nicht alle) Werte, die nur unter diesen Schwellenwerten liegen, auf diese Schwellenwerte verschoben wurden (oder möglicherweise knapp über diesen Schwellenwerten liegen).

Konzeptionelles Modell

Für das konzeptionelle Modell ist es wichtig zu verstehen, dass es unwahrscheinlich ist, dass die Scores eine Normalverteilung aufweisen (oder eine andere leicht zu parametrisierende Verteilung). Dies wird im veröffentlichten Beispiel und in jedem anderen Beispiel aus dem ursprünglichen Bericht sehr deutlich. Diese Ergebnisse stellen eine Mischung aus Schulen dar; Selbst wenn die Verteilung innerhalb einer Schule normal wäre (sie sind es nicht), ist die Mischung wahrscheinlich nicht normal.

Ein einfacher Ansatz akzeptiert, dass es eine echte Punkteverteilung gibt: die, die mit Ausnahme dieser bestimmten Form des Betrugs gemeldet würde . Es ist daher eine nicht parametrische Einstellung. Das scheint zu weit gefasst zu sein, aber es gibt einige Merkmale der Punkteverteilung, die in den tatsächlichen Daten vorweggenommen oder beobachtet werden können:

  1. Die Anzahl der Punkte , und wird eng korreliert sein, .i i + 1 1 i 99i1ii+11i99

  2. Es wird Variationen in diesen Zählungen um eine idealisierte glatte Version der Punkteverteilung geben. Diese Variationen haben typischerweise eine Größe, die der Quadratwurzel der Zählung entspricht.

  3. Das Betrügen relativ zu einem Schwellenwert hat keinen Einfluss auf die Anzahl der Punkte . Seine Wirkung ist proportional zur Anzahl jeder Punktzahl (die Anzahl der Schüler, die "gefährdet" sind, von Betrug betroffen zu sein). Für Punktzahlen unterhalb dieses Schwellenwerts wird die Anzahl um einen Bruchteil verringert und dieser Betrag wird zu addiert .i t i c ( i ) δ ( t - i ) c ( i ) t ( i )titic(i)δ(ti)c(i)t(i)

  4. Das Ausmaß der Änderung nimmt mit dem Abstand zwischen einer Punktzahl und dem Schwellenwert ab: ist eine abnehmende Funktion von .i = 1 , 2 , δ(i)i=1,2,

Bei einem Schwellenwert lautet die Nullhypothese (kein Betrug), dass , was bedeutet, dass identisch . Die Alternative ist, dass .δ ( 1 ) = 0 δ 0 δ ( 1 ) > 0tδ(1)=0δ0δ(1)>0

Einen Test erstellen

c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

denn bei kombiniert dies einen größeren negativen Abfall mit dem Negativ eines großen positiven Anstiegs , wodurch der Betrugseffekt vergrößert wird .i=t1c(t+1)c(t)c(t)c(t1)

Ich werde die Hypothese aufstellen - und dies kann überprüft werden -, dass die serielle Korrelation der Zählungen nahe der Schwelle ziemlich gering ist. (Eine serielle Korrelation an anderer Stelle ist irrelevant.) Dies impliziert, dass die Varianz von ungefähr istc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Ich habe zuvor vorgeschlagen, dass für alle (etwas, das auch überprüft werden kann). Wohervar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

sollte ungefähr Einheitsvarianz haben. Für Populationen mit großer Punktzahl (die veröffentlichte scheint etwa 20.000 zu sein) können wir auch eine ungefähr normale Verteilung von erwarten . Da wir erwarten, dass ein stark negativer Wert ein Betrugsmuster anzeigt, erhalten wir leicht einen Test der Größe : Schreiben für das cdf der Standardnormalverteilung. Lehnen Sie die Hypothese ab, dass bei der Schwelle kein Betrug vorliegt, wenn .c(t1)αΦtΦ(z)<α

Beispiel

Betrachten Sie zum Beispiel diesen Satz von echten Testergebnissen, die aus einer Mischung von drei Normalverteilungen gezogen wurden:

Histogramm der wahren Ergebnisse

Dazu habe ich einen Betrugsplan bei der Schwelle angewendet, die durch . Dies konzentriert fast alle Betrügereien auf die ein oder zwei Punkte unmittelbar unter 65:t=65δ(i)=exp(2i)

Histogramm der Ergebnisse nach dem Betrug

Um ein Gefühl dafür zu bekommen, was der Test bewirkt, habe ich für jede Punktzahl berechnet , nicht nur für , und es gegen die Punktzahl aufgetragen:zt

Handlung von Z.

(Um Probleme mit kleinen Zählungen zu vermeiden, habe ich zuerst 1 zu jeder Zählung von 0 bis 100 hinzugefügt, um den Nenner von zu berechnen .)z

Die Fluktuation nahe 65 ist offensichtlich, ebenso wie die Tendenz, dass alle anderen Fluktuationen etwa 1 groß sind, was mit den Annahmen dieses Tests übereinstimmt. Die Teststatistik ist mit einem entsprechenden p-Wert von , ein äußerst signifikantes Ergebnis. Ein visueller Vergleich mit der Abbildung in der Frage selbst legt nahe, dass dieser Test einen mindestens ebenso kleinen p-Wert zurückgeben würde.z=4.19Φ(z)=0.0000136

(Bitte beachten Sie jedoch, dass der Test selbst dieses Diagramm nicht verwendet, das zur Veranschaulichung der Ideen gezeigt wird. Der Test betrachtet nur den aufgezeichneten Wert an der Schwelle, nirgendwo sonst. Es wäre dennoch eine gute Praxis, ein solches Diagramm zu erstellen um zu bestätigen, dass die Teststatistik tatsächlich die erwarteten Schwellenwerte als Orte des Betrugs herausgreift und dass alle anderen Bewertungen keinen solchen Änderungen unterliegen. Hier sehen wir, dass bei allen anderen Bewertungen Schwankungen zwischen etwa -2 und 2 auftreten, jedoch selten Beachten Sie auch, dass man die Standardabweichung der Werte in diesem Diagramm nicht berechnen muss, um zu berechnen , wodurch Probleme vermieden werden, die mit Betrugseffekten verbunden sind, die die Schwankungen an mehreren Stellen aufblasen.)z

Wenn dieser Test auf mehrere Schwellenwerte angewendet wird, ist eine Bonferroni-Anpassung der Testgröße sinnvoll. Eine zusätzliche Anpassung bei gleichzeitiger Anwendung auf mehrere Tests wäre ebenfalls eine gute Idee.

Auswertung

Dieses Verfahren kann erst dann ernsthaft zur Anwendung vorgeschlagen werden, wenn es anhand der tatsächlichen Daten getestet wurde. Ein guter Weg wäre, Punktzahlen für einen Test zu nehmen und eine unkritische Punktzahl für den Test als Schwellenwert zu verwenden. Vermutlich war eine solche Schwelle dieser Form des Betrugs nicht unterworfen. Simulieren Sie Betrug nach diesem konzeptionellen Modell und untersuchen Sie die simulierte Verteilung von . Dies zeigt an (a) ob die p-Werte genau sind und (b) die Leistung des Tests, um die simulierte Form des Betrugs anzuzeigen. In der Tat könnte man eine solche Simulationsstudie für genau die Daten verwenden, die man auswertet, und eine äußerst effektive Methode bieten, um zu testen, ob der Test angemessen ist und welche tatsächliche Leistung er hat. Weil die Teststatistikzz ist so einfach, dass Simulationen praktikabel und schnell auszuführen sind.

whuber
quelle
Dieser Test muss leicht angepasst werden, da die Erwartung von (ungefähr) proportional zur zweiten Ableitung der Verteilung ist. In dem Beispiel, in dem sich der Schwellenwert in der Nähe eines Modus befindet, ist diese zweite Ableitung in der Nähe von Null, sodass kein Problem besteht. Für einen Schwellenwert in einem Bereich mit hoher Krümmung (etwa 70 oder 90 in den simulierten Daten) könnte die Anpassung jedoch wesentlich sein. Wenn ich eine Chance bekomme, werde ich diese Antwort entsprechend bearbeiten. z
whuber
1

Ich schlage vor, ein Modell anzupassen, das die Einbrüche explizit vorhersagt, und dann zu zeigen, dass es wesentlich besser zu den Daten passt als ein naives.

Sie benötigen zwei Komponenten:

  • anfängliche Verteilung der Punktzahlen,
  • Verfahren zum erneuten Überprüfen (ehrlich oder nicht) von Punktzahlen, wenn eine Schwelle unterschritten wird.

Ein mögliches Modell für einen einzelnen Schwellenwert (mit dem Wert ) ist das folgende: wobeit

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - die Wahrscheinlichkeitsverteilung des Endergebnisses,
  • pinitial(s) - die Wahrscheinlichkeitsverteilung, wenn es keine Schwellenwerte gab,
  • m(st) - die Wahrscheinlichkeit der Manipulationsbewertung in die Übergabe der Bewertung ,st
  • δ(s=t) ist das Kronecker-Delta, dh 1, wenn und andernfalls 0.s=t

Normalerweise können Sie die Punktzahl nicht stark erhöhen. Ich würde einen exponentiellen Zerfall vermuten , wobei der Anteil der erneut überprüften (manipulierten) Scores ist.m(st)aqtsa

Als anfängliche Verteilung können Sie versuchen, die Poisson- oder Gauß-Verteilung zu verwenden. Natürlich wäre es ideal, den gleichen Test zu haben, aber für eine Gruppe von Lehrern geben Sie Schwellenwerte an und für die andere - keine Schwellenwerte.

Wenn es mehr Schwellenwerte gibt, kann man dieselbe Formel anwenden, jedoch mit Korrekturen für jedes . Vielleicht wäre auch anders (z. B. da der Unterschied zwischen Fail-Pass wichtiger sein kann als zwischen zwei bestandenen Noten).a itiai

Anmerkungen:

  • Manchmal gibt es Verfahren zur erneuten Überprüfung von Tests, wenn diese knapp unter der bestandenen Note liegen. Dann ist es schwieriger zu sagen, welche Instanzen ehrlich waren und welche - nicht.
  • sm(st) hängt sicherlich von der Art des Tests ab. Wenn zum Beispiel offene Fragen offen sind, können einige Antworten mehrdeutig sein und die Anzahl hängt von (daher ist es bei niedrigen Punktzahlen möglicherweise einfacher, die Punktzahl zu erhöhen). Während bei einem Test mit geschlossener Auswahl kaum oder gar kein Unterschied in der Anzahl der richtigen und falschen Antworten bestehen sollte.s
  • Manchmal können die 'korrigierten' Werte über - anstelle von idealisiertem kann man etwas anderes einstecken.δ ( s = t )tδ(s=t)
Piotr Migdal
quelle
Ich bin mir nicht sicher, ob das meine genaue Frage beantwortet. In diesem Fall können wir keine Prüfungen erneut überprüfen. Es wird lediglich eine Verteilung der Endergebnisse beobachtet. Die Verteilung ist meist normal. Außer um einen bestimmten Grenzpunkt, an dem wir eine Manipulation vermuten, gibt es einen Bruch in der normalen Kurve. Wenn die Null ist, dass die Kurve zu diesem Zeitpunkt "glatt" wäre, wie können wir sie gegen eine alternative Hypothese testen, bei der sie "holprig" ist
d_a_c321
Ich denke, ich verstehe die Frage. Mein Punkt war: Gauß (2 Parameter) anpassen und berechnen , dann (2 Parameter für Gauß + (t + 1) Parameter für die Schwellenwerte) anpassen und berechnen . Die Berechnung der Glätte (z. B. in Form von ) mag interessant sein, aber dann ist es wichtig, die zugrunde liegenden Annahmen und usw. zu überprüfen. zB bei Tests mit vielen Fragen von 2 Punkten kann es zu einer ziemlich hohen "anfänglichen" Zackigkeit kommen). Wenn man Zugriff auf Rohdaten hat (dh alle Antworten, nicht nur die Gesamtpunktzahl), gibt es noch mehr Raum zum Testen ...p f i n a l X 2 99 s = 0 | p ( s + 1 ) - p ( s ) | 2X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal
1

Ich würde dieses Problem in zwei Teilprobleme aufteilen:

  • Schätzen Sie die Parameter einer Verteilung so, dass sie zu den Daten passen
  • Führen Sie eine Ausreißererkennung mit der angepassten Verteilung durch

Es gibt verschiedene Möglichkeiten, eines der Teilprobleme anzugehen.

Es scheint mir, dass eine Poisson-Verteilung zu den Daten passen würde, wenn sie unabhängig und identisch verteilt wäre (iid) , was wir natürlich nicht glauben. Wenn wir naiv versuchen, die Parameter der Verteilung zu schätzen, werden wir von den Ausreißern verzerrt. Zwei Möglichkeiten, dies zu überwinden, sind die Verwendung robuster Regressionstechniken oder eine heuristische Methode wie die Kreuzvalidierung.

Für die Ausreißererkennung gibt es wiederum zahlreiche Ansätze. Am einfachsten ist es, die Konfidenzintervalle aus der Verteilung zu verwenden, die wir in Stufe 1 angepasst haben. Andere Methoden umfassen Bootstrap-Methoden und Monte-Carlo-Ansätze.

Dies sagt Ihnen zwar nicht, dass die Verteilung einen "Sprung" aufweist, zeigt jedoch an, ob für die Stichprobengröße mehr Ausreißer als erwartet vorhanden sind.

Ein komplexerer Ansatz wäre, verschiedene Modelle für die Daten zu erstellen, z. B. zusammengesetzte Verteilungen, und eine Art Modellvergleichsmethode (AIC / BIC) zu verwenden, um zu bestimmen, welches der Modelle am besten zu den Daten passt. Wenn Sie jedoch nur nach "Abweichung von einer erwarteten Verteilung" suchen, scheint dies ein Overkill zu sein.

tdc
quelle