Was ist die CDF mit zwei Stichproben von und aus dem einseitigen Kolmogorov-Smirnov-Test?

9

Ich versuche zu verstehen, wie man Werte für den einseitigen Kolmogorov-Smirnov-Test erhält , und habe Schwierigkeiten, CDFs für und im Fall mit zwei Stichproben. Das Folgende wird an einigen Stellen als CDF für in einem Fall mit einer Stichprobe zitiert :D + n 1 , n 2 D - n 1 , n 2 D + npDn1,n2+Dn1,n2Dn+

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Außerdem gibt es eine etwas andere Formulierung dieser CDF mit einer Stichprobe (ich ersetze t in seinem Zitat durch x für t um die Übereinstimmung mit meiner Notation hier zu gewährleisten ):

Unter Verwendung der Wahrscheinlichkeitsintegraltransformation leitet Donald Knuth ihre (gemeinsame) Verteilung auf p ab. 57 und Übung 17 von TAoCP Band 2. Ich zitiere:

(Dn+xn)=xnnckx(nk)(kx)k(x+nk)nk1

Dies würde für einseitige Hypothesen im Fall einer Stichprobe gelten, wie zum Beispiel: H 0F(x)F00 , wobei F(x) die empirische CDF ist von x und F0 ist eine CDF.

Ich denke, das x in diesem Fall der Wert von Dn+ in der Stichprobe, und dass n(1x) die größte ganze Zahl in nnx . (Ist das richtig?)

Aber was ist die CDF für (oder ), wenn man zwei Samples hat? Zum Beispiel, wenn H für die empirischen CDFs von und ? Wie erhalte ich ?Dn1,n2+Dn1,n20FA(x)FB(x)0ABpn1,n2+

Alexis
quelle
1
Nur als Hinweis für alle, die diese Frage beantworten möchten, enthält meine Antwort auf Alexis 'vorherige Frage (die in der obigen Frage verlinkt ist) Links zu mehreren Referenzen mit einer Diskussion der Geschichte, von denen jede eine Reihe relevanter Referenzen enthält. Möglicherweise möchten Sie diese Dokumente und ihre Referenzliste überprüfen.
Glen_b -State Monica
@Glen_b Danke! Ich schätze Ihre ausgezeichnete Antwort auf meine andere Frage sehr und habe die zitierten Ressourcen befolgt, aber ich habe dort keine Traktion auf der CDF für , und anstatt die Kommentare zu verfälschen, dachte ich, ich würde einfach eine neue Abfrage öffnen . Zusätzliche Referenzen sind willkommen, wenn Sie welche kennen, die dafür funktionieren. D+
Alexis
Alexis: Mit meinem Kommentar war keine Kritik beabsichtigt. Ihre Entscheidung, eine neue Frage zu eröffnen, war genau richtig (meiner Meinung nach). Ich wollte den Leuten nur ein wenig Arbeit ersparen, um einige der relevanten Referenzen aufzuspüren - ich dachte, es könnte nicht unbedingt jedem einfallen, Ihrem Link zu der anderen Frage zu folgen, und es könnte nicht den Leuten einfallen, die diese Links in meinem gemacht haben Die Antwort hatte einige Referenzen, die sie vielleicht wissen wollten.
Glen_b -State Monica

Antworten:

6

Ok, ich werde es versuchen. Kritische Erkenntnisse sind willkommen.

Auf Seite 192 beginnen Gibbons und Chakraborti (1992) unter Berufung auf Hodges, 1958, mit einer kleinen (genauen?) CDF für den zweiseitigen Test (ich tausche ihre und Notation gegen bzw. ):m,ndn1,n2x

P(Dn1,n2x)=1P(Dn1,n2x)=1A(n1,n2)(n1+n2n1)

Wobei durch eine Aufzählung von Pfaden (die in und monoton ansteigen ) vom Ursprung zum Punkt durch einen Graphen mit - Ersetzen von durch - sind die Werte der x- Achse und der y- Achse und . Die Pfade müssen außerdem der Einschränkung entsprechen, innerhalb der Grenzen zu bleiben (wobei der Wert der Kolmogorov-Smirnov-Teststatistik ist):A(n1,n2)n1n2(n1,n2)Sm(x)Fn1(x)n1F1(x)n2F2(x)x

n2n1±(n1+n2)x(n1+n2n1)

Unten sehen Sie das Bild Abbildung 3.2 mit einem Beispiel für mit 12 solchen Pfaden:A(3,4)

Abbildung 3.2 von Seite 193 von Gibbons und Chakraborti (1992) Nonparametric Statistical Inference.

Gibbons und Chakaborti sagen weiter, dass der einseitige Wert mit derselben grafischen Methode erhalten wird, jedoch nur mit der Untergrenze für und nur das obere für .pDn1,n2+Dn1,n2

Diese Ansätze mit kleinen Stichproben beinhalten Algorithmen zur Pfadaufzählung und / oder Wiederholungsrelationen, die zweifellos asymptotische Berechnungen wünschenswert machen. Gibbons und Chakraborti bemerken auch die begrenzenden CDFs, wenn sich und Unendlichkeit von nähern :n1n2Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2x)=12i=1(1)i1e2i2x2

Und sie geben die begrenzende CDF von (oder ) als:Dn1,n2+Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2+x)=1e2x2

Da und streng nicht negativ sind, kann die CDF nur Werte ungleich Null über annehmen :D+D[0,)

CDF von $ D ^ {+} $ (oder $ D ^ {-} $)


Literaturhinweise
Gibbons, JD und Chakraborti, S. (1992). Nichtparametrische statistische Inferenz . Marcel Decker, Inc., 3. Auflage, überarbeitete und erweiterte Auflage.

Hodges, JL (1958). Die Signifikanzwahrscheinlichkeit des Smirnov-Zwei-Stichproben-Tests. Arkiv för matematik . 3 (5): 469–486.

Alexis
quelle
1
Das eigentliche cdf existiert überall, aber für das cdf Null; Die von Ihnen angegebene funktionale Form gilt nur für (dies ist für einfache Überlegungen zugänglich; was ist ?(,0)x0P(D+<0)
Glen_b