Die Frage sagt alles. Ich habe beide gelesen, dass man KS nicht auf eine Dimension verallgemeinern kann, die gleich oder größer als zwei ist , und dass berühmte Implementierungen wie diese in numerischen Rezepten einfach falsch sind. Könnten Sie bitte erklären, warum das so ist?
kolmogorov-smirnov
bivariate
ecdf
pedrofigueira
quelle
quelle
Antworten:
Ich halte es für legitim, den relevanten Teil des fraglichen Absatzes zu zitieren:
Wie gesagt, scheint dies zu stark.
1) Die bivariate Verteilungsfunktion, die ist, ist eine Abbildung von bis . Das heißt, die Funktion nimmt univariate reelle Werte zwischen 0 und 1 an. Diese Werte - als Wahrscheinlichkeiten - sind sicherlich bereits "geordnet" - und dies (der Wert der Funktion) ist das, was wir für ECDF-basierte Tests vergleichen müssen . In ähnlicher Weise ist das ecdf im bivariaten Fall perfekt definiert.F(x1,x2)=P(X1≤x1,X2≤x2) R2 [0,1] F^
Ich glaube nicht, dass man unbedingt versuchen muss, daraus eine Funktion einer univariaten kombinierten Variablen zu machen, wie der Text vorschlägt. Sie berechnen einfach und bei jeder erforderlichen Kombination und berechnen die Differenz.F F^
2) Bei der Frage, ob es verteilungsfrei ist, haben sie jedoch einen Punkt:
a) Eine solche Teststatistik würde sich eindeutig nicht durch Änderungen der Randtransformationen ändern, dh wenn sie als Test für bivariate unabhängige Uniformen konstruiert wird , funktioniert sie gleichermaßen sowie ein Test der Unabhängigkeit mit . In diesem Sinne ist es verteilungsfrei (wir könnten sagen "margenfrei").U=(U1,U2) (X1,X2) Ui=Fi(Xi)
b) Es gibt jedoch einen allgemeineren Grund im weiteren Sinne, dass eine naive Version der KS-Statistik (wie ich sie gerade beschrieben habe) nicht allgemeiner verteilungsfrei ist. wir können nicht einfach willkürlich transformieren .U X∗=g(U)
In einer früheren Version meiner Antwort sagte ich:
Das ist falsch. Es gibt in der Tat Probleme, wenn sich nicht nur die Ränder von bivariaten unabhängigen Uniformen ändern, wie gerade erwähnt. Diese Schwierigkeiten wurden jedoch in einer Reihe von Veröffentlichungen, die bivariate / multivariate Versionen der Kolmogorov-Smirnov-Statistiken liefern, die nicht unter diesem Problem leiden, auf verschiedene Weise berücksichtigt.
Ich werde vielleicht zurückkommen und einige dieser Referenzen und eine Diskussion darüber hinzufügen, wie sie funktionieren, sobald es die Zeit erlaubt.
quelle