Warum kann man den Kolmogorov-Smirnov-Test nicht auf zwei oder mehr Dimensionen verallgemeinern?

9

Die Frage sagt alles. Ich habe beide gelesen, dass man KS nicht auf eine Dimension verallgemeinern kann, die gleich oder größer als zwei ist , und dass berühmte Implementierungen wie diese in numerischen Rezepten einfach falsch sind. Könnten Sie bitte erklären, warum das so ist?

pedrofigueira
quelle
Ich habe einige Tags (bivariate, empirische und cdf) auf der Grundlage des zitierten Abschnitts (in meiner Antwort) des Papiers hinzugefügt.
Glen_b -Reinstate Monica
pedrofigueira - Ich habe wesentliche Änderungen an meiner Antwort vorgenommen (mein Original war falsch; Entschuldigung). Ich werde wahrscheinlich weitere Änderungen vornehmen, da ich beabsichtige, mit Verweisen auf mehrere multivariate KS-Tests zurückzukommen.
Glen_b -Rate State Monica
@Glen_b Vielen Dank für all Ihre Zeit und Mühe!
pedrofigueira

Antworten:

13

Ich halte es für legitim, den relevanten Teil des fraglichen Absatzes zu zitieren:

3. Der KS-Test kann nicht in zwei oder mehr Dimensionen angewendet werden. Astronomen haben häufig Datensätze mit Punkten, die in einer Ebene oder höheren Dimensionen anstatt entlang einer Linie verteilt sind. Mehrere Artikel in der astronomischen Literatur geben vor, einen zweidimensionalen KS-Test zu präsentieren, und einer ist in dem berühmten Band Numerical Recipes wiedergegeben. Es kann jedoch kein EDF-basierter Test (einschließlich KS-, AD- und verwandter Tests) in zwei oder höheren Dimensionen angewendet werden, da es keine eindeutige Möglichkeit gibt, die Punkte so zu ordnen, dass Abstände zwischen genau definierten EDFs berechnet werden können. Man kann eine Statistik basierend auf einem Bestellverfahren erstellen und dann die höchsten Abstände zwischen zwei Datensätzen (oder einem Datensatz und einer Kurve) berechnen. Die kritischen Werte der resultierenden Statistik sind jedoch nicht verteilungsfrei.

Wie gesagt, scheint dies zu stark.

1) Die bivariate Verteilungsfunktion, die ist, ist eine Abbildung von bis . Das heißt, die Funktion nimmt univariate reelle Werte zwischen 0 und 1 an. Diese Werte - als Wahrscheinlichkeiten - sind sicherlich bereits "geordnet" - und dies (der Wert der Funktion) ist das, was wir für ECDF-basierte Tests vergleichen müssen . In ähnlicher Weise ist das ecdf im bivariaten Fall perfekt definiert.F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

Ich glaube nicht, dass man unbedingt versuchen muss, daraus eine Funktion einer univariaten kombinierten Variablen zu machen, wie der Text vorschlägt. Sie berechnen einfach und bei jeder erforderlichen Kombination und berechnen die Differenz.FF^

2) Bei der Frage, ob es verteilungsfrei ist, haben sie jedoch einen Punkt:

a) Eine solche Teststatistik würde sich eindeutig nicht durch Änderungen der Randtransformationen ändern, dh wenn sie als Test für bivariate unabhängige Uniformen konstruiert wird , funktioniert sie gleichermaßen sowie ein Test der Unabhängigkeit mit . In diesem Sinne ist es verteilungsfrei (wir könnten sagen "margenfrei").U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) Es gibt jedoch einen allgemeineren Grund im weiteren Sinne, dass eine naive Version der KS-Statistik (wie ich sie gerade beschrieben habe) nicht allgemeiner verteilungsfrei ist. wir können nicht einfach willkürlich transformieren .UX=g(U)

In einer früheren Version meiner Antwort sagte ich:

Es gibt keine Schwierigkeiten, kein Problem

Das ist falsch. Es gibt in der Tat Probleme, wenn sich nicht nur die Ränder von bivariaten unabhängigen Uniformen ändern, wie gerade erwähnt. Diese Schwierigkeiten wurden jedoch in einer Reihe von Veröffentlichungen, die bivariate / multivariate Versionen der Kolmogorov-Smirnov-Statistiken liefern, die nicht unter diesem Problem leiden, auf verschiedene Weise berücksichtigt.

Ich werde vielleicht zurückkommen und einige dieser Referenzen und eine Diskussion darüber hinzufügen, wie sie funktionieren, sobald es die Zeit erlaubt.

Glen_b - Monica neu starten
quelle
Diese Antwort ist eindeutig richtig, aber Vorsicht: Dass der KS-Test verwendet werden kann, bedeutet nicht, dass er verwendet werden sollte. Normalerweise gibt es weitaus bessere (leistungsfähigere) Tests.
kjetil b halvorsen
Sicher - obwohl es davon abhängt, welche Alternativen von Interesse sind.
Glen_b -Reinstate Monica
1
Ich verstehe diese Antwort nicht ganz. Ich stelle mir vor, dass viele astronomische Datensätze (sowie viele andere kleindimensionale Datensätze) keine intrinsisch bedeutsamen Koordinatensysteme enthalten. Daher wäre Ihre Behauptung, dass die Punkte "bereits bestellt" sind, unter solchen Umständen ungültig. Es könnte gerettet werden, wenn Sie nachweisen könnten, dass die KS-Statistik unabhängig von den Koordinaten ist, die zur Identifizierung der Standorte verwendet werden . Ich denke nicht, dass das in zwei oder mehr Dimensionen wahr ist, aber ich könnte mich irren.
whuber
1
@whuber Ich habe im Lichte Ihrer sehr freundlichen Antwort auf meinen Fehler wesentliche Änderungen vorgenommen. Ich werde wahrscheinlich weitere Änderungen vornehmen, wenn ich Referenzen und weitere Details hinzufüge, in der Hoffnung, eine Antwort zu finden, die auf längere Sicht nützlicher sein wird.
Glen_b -Rate State Monica
(+1) Vielen Dank, Glen, dass Sie diese Antwort erweitert und nuancierter gestaltet haben. Obwohl ich die Referenz des OP von zweifelhafter Qualität finde (am Anfang interpretiert es falsch, was Hypothesentests bedeuten), gibt es schließlich zu, dass "der Bootstrap zur Rettung kommen kann und Signifikanzniveaus für die bestimmte mehrdimensionale Statistik und den bestimmten untersuchten Datensatz sein können numerisch berechnet. " Dies scheint zumindest im Geiste darauf abgestimmt zu sein, wie sich Ihre Antwort entwickelt.
whuber