Motivation für Kolmogorov Abstand zwischen Verteilungen

45

Es gibt viele Möglichkeiten zu messen, wie ähnlich zwei Wahrscheinlichkeitsverteilungen sind. Zu den (in verschiedenen Kreisen) populären Methoden gehören:

  1. der Kolmogorov-Abstand: der Überabstand zwischen den Verteilungsfunktionen;

  2. die Kantorovich-Rubinstein-Distanz: die maximale Differenz zwischen den Erwartungen bezüglich der beiden Funktionsverteilungen mit der Lipschitz-Konstante , die sich auch als die Distanz zwischen den Verteilungsfunktionen herausstellt ;L 11L1

  3. die beschränkte Lipschitz-Distanz: Wie die KR-Distanz, aber die Funktionen müssen auch einen absoluten Wert von höchstens .1

Diese haben unterschiedliche Vor- und Nachteile. Nur Konvergenz im Sinne von 3. entspricht tatsächlich genau der Konvergenz in der Verteilung; Konvergenz im Sinne von 1. oder 2. ist im Allgemeinen etwas stärker. (Insbesondere wenn mit der Wahrscheinlichkeit , konvergiert in der Verteilung gegen , jedoch nicht in der Kolmogorov-Distanz. Wenn die Grenzverteilung jedoch stetig ist, tritt diese Pathologie nicht auf. ) 1xn0Xn=1n1Xn0

Aus der Perspektive der Elementarwahrscheinlichkeits- oder Maßtheorie ist 1. sehr natürlich, weil es die Wahrscheinlichkeiten vergleicht, in einer Menge zu sein. Eine differenziertere Wahrscheinlichkeitsperspektive konzentriert sich eher auf Erwartungen als auf Wahrscheinlichkeiten. Aus der Sicht der Funktionsanalyse sind Entfernungen wie 2. oder 3., die auf Dualität mit einem gewissen Funktionsraum basieren, sehr ansprechend, da es eine große Anzahl mathematischer Werkzeuge gibt, um mit solchen Dingen zu arbeiten.

Mein Eindruck (korrigiere mich, wenn ich mich irre!) Ist jedoch, dass in der Statistik die Kolmogorov-Distanz die normalerweise bevorzugte Methode zur Messung der Ähnlichkeit von Verteilungen ist. Ich kann einen Grund erraten: Wenn eine der Verteilungen mit endlicher Unterstützung diskret ist - insbesondere wenn es sich um die Verteilung einiger realer Daten handelt -, ist die Kolmogorov-Entfernung zu einer Modellverteilung einfach zu berechnen. (Die KR-Distanz wäre etwas schwieriger zu berechnen, und die BL-Distanz wäre praktisch wahrscheinlich unmöglich.)

Meine Frage ist also (endlich), ob es andere praktische oder theoretische Gründe gibt, die Kolmogorov-Distanz (oder eine andere Distanz) für statistische Zwecke zu bevorzugen.

Mark Meckes
quelle
1
Ich mag die Frage, vielleicht gibt es bereits die meisten möglichen Antworten in der Frage ... haben Sie eine Vorstellung von der Art der Antwort / Entwicklung, die Sie wollen?
Robin Girard
1
Nicht sehr speziell. Ich kenne Statistiken nicht und möchte unter anderem wissen, nach welchen Kriterien Statistiker zwischen verschiedenen Metriken wählen. Da ich bereits einen wichtigen praktischen Vorteil von 1 beschrieben habe (Sie können ihn tatsächlich berechnen), interessieren mich vor allem theoretische Motivationen. Sind die Informationen, die Schätzungen der Kolmogorov-Entfernung liefern, häufig von direkter Bedeutung für Anwendungen?
Mark Meckes
Ich habe vergessen, meinen vorherigen Kommentar mit dem mehr oder weniger Offensichtlichen zu beenden: und wenn ja, wie?
Mark Meckes
Ich habe gerade meinen langen Kommentar oben noch einmal gelesen und festgestellt, dass die letzte Frage, die ich aufgeworfen habe, sowohl eine praktische als auch eine theoretische Überlegung ist. In jedem Fall ist dies eines der Themen, über die ich gerne mehr erfahren würde.
Mark Meckes
Ich weiß, du wolltest nicht erschöpfend sein, aber du könntest Andersons Lieblingsstatistik hinzufügen (siehe en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Dies ließ mich an einen Artikel von Jager und Wellner (siehe projecteuclid.org/… ) erinnern, der die Statistik von Anderson erweitert / verallgemeinert (und insbesondere höhere Kritik an Tukey enthält) ...
robin girard

Antworten:

12

Kennzeichen,

Der Hauptgrund, den ich für die Verwendung von KS kenne, ist, dass er auf natürliche Weise aus Glivenko-Cantelli-Theoremen in univariaten empirischen Prozessen hervorgeht. Die eine Referenz, die ich empfehlen würde, ist AWvan der Vaart "Asymptotic Statistics", ch. 19. Eine weiter fortgeschrittene Monographie ist "Schwache Konvergenz und empirische Prozesse" von Wellner und van der Vaart.

Ich würde zwei kurze Notizen hinzufügen:

  1. Ein weiteres in univariaten Verteilungen gebräuchliches Distanzmaß ist die Cramer-von-Mises-Distanz, die eine L ^ 2-Distanz ist.
  2. Im Allgemeinen werden Vektorräume mit unterschiedlichen Abständen verwendet. der interessensraum in vielen papieren ist polnisch. Eine sehr gute Einführung ist Billingsleys "Convergence of Probability Measures".

Ich entschuldige mich, wenn ich nicht genauer sein kann. Ich hoffe das hilft.

gappy
quelle
2
Zwei kurze Notizen zu Ihren Notizen. 1. Die C-vM-Distanz ist genau die L ^ 2-Cousine der Kolmogorov- (L ^ infinity) und (univariaten) KR- (L ^ 1) -Distanzen und interpoliert daher zwischen ihnen. 2. Ein Vorteil, den ich bei den KR- und BL-Abständen nicht erwähnt habe, ist, dass sie sich natürlicher auf höherdimensionale Räume verallgemeinern.
Mark Meckes
Bezüglich 1. ist das richtig. Zu 2. Grundsätzlich könnten alle oben genannten Entfernungen auf R ^ n übertragen werden, ich kenne jedoch keine populären nicht-parametrischen Tests, die auf einer Entfernung basieren . Es wäre interessant zu wissen, ob es welche gibt.
gappy
8

Computerprobleme sind das stärkste Argument, das ich je gehört habe. Der größte Vorteil der Kolmogorov-Distanz besteht darin, dass es sehr einfach ist, für so gut wie jede CDF eine Analyse durchzuführen. Die meisten anderen Distanzmetriken haben keinen Ausdruck in geschlossener Form, außer manchmal im Gaußschen Fall.

Der Kolmogorov-Abstand einer Stichprobe hat auch eine bekannte Stichprobenverteilung, da die CDF (ich glaube nicht, dass die meisten anderen dies tun) mit dem Wiener-Prozess zusammenhängt. Dies ist die Grundlage für den Kolmogorov-Smirnoff-Test zum Vergleichen einer Probe mit einer Verteilung oder zweier Proben miteinander.

In Bezug auf die Funktionsanalyse ist die Sup-Norm insofern von Vorteil, als sie (wie Sie bereits erwähnt haben) im Grunde eine einheitliche Konvergenz definiert. So bleibt Ihnen die Normkonvergenz erhalten, die eine punktuelle Konvergenz impliziert. Wenn Sie also gescheit sind, wie Sie Ihre Funktionssequenzen definieren, können Sie innerhalb eines RKHS arbeiten und alle nützlichen Tools verwenden, die dies ebenfalls bietet.

Reich
quelle
8

Zusammenfassend lautet meine Antwort: Wenn Sie einen expliziten Ausdruck haben oder einschätzen können, wie Ihre Entfernung gemessen wird (welche "Unterschiede" ergeben sich daraus), können Sie sagen, wofür es besser ist. Eine andere ergänzende Methode zur Analyse und zum Vergleich solcher Tests ist die Minimax-Theorie.

Am Ende wird ein Test für einige Alternativen und einige für andere gut sein. Für einen gegebenen Satz von Alternativen kann manchmal gezeigt werden, ob Ihr Test im schlimmsten Fall optimale Eigenschaften aufweist: Dies ist die Minimax-Theorie.


Ein paar Details

Daher können Sie über die Eigenschaften von zwei verschiedenen Tests anhand des Satzes von Alternativen, für die sie Minimax sind (sofern solche Alternativen existieren), dh (unter Verwendung des Wortes von Donoho und Jin) durch Vergleichen ihrer "optimalen Erkennungsgrenze" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Lass mich Distanz für Distanz gehen:

  1. Der KS-Abstand wird erhalten, indem das höchste Differenzmaß zwischen empirischem cdf und cdf berechnet wird. Als Suppremum reagiert es sehr empfindlich auf lokale Alternativen (lokale Änderung im cdf), jedoch nicht auf globale Änderungen (zumindest die Verwendung des L2-Abstands zwischen cdf wäre weniger lokal (öffne ich eine offene Tür?)). Das Wichtigste ist jedoch, dass das cdf verwendet wird. Dies impliziert eine Asymetrie: Sie messen den Änderungen am Ende Ihrer Distribution mehr Bedeutung bei.

  2. Wassertein-Metrik (was meinten Sie mit Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric ist allgegenwärtig und daher schwer zu vergleichen.

    • Für den speziellen Fall von W2 wurde es in http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 verwendet und es bezieht sich auf den L2-Abstand zur Inversen von cdf. Ich verstehe, dass es den Schwänzen noch mehr Gewicht verleiht, aber ich denke, Sie sollten die Zeitung lesen, um mehr darüber zu erfahren.
    • Für den Fall des L1-Abstands zwischen der Dichtefunktion hängt es stark davon ab, wie Sie Ihre Dentity-Funktion aus den Daten abschätzen. Andernfalls scheint es sich um einen "ausgewogenen Test" zu handeln, bei dem den Schwänzen keine Bedeutung zukommt.

Um mich an den Kommentar zu erinnern und ihn zu erweitern, der die Antwort vervollständigt:

Ich weiß, dass Sie nicht erschöpfend sein wollten, aber Sie könnten Andersons Lieblingsstatistik hinzufügen (siehe http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Dies ließ mich an einen Artikel von Jager und Wellner erinnern (siehe http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ), der die Statistik von Anderson erweitert / verallgemeinert (und insbesondere einschließt) höhere Kritik an Tukey). Höhere Kritik erwies sich bereits als Minimax für eine Vielzahl von Alternativen, und das Gleiche tun Jäger und Wellner für ihre Erweiterung. Ich glaube nicht, dass die Minimax-Eigenschaft für den Kolmogorov-Test gezeigt wurde. Wie auch immer, wenn Sie wissen, für welche Art von Alternative Ihr Test Minimax ist, wissen Sie, wo seine Stärke liegt. Lesen Sie daher das obige Whitepaper.

Robin Girard
quelle
1
Ja, was ich die Kantorovitch-Rubinstein-Distanz nannte, wird auch die L ^ 1-Wasserstein-Distanz oder W1 genannt. Es gibt auch viele andere Namen.
Mark Meckes
3
Nur zur Klarstellung für alle, die mit den Wasserstein-Entfernungen nicht vertraut sind und dies und die Antwort von gappy lesen: Die L ^ 2-Wasserstein-Entfernung (W2) ist nicht dieselbe wie die Cramer-von-Mises-Entfernung.
Mark Meckes
4

Ich denke, man muss die theoretischen und die angewandten Vorteile der verschiedenen Begriffe von Distanz berücksichtigen. Mathematisch natürliche Objekte lassen sich nicht unbedingt gut in Anwendungen umsetzen. Kolmogorov-Smirnov ist für seine Anwendung am bekanntesten und hat sich in der Prüfung der Passgenauigkeit etabliert. Ich nehme an, dass einer der Gründe dafür ist, dass die Verteilung der Statistik unabhängig von ist, wenn die zugrunde liegende Verteilung stetig ist . Ein weiterer Grund ist, dass es leicht invertiert werden kann, um Konfidenzbänder für die CDF zu erhalten.FFF

Aber es wird oft anders verwendet, wenn von geschätzt wird und die Teststatistik die Form Das Interesse ist, zu sehen, wie gut zu den Daten passt und wie wirkt, obwohl die asymptotische Theorie nicht unbedingt zutrifft.FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
quelle
3

Ich kann Ihnen keine zusätzlichen Gründe nennen, um den Kolmogorov-Smirnov-Test anzuwenden. Aber ich kann Ihnen einen wichtigen Grund nennen, es nicht zu benutzen. Es passt nicht gut zum Schwanz der Distribution. In dieser Hinsicht ist Anderson-Darling ein überlegener Verteilungsanpassungstest. Als Zweitbester ist der Chi-Quadrat-Test ziemlich gut. Beide sind dem KS-Test in dieser Hinsicht weit überlegen.

Sympa
quelle
2

Unter dem Gesichtspunkt der Funktionsanalyse und der Maßtheorie definieren die Abstände vom Typ keine messbaren Mengen auf Funktionsräumen (unendlich dimensionale Räume verlieren abzählbares Additiv in den metrischen Ballhüllen). Dies disqualifiziert jede Art von messbarer Interpretation der Abstände von Wahl 2 und 3.Lp

Natürlich hat Kolomogorov, der viel heller war als jeder von uns, besonders ich selbst, dies vorausgesehen. Das clevere daran ist, dass während der Abstand im KS-Test von der Sorte , die einheitliche Norm selbst nicht verwendet wird, um die messbaren Mengen zu definieren. Vielmehr sind die Mengen Teil einer stochastischen Filterung auf die Unterschiede zwischen den bei den beobachteten Werten bewerteten Verteilungen; Das entspricht dem Stoppzeitproblem.L0

Kurz gesagt, der einheitliche Normabstand der Wahl 1 ist vorzuziehen, da der implizierte Test dem Stoppzeitproblem entspricht, das selbst rechnerisch nachvollziehbare Wahrscheinlichkeiten liefert. Wobei als Auswahl 2 & 3 keine messbaren Teilmengen von Funktionen definieren können.

Aaron Sheldon
quelle