Es gibt viele Möglichkeiten zu messen, wie ähnlich zwei Wahrscheinlichkeitsverteilungen sind. Zu den (in verschiedenen Kreisen) populären Methoden gehören:
der Kolmogorov-Abstand: der Überabstand zwischen den Verteilungsfunktionen;
die Kantorovich-Rubinstein-Distanz: die maximale Differenz zwischen den Erwartungen bezüglich der beiden Funktionsverteilungen mit der Lipschitz-Konstante , die sich auch als die Distanz zwischen den Verteilungsfunktionen herausstellt ;L 1
die beschränkte Lipschitz-Distanz: Wie die KR-Distanz, aber die Funktionen müssen auch einen absoluten Wert von höchstens .
Diese haben unterschiedliche Vor- und Nachteile. Nur Konvergenz im Sinne von 3. entspricht tatsächlich genau der Konvergenz in der Verteilung; Konvergenz im Sinne von 1. oder 2. ist im Allgemeinen etwas stärker. (Insbesondere wenn mit der Wahrscheinlichkeit , konvergiert in der Verteilung gegen , jedoch nicht in der Kolmogorov-Distanz. Wenn die Grenzverteilung jedoch stetig ist, tritt diese Pathologie nicht auf. ) 1xn0
Aus der Perspektive der Elementarwahrscheinlichkeits- oder Maßtheorie ist 1. sehr natürlich, weil es die Wahrscheinlichkeiten vergleicht, in einer Menge zu sein. Eine differenziertere Wahrscheinlichkeitsperspektive konzentriert sich eher auf Erwartungen als auf Wahrscheinlichkeiten. Aus der Sicht der Funktionsanalyse sind Entfernungen wie 2. oder 3., die auf Dualität mit einem gewissen Funktionsraum basieren, sehr ansprechend, da es eine große Anzahl mathematischer Werkzeuge gibt, um mit solchen Dingen zu arbeiten.
Mein Eindruck (korrigiere mich, wenn ich mich irre!) Ist jedoch, dass in der Statistik die Kolmogorov-Distanz die normalerweise bevorzugte Methode zur Messung der Ähnlichkeit von Verteilungen ist. Ich kann einen Grund erraten: Wenn eine der Verteilungen mit endlicher Unterstützung diskret ist - insbesondere wenn es sich um die Verteilung einiger realer Daten handelt -, ist die Kolmogorov-Entfernung zu einer Modellverteilung einfach zu berechnen. (Die KR-Distanz wäre etwas schwieriger zu berechnen, und die BL-Distanz wäre praktisch wahrscheinlich unmöglich.)
Meine Frage ist also (endlich), ob es andere praktische oder theoretische Gründe gibt, die Kolmogorov-Distanz (oder eine andere Distanz) für statistische Zwecke zu bevorzugen.
Antworten:
Kennzeichen,
Der Hauptgrund, den ich für die Verwendung von KS kenne, ist, dass er auf natürliche Weise aus Glivenko-Cantelli-Theoremen in univariaten empirischen Prozessen hervorgeht. Die eine Referenz, die ich empfehlen würde, ist AWvan der Vaart "Asymptotic Statistics", ch. 19. Eine weiter fortgeschrittene Monographie ist "Schwache Konvergenz und empirische Prozesse" von Wellner und van der Vaart.
Ich würde zwei kurze Notizen hinzufügen:
Ich entschuldige mich, wenn ich nicht genauer sein kann. Ich hoffe das hilft.
quelle
Computerprobleme sind das stärkste Argument, das ich je gehört habe. Der größte Vorteil der Kolmogorov-Distanz besteht darin, dass es sehr einfach ist, für so gut wie jede CDF eine Analyse durchzuführen. Die meisten anderen Distanzmetriken haben keinen Ausdruck in geschlossener Form, außer manchmal im Gaußschen Fall.
Der Kolmogorov-Abstand einer Stichprobe hat auch eine bekannte Stichprobenverteilung, da die CDF (ich glaube nicht, dass die meisten anderen dies tun) mit dem Wiener-Prozess zusammenhängt. Dies ist die Grundlage für den Kolmogorov-Smirnoff-Test zum Vergleichen einer Probe mit einer Verteilung oder zweier Proben miteinander.
In Bezug auf die Funktionsanalyse ist die Sup-Norm insofern von Vorteil, als sie (wie Sie bereits erwähnt haben) im Grunde eine einheitliche Konvergenz definiert. So bleibt Ihnen die Normkonvergenz erhalten, die eine punktuelle Konvergenz impliziert. Wenn Sie also gescheit sind, wie Sie Ihre Funktionssequenzen definieren, können Sie innerhalb eines RKHS arbeiten und alle nützlichen Tools verwenden, die dies ebenfalls bietet.
quelle
Zusammenfassend lautet meine Antwort: Wenn Sie einen expliziten Ausdruck haben oder einschätzen können, wie Ihre Entfernung gemessen wird (welche "Unterschiede" ergeben sich daraus), können Sie sagen, wofür es besser ist. Eine andere ergänzende Methode zur Analyse und zum Vergleich solcher Tests ist die Minimax-Theorie.
Am Ende wird ein Test für einige Alternativen und einige für andere gut sein. Für einen gegebenen Satz von Alternativen kann manchmal gezeigt werden, ob Ihr Test im schlimmsten Fall optimale Eigenschaften aufweist: Dies ist die Minimax-Theorie.
Ein paar Details
Daher können Sie über die Eigenschaften von zwei verschiedenen Tests anhand des Satzes von Alternativen, für die sie Minimax sind (sofern solche Alternativen existieren), dh (unter Verwendung des Wortes von Donoho und Jin) durch Vergleichen ihrer "optimalen Erkennungsgrenze" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Lass mich Distanz für Distanz gehen:
Der KS-Abstand wird erhalten, indem das höchste Differenzmaß zwischen empirischem cdf und cdf berechnet wird. Als Suppremum reagiert es sehr empfindlich auf lokale Alternativen (lokale Änderung im cdf), jedoch nicht auf globale Änderungen (zumindest die Verwendung des L2-Abstands zwischen cdf wäre weniger lokal (öffne ich eine offene Tür?)). Das Wichtigste ist jedoch, dass das cdf verwendet wird. Dies impliziert eine Asymetrie: Sie messen den Änderungen am Ende Ihrer Distribution mehr Bedeutung bei.
Wassertein-Metrik (was meinten Sie mit Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric ist allgegenwärtig und daher schwer zu vergleichen.
Um mich an den Kommentar zu erinnern und ihn zu erweitern, der die Antwort vervollständigt:
Ich weiß, dass Sie nicht erschöpfend sein wollten, aber Sie könnten Andersons Lieblingsstatistik hinzufügen (siehe http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Dies ließ mich an einen Artikel von Jager und Wellner erinnern (siehe http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ), der die Statistik von Anderson erweitert / verallgemeinert (und insbesondere einschließt) höhere Kritik an Tukey). Höhere Kritik erwies sich bereits als Minimax für eine Vielzahl von Alternativen, und das Gleiche tun Jäger und Wellner für ihre Erweiterung. Ich glaube nicht, dass die Minimax-Eigenschaft für den Kolmogorov-Test gezeigt wurde. Wie auch immer, wenn Sie wissen, für welche Art von Alternative Ihr Test Minimax ist, wissen Sie, wo seine Stärke liegt. Lesen Sie daher das obige Whitepaper.
quelle
Ich denke, man muss die theoretischen und die angewandten Vorteile der verschiedenen Begriffe von Distanz berücksichtigen. Mathematisch natürliche Objekte lassen sich nicht unbedingt gut in Anwendungen umsetzen. Kolmogorov-Smirnov ist für seine Anwendung am bekanntesten und hat sich in der Prüfung der Passgenauigkeit etabliert. Ich nehme an, dass einer der Gründe dafür ist, dass die Verteilung der Statistik unabhängig von ist, wenn die zugrunde liegende Verteilung stetig ist . Ein weiterer Grund ist, dass es leicht invertiert werden kann, um Konfidenzbänder für die CDF zu erhalten.FF F
Aber es wird oft anders verwendet, wenn von geschätzt wird und die Teststatistik die Form Das Interesse ist, zu sehen, wie gut zu den Daten passt und wie wirkt, obwohl die asymptotische Theorie nicht unbedingt zutrifft.F F^
quelle
Ich kann Ihnen keine zusätzlichen Gründe nennen, um den Kolmogorov-Smirnov-Test anzuwenden. Aber ich kann Ihnen einen wichtigen Grund nennen, es nicht zu benutzen. Es passt nicht gut zum Schwanz der Distribution. In dieser Hinsicht ist Anderson-Darling ein überlegener Verteilungsanpassungstest. Als Zweitbester ist der Chi-Quadrat-Test ziemlich gut. Beide sind dem KS-Test in dieser Hinsicht weit überlegen.
quelle
Unter dem Gesichtspunkt der Funktionsanalyse und der Maßtheorie definieren die Abstände vom Typ keine messbaren Mengen auf Funktionsräumen (unendlich dimensionale Räume verlieren abzählbares Additiv in den metrischen Ballhüllen). Dies disqualifiziert jede Art von messbarer Interpretation der Abstände von Wahl 2 und 3.Lp
Natürlich hat Kolomogorov, der viel heller war als jeder von uns, besonders ich selbst, dies vorausgesehen. Das clevere daran ist, dass während der Abstand im KS-Test von der Sorte , die einheitliche Norm selbst nicht verwendet wird, um die messbaren Mengen zu definieren. Vielmehr sind die Mengen Teil einer stochastischen Filterung auf die Unterschiede zwischen den bei den beobachteten Werten bewerteten Verteilungen; Das entspricht dem Stoppzeitproblem.L0
Kurz gesagt, der einheitliche Normabstand der Wahl 1 ist vorzuziehen, da der implizierte Test dem Stoppzeitproblem entspricht, das selbst rechnerisch nachvollziehbare Wahrscheinlichkeiten liefert. Wobei als Auswahl 2 & 3 keine messbaren Teilmengen von Funktionen definieren können.
quelle