Maximale mittlere Diskrepanz (Entfernungsverteilung)

13

Ich habe zwei Datensätze (Quell- und Zieldaten), die der unterschiedlichen Verteilung folgen. Ich verwende MMD - das ist eine nicht parametrische Entfernungsverteilung -, um die Randverteilung zwischen den Quell- und Zieldaten zu berechnen.

Quelldaten, Xs

Zieldaten, Xt

Anpassungsmatrix A.

* Projizierte Daten, Zs = A '* Xs und Zt = A' Xt

* MMD => Abstand (P (Xs), P (Xt)) = | Mittelwert (A'Xs) - Mittelwert (A ' Xt) |

Das heißt: Der Abstand der Verteilung zwischen den Quell- und Zieldaten im ursprünglichen Raum entspricht dem Abstand zwischen den Mitteln der projizierten Quell- und Zieldaten im eingebetteten Raum.

Ich habe eine Frage zum Konzept von MMD.

In der MMD-Formel: Warum können wir mit der Berechnung der Entfernung im latenten Raum die Entfernung der Verteilung im ursprünglichen Raum messen?

Vielen Dank

Mahsa
quelle
Sie haben noch keine Frage gestellt: Sie haben uns nur gesagt, dass Sie verwirrt sind!
whuber

Antworten:

39

Es könnte hilfreich sein, einen etwas besseren Überblick über MMD zu geben.

Im Allgemeinen wird MMD durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen . Das heißt, sagen wir haben Verteilungen und über einen Satz . Die MMD wird durch eine Feature-Map , wobei ein sogenannter Hilbert-Raum für den reproduzierenden Kernel ist. Im Allgemeinen ist die MMD PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Als ein Beispiel könnten wir und . In diesem Fall: sodass diese MMD nur der Abstand zwischen den Mitteln der beiden Verteilungen ist. Übereinstimmende Verteilungen wie diese stimmen mit ihren Mitteln überein, obwohl sie sich in ihrer Varianz oder auf andere Weise unterscheiden können.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Ihr Fall ist etwas anders: Wir haben und mit , wobei eine Matrix ist. Wir haben also Diese MMD ist die Differenz zwischen zwei verschiedenen Projektionen des Mittelwerts. Wenn oder die Abbildung sonst nicht invertierbar ist,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA als die vorherige: Es unterscheidet nicht zwischen einigen Distributionen, die die vorherige tut.

Sie können auch größere Entfernungen konstruieren. Wenn Sie beispielsweise und , wird die MMD zu und kann nicht nur Verteilungen mit unterschiedlichen Mitteln, sondern auch mit unterschiedlichen Varianzen unterscheiden.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Und Sie können viel stärker werden: Wenn einem allgemeinen reproduzierenden Kernel-Hilbert-Raum zugeordnet ist, können Sie den Kernel-Trick anwenden , um die MMD zu berechnen, und es stellt sich heraus, dass viele Kernel, einschließlich des Gaußschen Kernels, zur MMD führen Null sein, wenn und nur die Verteilungen identisch sind.φ

Wenn Sie , erhalten Sie das Sie mit Stichproben direkt schätzen können.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Update: Hier kommt das "Maximum" im Namen her.

Die Feature-Map wird in einen reproduzierenden Kernel-Hilbert-Raum abgebildet. Dies sind Funktionsräume , die eine Schlüsseleigenschaft erfüllen (die als Wiedergabeeigenschaft bezeichnet wird ): für jedes .φ:XHf,φ(x)H=f(x)fH

Im einfachsten Beispiel, mit , betrachten wir jedes als die Funktion, die einigen , durch . Dann sollte die Wiedergabeeigenschaft sinnvoll sein.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

In komplexeren Einstellungen wie einem Gaußschen Kernel ist eine viel kompliziertere Funktion, aber die Wiedergabeeigenschaft bleibt bestehen.f

Nun können wir eine alternative Charakterisierung der MMD geben: Die zweite Zeile ist eine allgemeine Tatsache über Normen in Hilbert-Räumen:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g wird durch . Die vierte hängt von einer technischen Bedingung ab, die als Bochner-Integrierbarkeit bekannt ist, gilt jedoch z. B. für begrenzte Kernel oder Distributionen mit begrenzter Unterstützung. Am Ende verwenden wir dann die Wiedergabeeigenschaft.f=g/g

Diese letzte Zeile wird als "maximale mittlere Diskrepanz" bezeichnet - es ist das Maximum der mittleren Differenz zwischen den beiden Verteilungen über Testfunktionen in der Einheitskugel von .fH

Dougal
quelle
Vielen Dank für Ihre Erklärung, es wird für mich klarer; Trotzdem habe ich dieses Konzept nicht verstanden. Am Anfang sagten Sie: "MMD wird durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen." Warum wird diese Idee wahr?
Mahsa
"MMD wird durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen." Warum wird diese Idee wahr? Bezieht sie sich auf den RKHS-Raum?
Mahsa
1
Es ist nur eine Definition: Sie können Verteilungen vergleichen, indem Sie ihre Mittelwerte vergleichen. Oder Sie können Verteilungen vergleichen, indem Sie eine Transformation ihrer Mittelwerte vergleichen. oder durch Vergleichen ihrer Mittelwerte und Abweichungen; oder durch Vergleichen des Mittelwerts einer anderen Feature-Map, einschließlich einer in einer RKHS.
Dougal
Vielen Dank für Ihre Antwort; Ich werde mehr über die RKHS-Feature-Map lesen. Ich habe mich gefragt, warum die MMD-Entfernung in der RKHS-Feature-Map definiert ist. Ich meine, was ist der Vorteil von RKHS bei der Definition von MMD-Entfernungen?
Mahsa
Die Erklärung hier konzentriert sich auf die "mittlere Diskrepanz" im Gegensatz zur "maximalen mittleren Diskrepanz". Könnte jemand den Teil "Maximierung" näher erläutern?
Jiang Xiang
4

So habe ich MMD interpretiert. Zwei Verteilungen sind ähnlich, wenn ihre Momente ähnlich sind. Durch Anwenden eines Kernels kann ich die Variable so transformieren, dass alle Momente (erster, zweiter, dritter usw.) berechnet werden. Im latenten Raum kann ich den Unterschied zwischen den Momenten berechnen und mitteln. Dies gibt ein Maß für die Ähnlichkeit / Unähnlichkeit zwischen den Datensätzen.

rsambasivan
quelle