Ich habe zwei Datensätze (Quell- und Zieldaten), die der unterschiedlichen Verteilung folgen. Ich verwende MMD - das ist eine nicht parametrische Entfernungsverteilung -, um die Randverteilung zwischen den Quell- und Zieldaten zu berechnen.
Quelldaten, Xs
Zieldaten, Xt
Anpassungsmatrix A.
* Projizierte Daten, Zs = A '* Xs und Zt = A' Xt
* MMD => Abstand (P (Xs), P (Xt)) = | Mittelwert (A'Xs) - Mittelwert (A ' Xt) |
Das heißt: Der Abstand der Verteilung zwischen den Quell- und Zieldaten im ursprünglichen Raum entspricht dem Abstand zwischen den Mitteln der projizierten Quell- und Zieldaten im eingebetteten Raum.
Ich habe eine Frage zum Konzept von MMD.
In der MMD-Formel: Warum können wir mit der Berechnung der Entfernung im latenten Raum die Entfernung der Verteilung im ursprünglichen Raum messen?
Vielen Dank
Antworten:
Es könnte hilfreich sein, einen etwas besseren Überblick über MMD zu geben.
Im Allgemeinen wird MMD durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen . Das heißt, sagen wir haben Verteilungen und über einen Satz . Die MMD wird durch eine Feature-Map , wobei ein sogenannter Hilbert-Raum für den reproduzierenden Kernel ist. Im Allgemeinen ist die MMDP Q X φ:X→H H MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Als ein Beispiel könnten wir und . In diesem Fall: sodass diese MMD nur der Abstand zwischen den Mitteln der beiden Verteilungen ist. Übereinstimmende Verteilungen wie diese stimmen mit ihren Mitteln überein, obwohl sie sich in ihrer Varianz oder auf andere Weise unterscheiden können.X=H=Rd φ(x)=x MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Ihr Fall ist etwas anders: Wir haben und mit , wobei eine Matrix ist. Wir haben also Diese MMD ist die Differenz zwischen zwei verschiedenen Projektionen des Mittelwerts. Wenn oder die Abbildung sonst nicht invertierbar ist,X=Rd H=Rp φ(x)=A′x A d×p MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp. p<d A′ als die vorherige: Es unterscheidet nicht zwischen einigen Distributionen, die die vorherige tut.
Sie können auch größere Entfernungen konstruieren. Wenn Sie beispielsweise und , wird die MMD zu und kann nicht nur Verteilungen mit unterschiedlichen Mitteln, sondern auch mit unterschiedlichen Varianzen unterscheiden.X=R φ(x)=(x,x2) (EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Und Sie können viel stärker werden: Wenn einem allgemeinen reproduzierenden Kernel-Hilbert-Raum zugeordnet ist, können Sie den Kernel-Trick anwenden , um die MMD zu berechnen, und es stellt sich heraus, dass viele Kernel, einschließlich des Gaußschen Kernels, zur MMD führen Null sein, wenn und nur die Verteilungen identisch sind.φ
Wenn Sie , erhalten Sie das Sie mit Stichproben direkt schätzen können.k(x,y)=⟨φ(x),φ(y)⟩H MMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Update: Hier kommt das "Maximum" im Namen her.
Die Feature-Map wird in einen reproduzierenden Kernel-Hilbert-Raum abgebildet. Dies sind Funktionsräume , die eine Schlüsseleigenschaft erfüllen (die als Wiedergabeeigenschaft bezeichnet wird ): für jedes .φ:X→H ⟨f,φ(x)⟩H=f(x) f∈H
Im einfachsten Beispiel, mit , betrachten wir jedes als die Funktion, die einigen , durch . Dann sollte die Wiedergabeeigenschaft sinnvoll sein.X=H=Rd φ(x)=x f∈H w∈Rd f(x)=w′x ⟨f,φ(x)⟩H=⟨w,x⟩Rd
In komplexeren Einstellungen wie einem Gaußschen Kernel ist eine viel kompliziertere Funktion, aber die Wiedergabeeigenschaft bleibt bestehen.f
Nun können wir eine alternative Charakterisierung der MMD geben: Die zweite Zeile ist eine allgemeine Tatsache über Normen in Hilbert-Räumen:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)]. supf:∥f∥≤1⟨f,g⟩H=∥g∥ wird durch . Die vierte hängt von einer technischen Bedingung ab, die als Bochner-Integrierbarkeit bekannt ist, gilt jedoch z. B. für begrenzte Kernel oder Distributionen mit begrenzter Unterstützung. Am Ende verwenden wir dann die Wiedergabeeigenschaft.f=g/∥g∥
Diese letzte Zeile wird als "maximale mittlere Diskrepanz" bezeichnet - es ist das Maximum der mittleren Differenz zwischen den beiden Verteilungen über Testfunktionen in der Einheitskugel von .f H
quelle
So habe ich MMD interpretiert. Zwei Verteilungen sind ähnlich, wenn ihre Momente ähnlich sind. Durch Anwenden eines Kernels kann ich die Variable so transformieren, dass alle Momente (erster, zweiter, dritter usw.) berechnet werden. Im latenten Raum kann ich den Unterschied zwischen den Momenten berechnen und mitteln. Dies gibt ein Maß für die Ähnlichkeit / Unähnlichkeit zwischen den Datensätzen.
quelle