Maximale mittlere Diskrepanz (Entfernungsverteilung)

Es könnte hilfreich sein, einen etwas besseren Überblick über MMD zu geben. $\DeclareMathOperator{\E}{\mathbb E}\newcommand{\R}{\mathbb R}\newcommand{\X}{\mathcal X}\newcommand{\h}{\mathcal H}\DeclareMathOperator{\MMD}{MMD}$

Im Allgemeinen wird MMD durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen . Das heißt, sagen wir haben Verteilungen und über einen Satz . Die MMD wird durch eine Feature-Map , wobei ein sogenannter Hilbert-Raum für den reproduzierenden Kernel ist. Im Allgemeinen ist die MMD $P$ $Q$ $\X$ $\varphi : \X \to \h$ $\mathcal H$

MMD (P, Q) = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} .

$\MMD(P, Q) = \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h .$

Als ein Beispiel könnten wir und . In diesem Fall: sodass diese MMD nur der Abstand zwischen den Mitteln der beiden Verteilungen ist. Übereinstimmende Verteilungen wie diese stimmen mit ihren Mitteln überein, obwohl sie sich in ihrer Varianz oder auf andere Weise unterscheiden können. $\X = \h = \R^d$ $\varphi(x) = x$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [X] - E_{Y \sim Q} [Y] ‖_{R^{d}} \\ = ‖ μ_{P} - μ_{Q} ‖_{R^{d}}, \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ X ] - \E_{Y \sim Q}[ Y ] \rVert_{\R^d} \\&= \lVert \mu_P - \mu_Q \rVert_{\R^d} ,\end{align}$

Ihr Fall ist etwas anders: Wir haben und mit , wobei eine Matrix ist. Wir haben also Diese MMD ist die Differenz zwischen zwei verschiedenen Projektionen des Mittelwerts. Wenn oder die Abbildung sonst nicht invertierbar ist, $\mathcal X = \mathbb R^d$ $\mathcal H = \mathbb R^p$ $\varphi(x) = A' x$ $A$ $d \times p$

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = ‖ E_{X \sim P} [A^{'} X] - E_{Y \sim Q} [A^{'} Y] ‖_{R^{p}} \\ = ‖ A^{'} E_{X \sim P} [X] - A^{'} E_{Y \sim Q} [Y] ‖_{R^{p}} \\ = ‖ A^{'} (μ_{P} - μ_{Q}) ‖_{R^{p}} . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[ \varphi(X) ] - \E_{Y \sim Q}[ \varphi(Y) ] \rVert_\h \\&= \lVert \E_{X \sim P}[ A' X ] - \E_{Y \sim Q}[ A' Y ] \rVert_{\R^p} \\&= \lVert A' \E_{X \sim P}[ X ] - A' \E_{Y \sim Q}[ Y ] \rVert_{\R^p} \\&= \lVert A'( \mu_P - \mu_Q ) \rVert_{\R^p} .\end{align}$

p < d

$p < d$

A^{'}

$A'$ als die vorherige: Es unterscheidet nicht zwischen einigen Distributionen, die die vorherige tut.

Sie können auch größere Entfernungen konstruieren. Wenn Sie beispielsweise und , wird die MMD zu und kann nicht nur Verteilungen mit unterschiedlichen Mitteln, sondern auch mit unterschiedlichen Varianzen unterscheiden. $\X = \R$ $\varphi(x) = (x, x^2)$ $\sqrt{(\E X - \E Y)^2 + (\E X^2 - \E Y^2)^2}$

Und Sie können viel stärker werden: Wenn einem allgemeinen reproduzierenden Kernel-Hilbert-Raum zugeordnet ist, können Sie den Kernel-Trick anwenden , um die MMD zu berechnen, und es stellt sich heraus, dass viele Kernel, einschließlich des Gaußschen Kernels, zur MMD führen Null sein, wenn und nur die Verteilungen identisch sind. $\varphi$

Wenn Sie , erhalten Sie das Sie mit Stichproben direkt schätzen können. $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_\h$

\begin{aligned} {MMD}^{2} (P, Q) & = ‖ E_{X \sim P} φ (X) - E_{Y \sim Q} φ (Y) ‖_{H}^{2} \\ = ⟨ E_{X \sim P} φ (X), E_{X^{'} \sim P} φ (X^{'}) ⟩_{H} + ⟨ E_{Y \sim Q} φ (Y), E_{Y^{'} \sim Q} φ (Y^{'}) ⟩_{H} - 2 ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩_{H} \\ = E_{X, X^{'} \sim P} k (X, X^{'}) + E_{Y, Y^{'} \sim Q} k (Y, Y^{'}) - 2 E_{X \sim P, Y \sim Q} k (X, Y) \end{aligned}

$\begin{align} \MMD^2(P, Q) &= \lVert \E_{X \sim P} \varphi(X) - \E_{Y \sim Q} \varphi(Y) \rVert_\h^2 \\&= \langle \E_{X \sim P} \varphi(X), \E_{X' \sim P} \varphi(X') \rangle_\h + \langle \E_{Y \sim Q} \varphi(Y), \E_{Y' \sim Q} \varphi(Y') \rangle_\h - 2 \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle_\h \\&= \E_{X, X' \sim P} k(X, X') + \E_{Y, Y' \sim Q} k(Y, Y') - 2 \E_{X \sim P, Y \sim Q} k(X, Y) \end{align}$

Update: Hier kommt das "Maximum" im Namen her.

Die Feature-Map wird in einen reproduzierenden Kernel-Hilbert-Raum abgebildet. Dies sind Funktionsräume , die eine Schlüsseleigenschaft erfüllen (die als Wiedergabeeigenschaft bezeichnet wird ): für jedes . $\varphi: \X \to \h$ $\langle f, \varphi(x) \rangle_\h = f(x)$ $f \in \h$

Im einfachsten Beispiel, mit , betrachten wir jedes als die Funktion, die einigen , durch . Dann sollte die Wiedergabeeigenschaft sinnvoll sein. $\X = \h = \R^d$ $\varphi(x) = x$ $f \in \h$ $w \in \R^d$ $f(x) = w' x$ $\langle f, \varphi(x) \rangle_\h = \langle w, x \rangle_{\R^d}$

In komplexeren Einstellungen wie einem Gaußschen Kernel ist eine viel kompliziertere Funktion, aber die Wiedergabeeigenschaft bleibt bestehen. $f$

Nun können wir eine alternative Charakterisierung der MMD geben: Die zweite Zeile ist eine allgemeine Tatsache über Normen in Hilbert-Räumen:

\begin{aligned} MMD (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} ⟨ f, E_{X \sim P} [φ (X)] ⟩_{H} - ⟨ f, E_{Y \sim Q} [φ (Y)] ⟩_{H} \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [⟨ f, φ (X) ⟩_{H}] - E_{Y \sim Q} [⟨ f, φ (Y) ⟩_{H}] \\ = sup_{f \in H : ‖ f ‖_{H} \leq 1} E_{X \sim P} [f (X)] - E_{Y \sim Q} [f (Y)] . \end{aligned}

$\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \langle f, \E_{X \sim P}[\varphi(X)] \rangle_\h - \langle f, \E_{Y \sim Q}[\varphi(Y)] \rangle_\h \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[\langle f, \varphi(X)\rangle_\h] - \E_{Y \sim Q}[\langle f, \varphi(Y) \rangle_\h] \\&= \sup_{f \in \h : \lVert f \rVert_\h \le 1} \E_{X \sim P}[f(X)] - \E_{Y \sim Q}[f(Y)] .\end{align}$

sup_{f : ‖ f ‖ \leq 1} ⟨ f, g ⟩_{H} = ‖ g ‖

$\sup_{f : \lVert f \rVert \le 1} \langle f, g \rangle_\h = \lVert g \rVert$ wird durch . Die vierte hängt von einer technischen Bedingung ab, die als Bochner-Integrierbarkeit bekannt ist, gilt jedoch z. B. für begrenzte Kernel oder Distributionen mit begrenzter Unterstützung. Am Ende verwenden wir dann die Wiedergabeeigenschaft.

f = g / ‖ g ‖

$f = g / \lVert g \rVert$

Diese letzte Zeile wird als "maximale mittlere Diskrepanz" bezeichnet - es ist das Maximum der mittleren Differenz zwischen den beiden Verteilungen über Testfunktionen in der Einheitskugel von . $f$ $\h$

Dougal
quelle

Vielen Dank für Ihre Erklärung, es wird für mich klarer; Trotzdem habe ich dieses Konzept nicht verstanden. Am Anfang sagten Sie: "MMD wird durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen." Warum wird diese Idee wahr?

Mahsa

"MMD wird durch die Idee definiert, Abstände zwischen Verteilungen als Abstände zwischen mittleren Einbettungen von Merkmalen darzustellen." Warum wird diese Idee wahr? Bezieht sie sich auf den RKHS-Raum?

Mahsa

Es ist nur eine Definition: Sie können Verteilungen vergleichen, indem Sie ihre Mittelwerte vergleichen. Oder Sie können Verteilungen vergleichen, indem Sie eine Transformation ihrer Mittelwerte vergleichen. oder durch Vergleichen ihrer Mittelwerte und Abweichungen; oder durch Vergleichen des Mittelwerts einer anderen Feature-Map, einschließlich einer in einer RKHS.

Dougal

Vielen Dank für Ihre Antwort; Ich werde mehr über die RKHS-Feature-Map lesen. Ich habe mich gefragt, warum die MMD-Entfernung in der RKHS-Feature-Map definiert ist. Ich meine, was ist der Vorteil von RKHS bei der Definition von MMD-Entfernungen?

Mahsa

Die Erklärung hier konzentriert sich auf die "mittlere Diskrepanz" im Gegensatz zur "maximalen mittleren Diskrepanz". Könnte jemand den Teil "Maximierung" näher erläutern?

Jiang Xiang

Maximale mittlere Diskrepanz (Entfernungsverteilung)

Antworten: