Distance de Wasserstein

En mathématiques et plus particulièrement en théorie des probabilités et en statistiques, la distance de Wasserstein (ou distance de Kantorovich, ou distance de Kantorovich – Rubinstein) est une distance définie entre des mesures de probabilité sur un espace polonais.

Le nom « distance de Wasserstein » a été attribué par Roland Dobrushin en 1970, après avoir découvert cette distance dans les travaux du mathématicien russe Leonid Vaseršteĭn de 1969. Cependant, cette distance a été définie pour la première fois par Leonid Kantorovich dans The Mathematical Method of Production Planning and Organization en 1939 dans le cadre d'une planification optimale des transports de marchandises et de matériaux. Certains chercheurs encouragent ainsi l'utilisation du terme « distance de Kantorovich ». La plupart des publications en français et en anglais utilisent l'orthographe allemande « Wasserstein » (attribuée au nom « Vaseršteĭn » étant d'origine allemande).

Définition

Définition (distance de Wasserstein) — Soit $({\mathcal {X}},d)$ un espace polonais muni de sa tribu borélienne. Soit $p\in \left[0,+\infty \right[$ et $\mu ,\nu$ deux mesures de probabilités sur ${\mathcal {X}}$ . La distance de Wassertein d'ordre $p$ entre $\mu$ et $\nu$ est

W_{p}(\mu ,\nu ):=\left(\inf _{\pi \in \Pi (\mu ,\nu )}\int _{\mathcal {X}}d(x,y)^{p}d\pi (x,y)\right)^{1/p}

où $\Pi (\mu ,\nu )$ désigne l'ensemble des mesures de probabilités sur ${\mathcal {X}}\times {\mathcal {X}}$ dont les lois marginales sont $\mu$ et $\nu$ .

De manière équivalente, la distance de Wasserstein peut se définir de la manière suivante :

$W_{p}(\mu ,\nu )=\inf \left\{\left(\mathbb {E} \left[d(X,Y)^{p}\right]\right)^{1/p}\,;\,\mathbb {P} _{X}=\mu {\text{ et }}\mathbb {P} _{Y}=\nu \right\}$

où l'infimum est pris sur l'ensemble des couples de variables aléatoires (X, Y) tels que la loi de X est μ et la loi de Y est ν.

La distance de Wasserstein vérifie tous les axiomes d'une distance (symétrie, séparation et inégalité triangulaire) cependant elle peut prendre la valeur infinie. Il est donc courant de restreindre la distance de Wasserstein sur un ensemble où elle prend des valeurs finies.

Définition (espace de Wasserstein) — L'espace de Wasserstein d'ordre $p$ associé à ${\mathcal {X}}$ est défini comme suit

{\mathcal {P}}_{p}({\mathcal {X}}):=\left\{\mu \,;\,\mu {\text{ est une mesure de probabilité telle que }}\int _{\mathcal {X}}d(x_{0},x)^{p}d\nu (x)<\infty \right\}

où $x_{0}\in {\mathcal {X}}$ est arbitraire.

La définition de ${\mathcal {P}}_{p}({\mathcal {X}})$ ne dépend pas du choix de $x_{0}$ . La distance de Wasserstein restreinte à cet espace est finie dans le sens où pour toutes $\mu ,\nu \in {\mathcal {P}}_{p}({\mathcal {X}}),\,W_{p}(\mu ,\nu )<+\infty$ .

Intuition et lien avec le transport optimal

Deux lois unidimensionnelles

\mu

et

\nu

, tracées sur les axes x et y, et une loi jointe possible qui définit un plan de transport entre elles. La loi jointe n'est pas unique.

La distance de Wasserstein est liée au problème du transport optimal. Le problème consiste à transformer une mesure finie $\mu$ sur un espace ${\mathcal {X}}$ en une autre mesure finie $\nu$ sur le même espace. Il est fréquent et commode de visualiser les lois $\mu$ et $\nu$ comme deux tas de terre. Le but est alors de transformer le tas de terre $\mu$ en un tas de terre $\nu$ . Il faudra pour cela creuser par endroits et éventuellement boucher des trous avec la terre ainsi collectée. En raison de cette analogie, la distance de Wasserstein est parfois appelée, surtout en informatique, distance du terrassier ou encore distance du cantonnier (Earth mover's distance en anglais). Ce déplacement de terre doit se faire, idéalement, de manière optimale, c'est-à-dire, en déplaçant le moins de terre possible.

Ce problème n'a de sens que si la pile à créer $\nu$ a la même masse que la pile à déplacer $\mu$ . Il faut donc que $\mu$ et $\nu$ aient la même masse totale. Habituellement on suppose que ces mesures ont une masse totale de 1, ce qui revient à dire que ce sont des mesures de probabilité. Le cas général de mesures finies quelconques s'en déduit alors aisément.

Il reste à préciser ce que le terme « optimal » signifie exactement. Supposons que l'on ait accès à une fonction de coût

c(x,y)\mapsto [0,\infty )

qui donne le coût nécessaire au transport d'une unité de masse depuis le point $x$ jusqu'au point $y$ . Un plan de transport pour transformer $\mu$ en $\nu$ peut être décrit par une fonction $\pi (x,y)$ qui donne la quantité de masse à déplacer de $x$ vers $y$ . Pour que ce plan soit significatif, il doit satisfaire les deux égalités suivantes

{\begin{aligned}\int \pi (x,y)\,\mathrm {d} y=\mu (x)&\qquad {\text{(la quantité de terre déplacée du point }}x{\text{ doit valoir la quantité de terre initiale en ce point)}}\\\int \pi (x,y)\,\mathrm {d} x=\nu (y)&\qquad {\text{(la quantité de terre amenée au point }}y{\text{ doit valoir la quantité finale souhaitée de terre en ce point)}}\end{aligned}}

C'est-à-dire que la masse totale déplacée d'un voisinage infinitésimal autour de $x$ doit être égal à $\mu (x)\mathrm {d} x$ et la masse totale amenée vers un voisinage infinitésimal autour de $y$ doit être égal à $\nu (y)\mathrm {d} y$ . Cela équivaut à exiger que $\pi$ soit une loi de probabilité jointe avec des marginales $\mu$ et $\nu$ . Ainsi, la masse infinitésimale transportée de $x$ à $y$ est $\pi (x,y)\,\mathrm {d} x\,\mathrm {d} y$ , et le coût de ce déplacement est $c(x,y)\pi (x,y)\,\mathrm {d} x\,\mathrm {d} y$ . Par conséquent, le coût total d'un plan de transport $\pi$ est

\iint c(x,y)\pi (x,y)\,\mathrm {d} x\,\mathrm {d} y=\int c(x,y)\,\mathrm {d} \pi (x,y)

.

Le plan de transport $\pi$ n'est pas unique. Le but est de trouver un plan de transport optimal, c'est-à-dire, qui minimiserait le coût total donné par la formule ci-dessus. Cette discussion conduit donc naturellement à définir la quantité suivante

C=\inf _{\pi \in \Pi (\mu ,\nu )}\int c(x,y)\,\mathrm {d} \pi (x,y)

où $\Pi (\mu ,\nu )$ est l'ensemble des lois jointes dont les marginales sont $\mu$ et $\nu$ . Si la fonction de coût entre deux points est simplement la distance entre ceux-ci, alors le coût optimal est identique à la définition de la distance de Wasserstein de premier ordre $W_{1}$ .

Exemples

Masses ponctuelles

Si $\mu _{1}=\delta _{a_{1}}$ et $\mu _{2}=\delta _{a_{2}}$ sont deux masses ponctuelles (c'est-à-dire des mesures de Dirac) situées aux points $a_{1}$ et $a_{2}$ dans $\mathbb {R}$ . Il n'y a qu'un seul couplage possible de ces deux mesures, à savoir la masse ponctuelle $\delta _{(a_{1},a_{2})}$ situé en $(a_{1},a_{2})\in \mathbb {R} ^{2}$ . Ainsi, en utilisant la distance induite par la valeur absolue comme distance sur $\mathbb {R}$ , pour tout $p\geq 1$ , la distance de Wasserstein d'ordre p entre $\mu _{1}$ et $\mu _{2}$ est

W_{p}(\mu _{1},\mu _{2})=|a_{1}-a_{2}|

.

De même si $\mu _{1}=\delta _{a_{1}}$ et $\mu _{2}=\delta _{a_{2}}$ sont des masses ponctuelles situées aux points $a_{1}$ et $a_{2}$ dans $\mathbb {R} ^{n}$ , et si $\mathbb {R} ^{n}$ est muni de la norme euclidienne, alors

W_{p}(\mu _{1},\mu _{2})=\|a_{1}-a_{2}\|_{2}.

Lois normales

Soit $\mu _{1}={\mathcal {N}}(m_{1},C_{1})$ et $\mu _{2}={\mathcal {N}}(m_{2},C_{2})$ deux lois normales sur $\mathbb {R} ^{n}$ , de moyennes respectives $m_{1}$ et $m_{2}\in \mathbb {R} ^{n}$ et de matrices de variance-covariance $C_{1}$ et $C_{2}\in \mathbb {R} ^{n\times n}$ . Alors[1], par rapport à la norme euclidienne usuelle sur $\mathbb {R} ^{n}$ , la distance de Wasserstein d'ordre 2 entre $\mu _{1}$ et $\mu _{2}$ est

W_{2}(\mu _{1},\mu _{2})^{2}=\|m_{1}-m_{2}\|_{2}^{2}+\operatorname {Tr} {\bigl (}C_{1}+C_{2}-2{\bigl (}C_{2}^{1/2}C_{1}C_{2}^{1/2}{\bigr )}^{1/2}{\bigr )}.

où Tr désigne la trace d'une matrice.

Applications

La distance de Wasserstein est un moyen naturel de comparer les lois de deux variables aléatoires X et Y, où une variable est dérivée de l'autre par de petites perturbations non uniformes (aléatoires ou déterministes).

En informatique par exemple, la distance W₁ est largement utilisée pour comparer des lois discrètes, par exemple, les histogrammes de couleurs de deux images numériques.

Dans leur article Generative Adversarial Networks, Arjovsky et alii[2] utilise la distance de Wasserstein d'ordre 1 dans le cadre de réseaux antagonistes génératifs.

La distance de Wasserstein a un lien avec l'analyse procustéenne, avec une application aux mesures de chiralité[3] et à l'analyse de forme[4].

Propriétés

Structure métrique

La distance $W_{p}$ satisfait tous les axiomes d'une distance sur ${\mathcal {P}}_{p}({\mathcal {X}})$ . De plus, la convergence pour cette distance est équivalente à la convergence faible de mesures plus la convergence des premiers p ième moments[5].

Représentation duale de W₁

La représentation duale suivante de W₁ est un cas particulier du théorème de dualité de Kantorovich et Rubinstein (1958) : si μ et ν ont un support borné, alors

W_{1}(\mu ,\nu )=\sup \left\{\int _{\mathcal {X}}f(x)\,\mathrm {d} (\mu -\nu )(x)\,;\,f:{\mathcal {X}}\to \mathbb {R} {\text{ continue et }}\operatorname {Lip} (f)\leq 1\right\}

où Lip(f) désigne la constante de Lipschitz minimale de f.

Il existe une ressemblance avec la distance de Radon :

\rho (\mu ,\nu ):=\sup \left\{\int _{\mathcal {X}}f(x)\,\mathrm {d} (\mu -\nu )(x)\,;\,f:{\mathcal {X}}\to [-1,1]{\text{ continue}}\right\}

Si la distance d est bornée par une constante C, alors

2W_{1}(\mu ,\nu )\leq C\rho (\mu ,\nu )

et ainsi la convergence pour la distance de Radon (identique à la convergence en variation totale lorsque ${\mathcal {X}}$ est un espace polonais) implique la convergence pour la distance de Wasserstein, mais pas l'inverse.

Équivalence entre W₂ et une norme de Sobolev d'ordre négatif

Sous des hypothèses appropriées, la distance de Wasserstein $W_{2}$ d'ordre deux est Lipschitz équivalente à une norme de Sobolev homogène d'ordre négatif[6] . Plus précisément, si ${\mathcal {X}}$ est une variété riemannienne connexe munie d'une mesure positive $\pi$ , alors on peut définir pour $f\,\colon {\mathcal {X}}\to \mathbb {R}$ la semi-norme

\|f\|_{{\dot {H}}^{1}(\pi )}^{2}=\int |\nabla f(x)|^{2}\,\mathrm {d} \pi

et pour une mesure signée $\mu$ sur ${\mathcal {X}}$ la norme duale

\|\mu \|_{{\dot {H}}^{-1}(\pi )}=\sup {\bigg \{}|\langle f,\mu \rangle |\,;\,\|f\|_{{\dot {H}}^{1}(\pi )}\leq 1{\bigg \}}.

Alors deux mesures de probabilité $\mu$ et $\nu$ sur ${\mathcal {X}}$ satisfont l'inegalité

W_{2}(\mu ,\nu )\leq 2\|\mu -\nu \|_{{\dot {H}}^{-1}(\mu )}.

Inversement, si $\mu$ et $\nu$ ont chacune des densités par rapport à la mesure de volume standard sur ${\mathcal {X}}$ qui sont tous deux délimités au-dessus d'un certain $0<C<\infty$ , et si ${\mathcal {X}}$ a une courbure de Ricci non négative, alors

\|\mu -\nu \|_{{\dot {H}}^{-1}(\mu )}\leq {\sqrt {C}}\,W_{2}(\mu ,\nu ).

Séparabilité et complétude

Pour tout $p\geq 1$ , l'espace métrique $({\mathcal {P}}_{p}({\mathcal {X}}),W_{p})$ est séparable, et est complet si $({\mathcal {X}},d)$ est séparable et complet[7].

Voir également

Distance de Lévy
Distance de Lévy-Prokhorov
Distance en variation totale (probabilités)
Théorie du transport

Références

Olkin, I. and Pukelsheim, F., « The distance between two random vectors with given dispersion matrices », Linear Algebra Appl., vol. 48,‎ 1982, p. 257–263 (ISSN 0024-3795, DOI 10.1016/0024-3795(82)90112-4)
Martin Arjovsky, Soumith Chintala et Léon Bottou, « Wasserstein Generative Adversarial Networks », ICML,‎ 2017 (lire en ligne)
Petitjean, M., « Chiral mixtures », Journal of Mathematical Physics, vol. 43, n^o 8,‎ 2002, p. 4147–4157 (DOI 10.1063/1.1484559, lire en ligne)
Petitjean, M., « From shape similarity to shape complementarity: toward a docking theory », Journal of Mathematical Chemistry, vol. 35, n^o 3,‎ 2004, p. 147–158 (DOI 10.1023/B:JOMC.0000033252.59423.6b)
Clement et Desch, « An elementary proof of the triangle inequality for the Wasserstein metric », Proceedings of the American Mathematical Society, vol. 136,‎ 2008, p. 333–339 (DOI 10.1090/S0002-9939-07-09020-X, lire en ligne )
Peyre, « Comparison between W₂ distance and Ḣ⁻¹ norm, and localization of Wasserstein distance », ESAIM Control Optim. Calc. Var., vol. 24, n^o 4,‎ 2018, p. 1489–1501 (ISSN 1292-8119, DOI 10.1051/cocv/2017050) (See Theorems 2.1 and 2.5.)
Bogachev et Kolesnikov, A.V., « The Monge–Kantorovich problem: achievements, connections, and perspectives », Russian Math. Surveys, vol. 67, n^o 5,‎ 2012, p. 785–890 (DOI 10.1070/RM2012v067n05ABEH004808)

Liens externes

« What is the advantages of Wasserstein metric compared to Kullback–Leibler divergence? », Stack Exchange, 1^er août 2017

Portail des mathématiques

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] Olkin, I. and Pukelsheim, F., « The distance between two random vectors with given dispersion matrices », Linear Algebra Appl., vol. 48,‎ 1982, p. 257–263 (ISSN 0024-3795, DOI 10.1016/0024-3795(82)90112-4)

[2] Martin Arjovsky, Soumith Chintala et Léon Bottou, « Wasserstein Generative Adversarial Networks », ICML,‎ 2017 (lire en ligne)

[3] Petitjean, M., « Chiral mixtures », Journal of Mathematical Physics, vol. 43, n^o 8,‎ 2002, p. 4147–4157 (DOI 10.1063/1.1484559, lire en ligne)

[4] Petitjean, M., « From shape similarity to shape complementarity: toward a docking theory », Journal of Mathematical Chemistry, vol. 35, n^o 3,‎ 2004, p. 147–158 (DOI 10.1023/B:JOMC.0000033252.59423.6b)

[5] Clement et Desch, « An elementary proof of the triangle inequality for the Wasserstein metric », Proceedings of the American Mathematical Society, vol. 136,‎ 2008, p. 333–339 (DOI 10.1090/S0002-9939-07-09020-X, lire en ligne )

[6] Peyre, « Comparison between W₂ distance and Ḣ⁻¹ norm, and localization of Wasserstein distance », ESAIM Control Optim. Calc. Var., vol. 24, n^o 4,‎ 2018, p. 1489–1501 (ISSN 1292-8119, DOI 10.1051/cocv/2017050) (See Theorems 2.1 and 2.5.)

[7] Bogachev et Kolesnikov, A.V., « The Monge–Kantorovich problem: achievements, connections, and perspectives », Russian Math. Surveys, vol. 67, n^o 5,‎ 2012, p. 785–890 (DOI 10.1070/RM2012v067n05ABEH004808)