Machine de Boltzmann restreinte

En apprentissage automatique, la machine de Boltzmann restreinte est un type de réseau de neurones artificiels pour l'apprentissage non supervisé. Elle est couramment utilisée pour avoir une estimation de la distribution probabiliste d'un jeu de données. Elle a initialement été inventée sous le nom de Harmonium en 1986 par Paul Smolenski.[1]

Description

Dans sa forme la plus simple, une machine de Boltzmann est composée d'une couche de neurones qui reçoit l'entrée, ainsi que d'une couche de neurones cachée. Si on suppose que les neurones d'une même couche sont indépendants entre eux, on appelle cette configuration une machine de Boltzmann restreinte (RBM).

Machine de Boltzmann Restreinte

On définit une énergie d'activation pour une Machine de Boltzmann Restreinte de la manière suivante:

$E=-\left(\sum _{i,j}w_{ij}\,x_{i}\,h_{j}+\sum _{i}b_{i}\,x_{i}+\sum _{j}c_{j}h_{j}\right)$

Avec:

$w_{ij}$ est le poids entre le neurone $j$ et le neurone $i$ ;
$x_{i}$ est l'état, $x_{i}\in \{0,1\}$ , du neurone visible $i$ ;
${\textstyle h_{j}}$ est l'état du neurone caché ${\textstyle j}$ ;
$b_{i}$ et $c_{j}$ sont respectivement les biais des neurones $x_{i}$ et $h_{j}$ .

La probabilité conjointe d'avoir une configuration $(x_{i},h_{j})$ est alors donnée par[2]

$P(x_{i},h_{j})=\exp(-E(x_{i},h_{j}))/Z$

Avec :

$E$ la fonction d'énergie définie ci-dessus ;
$Z$ une fonction de normalisation, qui fait en sorte que la somme de toutes les probabilités fasse 1.

Apprentissage

La machine de Boltzmann s’entraîne à l'aide d'un apprentissage non supervisé. On cherche à minimiser la log-vraisemblance. La dérivée de la log-vraisemblance donne l'expression suivante:

${\frac {\partial \left[-\log(p(x^{(t)}))\right]}{\partial \theta }}=\mathbb {E} _{h}\left[{\frac {\partial E(x^{(t)},h)}{\partial \theta }}|x^{(t)}\right]-\mathbb {E} _{x,y}\left[{\frac {\partial E(x,h)}{\partial \theta }}\right]$

Avec:

$\theta$ les variables du système (les poids ou le biais) ;
$\mathbb {E} _{x,y}$ l'espérance mathématiques sur les variables aléatoires $x$ et $y$ ;
$x^{(t)}$ une valeur du jeu de données ;
$E(x,h)$ l'énergie définie ci-dessus.

On remarque la présence de deux termes dans cette expression, appelés phase positive et phase négative. La phase positive se calcule aisément pour le biais et pour la matrice des poids.

On obtient alors[3]:

$\mathbb {E} _{h}\left[{\frac {\partial E(x^{(t)},h)}{\partial W_{ij}}}|x^{(t)}\right]=-h(x^{(t)})*{x^{(t)}}^{\mathsf {T}}$

Avec h(x) l'état de la couche cachée sachant x donnée par la formule

$h(x)=sigm(W*x+b)$

La partie la plus compliquée est de calculer ce qu'on appelle la phase négative. On ne peut pas la calculer directement car on ne connaît pas la fonction de normalisation du système. Pour pouvoir effectuer une descente de gradient, on calcule ce que l'on appelle la reconstruction de l'entrée $x^{(t)}$ . En effet, les propriétés de symétrie du système permettent de calculer l'entrée estimée par le modèle, il suffit d'appliquer la formule:

$x_{rec}=W^{\mathsf {T}}*h(x)+c$

avec $c$ le biais de la couche cachée de neurones $H$ .

De la même manière, on peut recalculer l'état de la couche cachée en réitérant le procédé. Finalement, on peut résumer l'algorithme de descente du gradient ainsi[4] (on parle de l'algorithme de Contrastive Divergence, couramment abrégé CD-k)

x <= x(t)
h <= W*x + b
phasePositive <= -h*Transpose(x)
Pour i allant de 1 à k:
    x = Transpose(W) * h(x) + c
    h = W*x + b
phaseNegative <= -h*transpose(x)
gradient <= phasePositive-phaseNegative
W <= W + alpha*gradient
c <= c + alpha*(x(t)-x)
b <= b + alpha*(h(x(t)) - h)

Extension

La machine de Boltzmann restreinte est en fait un cas particulier de Machine de Boltzmann où les neurones d'une même couche sont indépendants entre eux. Les calculs sont grandement facilités par cette approximation mais les résultats obtenus sont moins bons.

Articles connexes

Notes et références

(en) Paul Smolensky, David E. Rumelhart (dir.) et James L. McLelland (dir.), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations, MIT Press, 1986, 194–281 p. (ISBN 0-262-68053-X, lire en ligne), « Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory »
Ruslan Salakhutdinov et Geoffrey Hinton, « Deep Boltzmann Machines », dans AISTATS 2009, 2009 (lire en ligne).
http://image.diku.dk/igel/paper/AItRBM-proof.pdf
http://www.cs.toronto.edu/~tijmen/pcd/pcd.pdf

Portail des neurosciences
Portail des probabilités et de la statistique
Portail des données
Portail de l'informatique théorique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] (en) Paul Smolensky, David E. Rumelhart (dir.) et James L. McLelland (dir.), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations, MIT Press, 1986, 194–281 p. (ISBN 0-262-68053-X, lire en ligne), « Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory »

[2] Ruslan Salakhutdinov et Geoffrey Hinton, « Deep Boltzmann Machines », dans AISTATS 2009, 2009 (lire en ligne).

[3] ttp://image.diku.dk/igel/paper/AItRBM-proof.pdf

[4] ttp://www.cs.toronto.edu/~tijmen/pcd/pcd.pdf