Temporal difference learning

Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle. Ces algorithmes échantillonnent l'environnement de manière aléatoire à la manière des méthodes de Monte Carlo. Ils mettent à jour la politique (i.e. les actions à prendre dans chaque état) en se basant sur les estimations actuelles, comme les méthodes de programmation dynamique[1]. Les méthodes TD ont un lien avec les modèles TD dans l'apprentissage animal[2]^,[3]^,[4]^,[5]^,[6].

Principe

Diagramme backup. Les algorithmes TD choisissent une action (le point), puis utilisent l'estimation de la valeur de l'état successeur (le cercle du bas) pour mettre à jour la valeur de l'état courant (le cercle du haut).

Alors que les méthodes de Monte Carlo ajustent leur estimations seulement lorsque l'issue finale est connue, les méthodes TD ajustent leurs estimations en se basant sur leurs prédictions[7]. C'est une forme de bootstrap qui peut être illustrée par l'exemple suivant provenant d'un article de Richard Sutton :

« Imaginez que chaque jour de la semaine, vous vouliez prédire s'il va pleuvoir samedi. L'approche conventionnelle serait de conserver ces résultats et de les comparer, le samedi, au temps qu'il fait vraiment afin de mettre à jour le modèle. Une approche TD serait de comparer chaque prédiction avec celle faite le jour suivant. Si la prédiction faite le lundi était de 50% de chance de pluie et celle de mardi de 75%, les méthodes TD vont augmenter les prédictions pour des cas similaires à celui de lundi[7]. »

Formulation mathématique

Donnons la formulation mathématique de la méthode tabulaire TD(0), l'une des méthodes TD les plus simples, qui estime la fonction de valeur d'un processus de décision markovien (PDM) selon une politique $\pi$ . Le PDM n'est pas utilisé par l'algorithme, notamment l'algorithme n'a pas accès aux probabilités ; c'est pourquoi on parle d'apprentissage par renforcement sans modèle.

Notations

Soit $V^{\pi }$ la fonction de valeur du PDM selon la politique $\pi$ . En tout état s, $V^{\pi }(s)$ est l'espérance des sommes récompenses obtenues avec un amortissement $\gamma$ , lorsque l'agent suit la politique $\pi$ depuis l'état s. Formellement, en notant $E_{\pi }\{...\}$ l'espérance lorsque l'agent suit la politique $\pi$ , la suite des états $s_{0},s_{1},s_{2},\dots$ , la suite des récompenses $r_{0},r_{1},r_{2},\dots$ et l'amortissement $\gamma$ , on a

V^{\pi }(s)=E_{\pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}r_{t}{\Bigg |}s_{0}=s\right\}

.

La fonction de valeur $V^{\pi }$ satisfait l'équation de Hamilton-Jacobi-Bellman :

V^{\pi }(s)=E_{\pi }\{r_{0}+\gamma V^{\pi }(s_{1})|s_{0}=s\},

donc $r_{0}+\gamma V^{\pi }(s_{1})$ est une estimation non-biaisée de $V^{\pi }(s)$ . Cette observation motive l'algorithme TD(0) pour estimer $V^{\pi }$ .

Description de l'algorithme

L'algorithme commence par initialiser un tableau $V$ arbitrairement, c'est-à-dire $V(s)$ est une valeur arbitraire pour chaque état $s$ du PDM. On choisit un taux d'apprentissage positif $\alpha$ .

On répète ensuite les opérations suivantes :

évaluer la politique $\pi$ en fonction du tableau $V$ courant
obtenir une récompense $r$
et mettre à jour la fonction pour l'ancien état en utilisant la règle[8] :

V(s)\leftarrow V(s)+\alpha (\overbrace {r+\gamma V(s')} ^{\text{Objectif TD}}-V(s))

où $s$ et $s'$ sont les ancien et nouvel états respectivement. La valeur $r+\gamma V(s')$ est appelée objectif TD.

Algorithmes

Voici une liste d'algorithmes TD :

Q-learning
Algorithme SARSA

Exemples d'applications

L'algorithme TD-Lambda, initialement développé par Richard S. Sutton[1] a été appliqué par Gerald Tesauro pour créer TD-Gammon, un programme qui a appris à jouer au backgammon à un niveau de joueur humain expert[9].

Algorithmes TD et neurosciences

Les algorithmes TD ont aussi reçu de l'attention en neurosciences. Des chercheurs ont souligné une similitude entre le taux de dopamine et la fonction d'erreur des algorithmes TD[2]^,[3]^,[4]^,[5]^,[6]. La fonction d'erreur fournit la différence entre la récompense estimée à une itération et la récompense réellement reçue.

Voir aussi

Références

Richard Sutton et Andrew Barto, Reinforcement Learning, MIT Press, 1998 (ISBN 978-0-585-02445-5, lire en ligne[archive du 30 mars 2017])
Schultz, W, Dayan, P & Montague, PR., « A neural substrate of prediction and reward », Science, vol. 275, n^o 5306,‎ 1997, p. 1593–1599 (PMID 9054347, DOI 10.1126/science.275.5306.1593)
P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, n^o 5,‎ 1^er mars 1996, p. 1936–1947 (ISSN 0270-6474, PMID 8774460, DOI 10.1523/JNEUROSCI.16-05-01936.1996)
P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5,‎ 1993, p. 969–976 (lire en ligne)
P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, n^o 1,‎ 1994, p. 1–33 (ISSN 1072-0502, PMID 10467583)
T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory,‎ 1995, p. 15–18 (DOI 10.1145/230000/225300/p15-sejnowski, lire en ligne)
Richard Sutton, « Learning to predict by the methods of temporal differences », Machine Learning, vol. 3, n^o 1,‎ 1988, p. 9–44 (DOI 10.1007/BF00115009) (Une version mise à jour est disponible sur la page de publication de Richard Sutton's « https://web.archive.org/web/20170330002227/http://incompleteideas.net/sutton/publications.html »^{(Archive • Wikiwix • Archive.is • Google • Que faire ?)}, 30 mars 2017)
Reinforcement learning : An introduction (lire en ligne[archive du 12 juillet 2017]), p. 130
Gerald Tesauro, « Temporal Difference Learning and TD-Gammon », Communications of the ACM, vol. 38, n^o 3,‎ mars 1995, p. 58–68 (DOI 10.1145/203330.203343, lire en ligne, consulté le 8 février 2010)

Portail des sciences

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[RSutton-1998-1] Richard Sutton et Andrew Barto, Reinforcement Learning, MIT Press, 1998 (ISBN 978-0-585-02445-5, lire en ligne[archive du 30 mars 2017])

[WSchultz-1997-2] Schultz, W, Dayan, P & Montague, PR., « A neural substrate of prediction and reward », Science, vol. 275, n^o 5306,‎ 1997, p. 1593–1599 (PMID 9054347, DOI 10.1126/science.275.5306.1593)

[:0-3] P. R. Montague, P. Dayan et T. J. Sejnowski, « A framework for mesencephalic dopamine systems based on predictive Hebbian learning », The Journal of Neuroscience, vol. 16, n^o 5,‎ 1^er mars 1996, p. 1936–1947 (ISSN 0270-6474, PMID 8774460, DOI 10.1523/JNEUROSCI.16-05-01936.1996)

[:1-4] P.R. Montague, P. Dayan, S.J. Nowlan, A. Pouget et T.J. Sejnowski, « Using aperiodic reinforcement for directed self-organization », Advances in Neural Information Processing Systems, vol. 5,‎ 1993, p. 969–976 (lire en ligne)

[:2-5] P. R. Montague et T. J. Sejnowski, « The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms », Learning & Memory, vol. 1, n^o 1,‎ 1994, p. 1–33 (ISSN 1072-0502, PMID 10467583)

[:3-6] T.J. Sejnowski, P. Dayan et P.R. Montague, « Predictive hebbian learning », Proceedings of Eighth ACM Conference on Computational Learning Theory,‎ 1995, p. 15–18 (DOI 10.1145/230000/225300/p15-sejnowski, lire en ligne)

[RSutton-1988-7] Richard Sutton, « Learning to predict by the methods of temporal differences », Machine Learning, vol. 3, n^o 1,‎ 1988, p. 9–44 (DOI 10.1007/BF00115009) (Une version mise à jour est disponible sur la page de publication de Richard Sutton's « https://web.archive.org/web/20170330002227/http://incompleteideas.net/sutton/publications.html »^{(Archive • Wikiwix • Archive.is • Google • Que faire ?)}, 30 mars 2017)

[8] Reinforcement learning : An introduction (lire en ligne[archive du 12 juillet 2017]), p. 130

[CACM-9] Gerald Tesauro, « Temporal Difference Learning and TD-Gammon », Communications of the ACM, vol. 38, n^o 3,‎ mars 1995, p. 58–68 (DOI 10.1145/203330.203343, lire en ligne, consulté le 8 février 2010)