BERT (modèle de langage)
En traitement automatique du langage naturel, BERT, acronyme anglais de Bidirectional Encoder Representations from Transformers, est un modèle de langage développé par Google en 2018. Cette méthode a permis d'améliorer significativement les performances en traitement automatique des langues[1].
Développé par | Google Research (d) |
---|---|
Première version | |
Dépôt | github.com/google-research/bert |
Taille des données | 110 000 000 paramètre et 340 000 000 paramètre |
Type |
Modèle de langage Modèle Transformer |
Licence | Licence Apache version 2.0 |
Site web | ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html |
Usage dans des applications
Le , Google annonce officiellement que BERT est désormais intégré à certains de ses services pour les entreprises (Cloud TPU, bibliothèque pour TensorFlow)[2] et que son déploiement s'effectuera les jours suivants, d'abord pour la langue anglaise, puis les autres. La firme de Mountain View qualifie ce changement de modification la plus importante apportée à l'algorithme Google depuis 5 ans, date à laquelle RankBrain avait été lancé.
La méthode a été adaptée à la langue française en 2019 avec les modèles CamemBERT[3] et FlauBERT[4]. CamemBERT a été pré-entraîné sur un corpus de 138Go de texte et FlauBERT sur un corpus de 71Go de texte.
Bibliographie
Voir aussi
Articles connexes
Liens externes
Notes et références
- Portail de l’informatique
- Portail de Google