BERT, le modèle de langue de référence pour les tâches de NLP
Sommaire
BERT, le modèle de langue créé par Google et devenu open source en 2018, est aujourd’hui considéré comme la base de nombreuses avancées en traitement automatique des langues. Qu’est-ce qui le distingue de ces prédécesseurs ?
BERT, le modèle de langue de référence pour les tâches de traitement automatique des langues
A l’ère des modèles pré-entraînés de plus en plus puissants, BERT, de par son architecture et son fonctionnement singulier, est un outil puissant à intégrer dans toutes sortes de solutions de traitement automatique des langues. Avec le modèle GPT (GPT‑3, ChatGPT), BERT est aujourd’hui à la tête d’avancées considérables en matière de deep learning et de modélisation du langage naturel. On lui attribue notamment d’excellentes performances en analyse de sentiments et en système de questions-réponses.
BERT : contexte et innovation
Avant BERT
Jusqu’à 2017, les modèles de réseaux neuronaux récurrents (RNN) permettaient d’obtenir les meilleures performances dans le domaine du deep learning. Les modèles RNN sont unidirectionnels, c’est-à-dire qu’ils analysent des séquences de mots de gauche à droite (ou bien de droite à gauche), mot par mot, en suivant leur ordre d’apparition dans le texte. Il est donc difficile pour ces modèles d’identifier les relations contextuelles entre les différents mots du texte, autrement dit, ils considèrent le texte morceau par morceau, plutôt que comme un ensemble d’entités interdépendantes.
En 2017, le modèle Transformer apparaît. C’est un modèle d’apprentissage profond (deep learning) qui s’appuie aussi sur des réseaux neuronaux mais dispose d’un mécanisme d’attention qui permet de prêter attention aux mots les plus importants de la phrase, de manière à pouvoir prédire le mot suivant. Il permet ainsi d’identifier des dépendances entre deux mots, même s’ils sont très éloignés, dans un même texte.
Cette architecture est aujourd’hui très utilisée dans le domaine du NLP, on retrouve d’ailleurs la liste de tous les modèles s’appuyant dessus sur le site d’HuggingFace. Contrairement aux modèles RNN, par exemple, cette architecture s’intéresse donc à la notion d’interdépendance entre les mots. Parmi les modèles reposant sur cette architecture, on peut notamment citer les deux principaux : BERT (Google) et GPT (OpenAI).
L’innovation apportée par BERT
BERT, qui est l’acronyme pour “Bidirectional Encoder Representations from Transformers”, est un modèle de langue pré-entraîné qui a la particularité d’être à la fois bidirectionnel et contextuel. Concrètement, contrairement aux modèles unidirectionnels, BERT va lire une séquence de mots dans les deux sens, de gauche à droite et de droite à gauche, de manière simultanée. Cela permet ainsi de saisir des tournures de phrases plus complexes, bien plus proches du langage humain.
Comme nous l’avons expliqué juste avant, le “T” de BERT fait référence à son architecture Transformer. Il dispose donc du mécanisme d’attention qui lui permet de faire une analyse contextuelle des mots. Ainsi, il a plus d’aisance à gérer les ambiguïtés et les termes polysémiques, grâce au contexte dans lequel ils apparaissent.
BERT : fonctionnement et caractéristiques techniques
Pré-entraînement
BERT a été pré-entraîné de manière non supervisée, c’est-à-dire que l’entraînement du modèle ne nécessitait pas de données labellisées. Cet entraînement portrait sur deux tâches spécifiques :
- la modélisation du langage masqué (Masked Language Modeling en anglais – MLM),
- la prédiction de la phrase suivante (Next Sentence Prediction – NSP).
Le MLM consiste à faire prédire au modèle des mots masqués à partir des autres mots de la phrase. La NSP consiste quant à elle à faire prédire au modèle la séquence de mots B qui suivra la séquence de mots A. Autrement dit, il s’agit de lui faire comprendre les dépendances qui existent entre des phrases qui se suivent.
Jeux de données et évaluations
Avec les deux tâches citées juste avant, BERT a obtenu de très bons résultats aux évaluations dédiées, ses résultats ont ainsi attiré l’attention des chercheurs et des entreprises en recherche d’un modèle très performant dans diverses tâches.
Il existe à ce jour plusieurs versions de BERT, entraînées sur différents types de corpus, avec plus ou moins de données, mais les deux principales sont les suivantes :
- BERT-base,
- BERT-large.
Le modèle BERT-base a été entraîné sur 800 millions de mots, des données non-labellisées issues de BookCorpus, un corpus constitué de livres libres de droits appartenant à 16 genres différents et écrits par des auteurs qui n’ont jamais été publiés.
Le modèle BERT-large a quant à lui été entraîné sur un corpus de 2,5 milliards de mots constitué à partir de tous les articles Wikipédia rédigés en anglais..
BERT : utilisation et potentiel
Fine-tuning
BERT est un modèle open source, disponible notamment sur le site HuggingFace qui met à disposition et tient à jour une grande liste de modèles et de jeux de données en tout genre, dans de nombreuses langues. Pour l’utiliser, il suffit de lancer le téléchargement du modèle, l’intégrer dans une solution de NLP, puis procéder à une phase de fine-tuning.
Le fine-tuning est une deuxième phase d’entraînement que l’on effectue à partir d’un modèle pré-entraîné. En d’autres termes, le modèle a d’abord été entraîné sur une très grande quantité de données génériques. A présent, on fige une partie des poids des couches du réseau neuronal pré-entraîné puis on y ajoute des couches supplémentaires (on ré-entraîne donc le modèle sur un corpus plus petit et plus ciblé, beaucoup moins générique que le précédent) pour permettre au modèle de réaliser des tâches spécifiques de NLP. Le fine-tuning fonctionne même avec un corpus contenant très peu de données, étant donné qu’il s’agit simplement d’un ré-entraînement complémentaire.
Les modèles dérivés de BERT
BERT sert aujourd’hui de référence en matière de modèles de langue.
On trouve ainsi de nombreux dérivés, parmi lesquels :
- RoBERTa, qui a des paramètres de pré-entraînement différents et un traitement plus rapide que BERT,
- CamemBERT, qui est basé sur RoBERTa mais entraîné sur un jeu de données de 138 Go exclusivement en français,
- FlauBERT, qui est lui aussi entraîné sur des données en français, mais avec un corpus de 71 Go seulement.
BERT est aussi utilisé par Google depuis fin 2019 pour son moteur de recherches afin d’optimiser de manière naturelle le référencement des sites web en fonction de leur contenu.
Conclusion
Comme nous avons pu le voir, le modèle de langue BERT a eu un impact considérable dans le domaine du traitement automatique des langues depuis sa sortie en open source en 2018 et il ne cesse d’être cité dans de nouveaux articles de recherches depuis lors. Il attire donc aussi bien l’attention des industriels que des chercheurs qui voient en lui un grand potentiel à résoudre de nombreuses problématiques de NLP de manière plus optimale, telles que l’analyse de sentiments, le référencement optimisé (SEO) ou encore les chatbots.