Bilan IA 2022 Partie 3 : repousser les limites des modèles linguistiques.

L’Intelligence Artificielle ouvre un champ des possibles incommensurable en termes d’évolution technologique, et 2022 fût une année propice à ces progrès. De l’outil de coding à l’outil artistique, ses nombreuses facettes ne cessent d’impressionner au fur-et-à-mesure que d’autres émergent. Notre doctorant Yasser Khalafaoui clôt cette rétrospective 2022 en nous évoquant un nouveau spectre de l’IA : les modèles linguistiques.

Pour résoudre les problèmes persistants de fiabilité, de partialité et de mise à jour, les chercheurs ont repoussé les limites des modèles linguistiques.

De nombreux laboratoires s’efforcent d’améliorer les grands modèles de langage en affinant les ensembles de données et les méthodes d’entraînement (y compris les méthodes qui ont entraîné un « Transformer » à traduire 1 000 langues). D’autres ont étendu les architectures de modèles pour effectuer des recherches sur le Web, consulter des documents externes et s’adapter aux nouvelles informations.

  • DeepMind a proposé RETRO « Retrieval Enhanced Transformer » au début de l’année 2022.  Ce modèle récupère des passages du jeu de données MassiveText et les incorpore dans son output. Avec ce modèle, DeepMind a choisi une approche différente des modèles de langage existants, qui se basent sur l’augmentation du nombre de paramètres et l’entraînement sur des données de plusieurs milliards de phrases et mots.

  • AI21 Labs a publié, au printemps dernier, son modèle intitulé MRKL « Modular Reasoning, Knowledge and Language » et son implémentation Jurassic-X. Jurassic-X n’est pas un modèle de langage au vrai sens du terme, comparé aux autres solutions (GPT3, ChatGPT, Atlas, etc.). Le modèle d’AI21 Labs connecte les modèles de langage existants à des bases de données externes publiques et privées qui contiennent des informations pertinentes pour un résultat donné, telles que des calculatrices en ligne, des convertisseurs de devises ou des bases de données externes publiques et privées. L’objectif de Jurassic-X est donc de permettre aux modèles de langage pré-entraînés de rester à jour avec le flux continu d’informations telles que le taux de change, les prévisions météos ou encore les informations sociétales et gouvernementales.

  • SERAC est un système développé par des chercheurs de Stanford et de l’École Polytechnique Fédérale de Lausanne qui met à jour les modèles de langage avec de nouvelles informations sans les réentraîner. Un système distinct stocke les nouvelles données et apprend à répondre aux requêtes liées à ces données.

  • OpenAI a amélioré son chatbot ChatGPT à la fin de l’année pour réduire les résultats non véridiques, biaisés ou nuisibles. Cette nouvelle version de ChatGPT, basée sur le modèle GPT-3 a été rendu publique en novembre dernier. Ce dernier a fait la une des journaux internationaux et continue à faire parler de lui. ChatGPT permet, entre autres, de répondre à vos questions, générer des templates d’e-mails, écrire des poèmes en utilisant le style de votre choix, générer du code, etc. Des humains ont évalué la qualité des données d’entraînement du modèle, puis un algorithme d’apprentissage par renforcement a récompensé le modèle pour avoir produit des résultats similaires à ceux qui avaient été bien évalués. Certains experts dans le domaine, pensent même que ce nouveau modèle d’OpenAI peut surpasser le moteur de recherche Google. Un professeur de l’université de Lyon s’est rendu compte que plus de 50% des copies d’examen ont été rédigées par ChatGPT.

Notre avis : Ces modèles de langage tels que ChatGPT, RETRO et autres ouvrent des opportunités sans fins. Toutefois, il faut se rendre à l’évidence. La majorité de ces modèles possèdent pas moins de 100 milliards de paramètres et se sont entraînés sur des quantités astronomiques de données. Bien qu’ils répondent correctement à la majorité des requêtes des utilisateurs, ces modèles ont juste appris à bien représenter les données en mémoire, et ne sont pas dotés d’une connaissance. Il serait intéressant pour la communauté scientifique de trouver un moyen de modéliser la connaissance humaine, cela permettra d’avoir des modèles compacts et très efficaces.

Sources : https://lastweekin.ai/p/200

https://www.deeplearning.ai/the-batch/issue-176/