IA Conversationnelle : quels outils choisir ?

En termes de technologie, l’Intelligence Artificielle Conversationnelle offre des possibilités diverses dans sa mise en œuvre. On distingue deux grandes catégories d’outils conversationnels : les outils « embarqués » et les outils « en ligne ». Le choix des outils embarqués versus les outils en ligne se fait en prenant en compte l’usage, l’environnement et bien sûr le niveau de connectivité nécessaire à la réalisation des tâches. Notre Responsable Innovation et R&D nous aide à y voir plus clair pour choisir l’outil le plus adapté à chaque usage.

Conversationnel embarqué ou « en ligne » ?

Les IA conversationnelles embarquées

Les Intelligences Artificielles conversationnelles embarquées fonctionnent hors ligne, ou en mode « déconnecté », c’est-à-dire sans besoin de connectivité Internet. Elles offrent une très grande réactivité de réponse, principalement sur un périmètre de connaissance restreint (un domaine bien défini couplé à des mots clés métier). Cela s’explique par le fait de devoir fonctionner localement et de stocker la « grammaire » sur une ressource limitée (la base de données linguistique à disposition tant en compréhension qu’en production). Ce fonctionnement a l’avantage de traiter les données et d’interagir en local pour une sécurité et confidentialité accrues.

On retrouve ici de nombreux outils de transcription de la voix (« Speech-to-Text », « Automatic Speech Recognition »), ou de synthèse vocale (« Text-to-Speech », « Speech Synthesis »), typiquement fournis sous la forme de SDK à intégrer dans une application mobile sur smartphone ou sur un objet connecté quel qu’il soit (enceinte, lunettes, casque, voiture, électroménager etc). Des outils tels que Snips (désormais Sonos) ou Vivoka et Cerence sont leaders de ce marché.

Ce type d’IA est principalement utilisé en mobilité, dans le secteur automobile (les assistants virtuels des voitures), plutôt que dans les secteurs industriels ou logistiques ne permettant pas de garantir une connectivité pérenne sur les sites d’intervention. Dans ces secteurs, de nombreux cas d’usages existent autour de prise de notes vocales mains-libres sur ligne de production, lors de visites communes préalables aux plans de prévention, ou encore pour du picking en entrepôt etc.

Dans ce domaine Alteca a développé une solution née de sa R&D interne permettant de guider vocalement un technicien de maintenance en intervention durant ses tâches pour garantir la bonne exécution du protocole en réceptionnant ses informations sans erreur et mains-libres.

Un point d’attention particulier doit être apporté dans ces cas à l’environnement sonore (et/ou visuel), pour faciliter la compréhension de la machine, soit mécaniquement par un équipement isolant, soit d’un point de vue électronique par un micro/casque ou une caméra adaptée au contexte.

Par extension, l’ « edge computing » permet également de fournir ce type de service bien que ce type d’équipement soit plus rarement en interface immédiate avec l’utilisateur. Les bornes automatiques d’accueil, de vente ou de service peuvent proposer une interface vocale et/ou vidéo à l’utilisateur qui embarque un dispositif « edge ». L’avantage de cette approche, qui nécessite typiquement un ordinateur plus volumineux qu’un simple smartphone ou chip dédié, réside également dans le framework associé de gestion de parc et de mise à jour à distance, simplifiant de fait le déploiement et la gestion opérationnelle en conservant un control plane centralisé dans le cloud. Des technologies telles que Azure IoT Edge / Percept ou Nutanix Xi IoT / Karbon Platform Services – au-delà de leurs noms peu évocateurs de l’IA – sont appropriées pour déployer à l’échelle des solutions d’IA conversationnelles embarquées « at the edge ».

Les IA conversationnelles en ligne

Si les outils embarqués sont destinés principalement à échanger avec un utilisateur à la fois, dans le cadre d’une action locale, les outils d’IA conversationnelle en ligne sont eux principalement destinés à un usage centralisé, traditionnellement associé à un service client mono ou multi-canal. Cela peut être pour un helpdesk, un service après-vente, voire pour automatiser des campagnes push marketing ou des enquêtes statistiques.

Historiquement, les services clients « interactifs » – excluant donc l’envoi de courriers ou mails qui sont traités en différé – ont été assurés par des centres d’appels permettant une réponse immédiate par un opérateur (en fonction de la demande, du protocole, de l’affluence et des horaires d’ouverture). Les limites de ce type de service – et sa scalabilité – sont connus de tous, quand bien même ils permettent un contact humain utile dans les contextes les plus délicats.

Ces mêmes limites, couplées à l’avènement d’Internet et des smartphones depuis plus de 10 ans, ont vu se multiplier d’autres canaux conversationnels tout aussi interactifs, voire préférés des utilisateurs, notamment sous la forme de messagerie instantanée. Le texte permet une forme d’anonymat, de solennel (même dans les canaux informels) qui pourrait être trahi par la voix. Il se prête également davantage à l’asynchrone (quel que soit le canal) et à d’autres activités en parallèle (évitez en conduisant ;-)).

Dans ce contexte, nombreuses sont les solutions proposant aujourd’hui des « chatbots », robots IA remplaçant un opérateur échangeant en « chat » textuel avec son client. Le marché est très vaste, des principaux éditeurs mondiaux fournissant des frameworks ou APIs de traitement du langage sur lesquels créer un « bot » totalement personnalisé, aux start-ups proposant un bot plug’n play verticalisé sur un secteur spécifique (l’accueil des visiteurs, l’onboarding des nouveaux employés, le logement etc).

Cette automatisation ne date pas d’Internet : les « répondeurs » ou SVI (Serveurs Vocaux Interactifs) nous ont habitué à taper (voire prononcer) un ou plusieurs chiffres pour fournir du self-care vocal, parfois disponible 24/7, mais très souvent limité dans ses capacités d’évolution et dans les cas d’usages adressables au-delà d’une simple demande de renseignement prédéfinie (les FAQ d’aujourd’hui) ou d’orientation vers l’opérateur compétent.

Les progrès de l’IA et notamment du traitement du langage de ces dernières années ont permis deux évolutions majeures :

Fusionner les mondes du texte et de la voix pour offrir une expérience multicanale voire cross-canal aux utilisateurs en augmentant l’accessibilité, la disponibilité et la scalabilité des plateformes

Faciliter l’évolution de l’intelligence du robot par apprentissages successifs (assistés ou automatiques) lui permettant une meilleure compréhension des demandes en langage naturel « ouvert », un spectre de connaissance dynamique et une interaction plus fluide et plus « humaine ».

Des technologies en évolution

Plus récemment, de nouvelles évolutions de l’IA conversationnelle voient le jour autour de la vidéo, soit dans une optique d’analyse vidéo automatique en temps réel (de l’interlocuteur ou de la scène filmée pour faciliter un dépannage par exemple), soit pour la génération d’avatars ou l’animation de visages grâce aux GANs (Generative Adversarial Networks).

L’objectif est toujours le même : favoriser l’acceptation de la machine et fluidifier les interactions pour augmenter la satisfaction utilisateur in fine.