Rencontre avec Richard Dufour, nouveau Responsable Scientifique pour CAPACITÉS
Installés dans les locaux du LS2N (sur le campus de la Lombarderie de Nantes Université), nos ingénieurs en Data Science travaillent quotidiennement avec les chercheurs du laboratoire, et plus particulièrement avec l’équipe TALN (Traitement Automatique du Langage Naturel).
UMR de l’Université de Nantes, de Centrale Nantes, de l’IMT Atlantique, du CNRS et de l’Inria, le Laboratoire des Sciences du Numérique de Nantes (LS2N) a été créé en janvier 2017 afin de répondre à l’ambition de faire progresser significativement la visibilité de la recherche en sciences du numérique à Nantes.

Richard Dufour, responsable de l’équipe de recherche TALN du LS2N, est désormais Responsable Scientifique pour CAPACITÉS. Il partage avec nous son parcours et revient sur les enjeux de cette collaboration entre le LS2N et CAPACITÉS ainsi que les projets à venir.
Richard, pouvez-vous vous présenter et décrire votre parcours professionnel ?
J’ai effectué ma thèse au sein de l’équipe Language and Speech Technology (LST) du LIUM de Le Mans Université. Mes travaux de thèse s’inscrivaient initialement dans le domaine de la reconnaissance automatique de la parole (RAP) au moyen d’approches par apprentissage automatique. Mes travaux d’après-thèse et de postdoctorant à Orange Labs m’ont également permis de travailler sur des problématiques de classification automatique et de correction des transcriptions des systèmes de RAP.
Ce profil initial a ensuite évolué beaucoup plus largement vers le traitement automatique des langues (TAL) avec mon arrivée au Laboratoire Informatique d’Avignon (LIA) en tant que maître de conférences en 2012 puis, en tant que professeur des universités au LS2N depuis 2021.
Mes centres d’intérêts scientifiques se sont grandement élargis ces dernières années pour traiter un nombre important de problématiques en TAL à différents niveaux (données, modèles et évaluation). De manière générale, les problématiques que je traite actuellement en TAL s’inscrivent dans des contextes d’apprentissage automatique, incluant le traitement de données massives, l’apprentissage profond par réseaux de neurone, et l’IA générative au travers des très grands modèles de langue (LLM).
Une partie de mes travaux s’effectue également dans un contexte pluridisciplinaire (réseaux complexes, optimisation, sociologie…). J’ai par exemple été coordinateur de l’axe scientifique Langage & Cognition de l’Institut Carnot Cognition.
Qu’est-ce qui vous a motivé à accepter ce rôle de Responsable Scientifique ?
Ce rôle de responsable scientifique représente une opportunité unique de mettre en synergie mes compétences scientifiques en traitement des données et en intelligence artificielle avec les besoins concrets applicatifs du monde industriel.
Mon parcours m’a amené à travailler sur des problématiques de recherche appliquée, mes collaborations avec des entreprises étant finalement en continuité de mon travail de recherche. Ce rôle me permet de renforcer ces interactions en m’intéressant à des projets de R&D innovants, en ajoutant mon expertise, tout en assurant un lien fort, et nécessaire, entre la recherche académique et ses applications industrielles.
L’un des défis majeurs que je perçois est d’accompagner l’évolution rapide des technologies d’IA et de TAL (traitement automatique des langues) pour proposer des solutions robustes, adaptées aux contraintes des entreprises, notamment en matière de performance, d’explicabilité et de frugalité des modèles.
Quels sont, selon vous, les atouts principaux de ce partenariat LS2N / CAPACITÉS ?
Le partenariat entre le LS2N et CAPACITÉS repose sur une complémentarité forte entre recherche académique et industrialisation de solutions.
Le LS2N est un laboratoire de référence en sciences du numérique, regroupant des expertises variées en IA, en traitement de données et en apprentissage automatique. Cette richesse scientifique permet de développer des approches innovantes et d’explorer de nouvelles frontières technologiques. CAPACITÉS, en tant qu’acteur de la valorisation et du transfert technologique, joue un rôle clé pour transformer ces avancées en solutions concrètes adaptées aux besoins des entreprises.
Ce partenariat offre plusieurs atouts majeurs : d’une part, il permet d’accélérer l’intégration des dernières avancées en IA dans des applications industrielles, garantissant ainsi aux entreprises un accès privilégié à des technologies de pointe. D’autre part, il favorise une dynamique d’innovation collaborative, en impliquant chercheurs et ingénieurs dans des projets à fort impact. Enfin, il contribue à structurer des initiatives stratégiques, comme le développement de solutions frugales et explicables en IA, qui répondent aux enjeux actuels de performance et d’éthique.
Quels projets / thématiques vous passionnent le plus dans vos recherches actuelles ?
Plusieurs thématiques sont actuellement au cœur de mes travaux de recherche. Je suis tout d’abord intéressé par les problématiques liées à la modélisation du langage, qui est une des briques essentielles pour traiter une multitude de tâches en TAL.
Dans le cadre de nos travaux, nous nous sommes intéressés aux modèles de langue masqués ainsi qu’aux très grands modèles de langue génératifs dans le domaine médical dans un contexte multilingue. Nous comparons, pour la première fois, les performances de ces modèles entraînés à la fois sur des données publiques issues du web et sur des données privées provenant d’établissements de santé (ici, le CHU de Nantes). Nous évaluons également différentes stratégies d’apprentissage sur un ensemble de tâches biomédicales. Nous avons ainsi publié les premiers modèles masqués spécialisés pour le domaine biomédical en français, appelés DrBERT, le plus grand corpus de données médicales sous licence libre, NACHOS, sur lequel ces modèles sont entraînés, ainsi qu’un LLM biomédical, BioMistral. Ces travaux font notamment partie du projet ANR MALADES dont je suis le porteur.
Par ailleurs, je m’intéresse aussi à la création de données textuelles synthétiques (i.e. générées par un système automatique). Nous nous sommes intéressés à cette génération de données dans le cadre de l’augmentation de données textuelles pour améliorer l’apprentissage de modèles. Nous avons proposé de générer un ensemble de données d’entraînement à la récupération de contexte synthétique en utilisant Alpaca, un grand modèle de langage (LLM) adapté aux instructions. À l’aide de cet ensemble de données, nous formons un récupérateur de contexte neuronal, fondé sur un modèle BERT, capable de trouver un contexte pertinent pour la reconnaissance d’entités nommées (REN).
Un autre pan de mon travail concerne la caractérisation fine d’erreurs dans les sorties des systèmes de reconnaissance automatique de la parole du point-de-vue utilisateur au travers du projet ANR DIETS dont j’ai été le porteur.
Enfin, dans un contexte interdisciplinaire, je me suis intéressé à la structure des échanges pour la détection de messages abusifs. Dans ce travail, nous nous sommes intéressés à la détection automatique des abus dans les messages textuels sur les réseaux sociaux. De façon assez naturelle, nous avons tout d’abord proposé de travailler sur la détection d’abus en ne prenant en compte que le contenu textuel des documents échangés. Nous avons alors proposé d’extraire différentes caractéristiques classiques en traitement automatique du langage et de les utiliser dans un processus de classification afin de déterminer, pour chaque message, si celui-ci est abusif ou non.