EvalLLM2025 : Atelier sur l'évaluation des modèles génératifs (LLM) et challenge

EvalLLM2025 : Atelier sur l'évaluation des modèles génératifs (LLM) et challenges

30-30 juin 2025 Marseille (France)

FR EN

ATTENTION : Une migration de la base de données est programmée jeudi 21 août.
Elle peut occasionner des problèmes d'accès à Sciencesconf.

Contexte

Les grands modèles de langue (LLM) génératifs se démocratisent et s’intègrent dans des chaînes de traitements de plus en plus complexes, offrant une grande variété de cas d’usage. L’évaluation de ces objets protéiformes pose cependant des problèmes sérieux : les benchmarks existants sont largement anglo-centrés (aussi bien en matière de langue que de culture), parfois eux-mêmes issus de LLM anglo-centrés (benchmarks synthétiques), et ne couvrent pas l’ensemble des usages.

La question de leur évaluation se pose en particulier pour le français et plus généralement pour des langues autres que l’anglais.

Appel à communications

Dans cet atelier, nous proposons ainsi de réunir les chercheuses et chercheurs, industriels et académiques, s’intéressant aux multiples facettes de l’évaluation des LLM génératifs sur des domaines de spécialité ou sur des langues autres que l’anglais. Nous sollicitons des propositions de communication sur tous les travaux relevant de ce périmètre.

Cela inclut notamment les recherches concernant :

l’évaluation de modèles de fondation, fine-tunés ou de systèmes complets (RAG par exemple)
la création ou adaptation de benchmarks, pour du français ou autres langues d’intérêt, qu’elles soient bien ou peu dotées, en domaine général ou spécialisé, ou pour des langues bruitées ou non standard (eg. réseaux sociaux, commandes vocales…)
l’évaluation sur des tâches de TAL (traduction, résumé, extraction d’information…)
l’adaptation des méthodologies d’évaluation existantes aux systèmes génératifs
les dimensions éthiques, biais, privacy, alignement culturel ou législatif
les dimensions de performances en temps de calcul, mémoire, frugalité énergétique
l’évaluation avec des utilisateurs, ergonomie, aspects cognitifs
l’évaluation de modèles multimodaux (eg. texte-image, texte-parole…)
…

Voir les infos pratiques sur la page https://evalllm2025.sciencesconf.org/page/soumission

Présentation des challenges

Dans le cadre de l’atelier EvalLLM2025, nous proposons deux challenges centrés sur les LLM.

Le premier challenge vise à une évaluation de LLM (ou d'autres approches) par la tâche. Il s'agit d'extraction d'entités d'intérêt dans un contexte few-shot. Pour une description complète, voir la page dédiée.

Le deuxième challenge vise à évaluer l'intérêt du fine-tuning sur un domaine de compétences particulier, en l'occurrence le domaine de la défense. Pour une description complète, voir la page dédiée.

Comités et contact

Organisation :

Vincent Claveau, AMIAD, Rennes, vincent.claveau@def.gouv.fr
Julianne Flament, AMIAD, Rennes
Lorenzo Gerardi, AMIAD, Rennes
Nihel Kooli, AMIAD, Rennes, nihel.kooli@def.gouv.fr
Maxime Poulain, AMIAD, Rennes

Comité scientifique :

Rachel Bawden, Inria
Lucie Chasseur, Inria mission Défense et Sécurité
Olivier Ferret, CEA-List
Vincent Guigue, AgroParisTech, UMR MIA-Paris-Saclay
Damien Nouvel, INALCO
Didier Schwab, LIG
Gilles Sérasset, LIG
Aurélie Névéol, LISN - CNRS
Fabian Suchanek, Télécom Paris, Institut polytechnique de Paris
François Yvon, ISIR - CNRS

Vie privée | Accessibilité