EvalLLM2025 : Atelier sur l'évaluation des modèles génératifs (LLM) et challenge

09:00 - 10:30

LLM (Amphi Sciences Nat) - Session 1

(+)

09:10 - 09:30

› AllSummedUp : un framework open-source pour comparer les métriques d'évaluation de résumé - Tanguy Herserant, vincent Guigue

09:30 - 09:50

› Culture et acculturation des grands modèles de langue - Mathieu Valette

09:50 - 10:10

› Étude des déterminants impactant la qualité de l'information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning - Rémy Decoupes, Adrien Guille

10:10 - 10:30

› Évaluation Comparative de la Génération Contrainte vs. du Post-Parsing pour l'Analyse de Contenu par LLMs : Étude sur le Corpus EUvsDisinfo - Kevin Séjourné, Marine Foucher, Alexandru Lata, Jean-Fabrice Lebraty

10:30 - 11:00

Pause café

11:00 - 11:50

Finetuning LLMs, From Llama to Mistral (Amphi Sciences Nat) - Louis Martin, MISTRAL.AI

11:50 - 12:30

LLM (Amphi Sciences Nat) - Challenge Extraction d'Informations

(+)

12:00 - 12:10

› CEA-List@EvalLLM2025 extraction d'information : des LLM mais sans modèle décodeur - Arthur Peuvot, Université Paris-Saclay - Olivier Ferret, Laboratoire dÍntégration des Systèmes et des Technologies - Sondes Souihi, Université Paris-Saclay, CEA, List

12:10 - 12:20

› LLM, Au Rapport ! Extraction d'Informations Médicales entre Prompting, Fine-tuning et Post-correction - Guillaume Fortier, Head of the Computer Vision Team - Solen Quiniou, Laboratoire d'Informatique de Nantes Atlantique - Richard Dufour, Laboratoire des Sciences du Numérique de Nantes

12:30 - 14:00

Déjeuner

14:00 - 14:30

LLM (Amphi Sciences Nat) - Challenge Fine-Tuning

14:30 - 16:00

LLM (Amphi Sciences Nat) - Session 2

(+)

14:30 - 14:50

› Évaluation de la Robustesse des LLM : Proposition d'un Cadre Méthodologique et Développement d'un Benchmark - Fares Grina, Natalia Kalashnikova -- Talan

14:50 - 15:10

› Evaluation de petits modèles de langues (SLM) sur un corpus de Sciences Humaines et Sociales (SHS) en français - Sam Vallet, Philippe Suignard-- EDF R&D SEQUOIA

15:10 - 15:30

› Exploration de stratégies de prédiction de la complexité lexicale en contexte multilingue à l'aide de modèles de langage génératifs et d'approches supervisées. - Abdelhak Kelious, Mathieu Constant, Christophe Coeur

15:30 - 15:50

› Generative approach to pragmatics conformation a case study of conference review analysis - Julien Perez, Idir Benouaret, EPITA

16:00 - 16:30

Pause café

16:30 - 18:00

LLM-poster (Salle "Conférences") - Posters

(+)

16:30 - 18:00

› Peut-on faire confiance aux juges ? Validation de méthodes d'évaluation de la factualité par perturbation des réponses - Giovanni Gatti Pinheiro, Sarra Gharsallah, Adele Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphael Troncy, Paolo Papotti, Pietro Michiardi

16:30 - 18:00

› TIBS@EvalLLM : extraction d'entités et d'événements dans des documents francophones par prompt engineering - Edouard Haddag, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Theo RENAUX VERDIERE, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Safaa MENAD, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Gabriel H. A. MEDEIROS, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Lina F. Soualmia, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen

16:30 - 18:00

› Participation de l'équipe Inria Défense et Sécurité au défi EvalLLM 2025 en reconnaissance d'entités nommées et extraction de relations dans le domaine biomédical - Pauline Soutrenon, Mission Défense et Sécurité - Lucie Bader, Mission Défense et Sécurité - Lucie Chasseur, Mission Défense et Sécurité

16:30 - 18:00

› Kairntech à EvalLLM 2025 - Kévin Deturck, Kairntech

16:30 - 18:00

› Exploiter le prompting pour l'extraction d'information à partir de textes médicaux français avec peu de ressources - Hossam Boudraa, Laboratoire d'Informatique et des Systèmes (LIS) (Marseille, Toulon) - Anas Belfathi, Laboratoire des Sciences du Numérique de Nantes

16:30 - 18:00

› Comment évaluer un grand modèle de langue dans le domaine médical en français ? - Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum

16:30 - 18:00

› Amélioration et Automatisation de la Génération des Cas de Tests à l'Aide des Modèles de Langage de Grande Taille (LLMs) - Imane Moughit, Imad Hafidi

16:30 - 18:00

› A Linguistically-Inspired Approach for the Evaluation of Spoken Language Features in Conversational Models - Oussama Silem, Maïwenn Fleig

16:30 - 18:00

› Evaluating LLMs Efficiency Using Successive Attempts on Binary-Outcome Tasks - Mohamed Amine El Yagouby, Mehdi Zekroum, Abdelkader Lahmadi

16:30 - 18:00

› POPCORN-RENS : un nouveau jeu de données en français annoté en entités d'intérêts sur une thématique "sécurité et défense" - Lucas Aubertin, Guillaume Gadek, Gilles Sérasset, MaLucas Aubertin, Guillaume Gadek, Gilles Sérasset, Maxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopezxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopez

16:30 - 18:00

› Pedagogical Code Evaluation with Large Language Models A Large Scale Comparative Study against Unit Testing - Julien Perez, Anton Conrad, Elkoussy Laïla

16:30 - 18:00

› SuperGPQA-HCE-FR : un corpus spécialisé en français pour le domaine hydraulique et le génie civil - Markarit Vartampetian, Diandra Fabre, Philippe Mulhem, Sylvain Joubert, Didier Schwab

16:30 - 18:00

› Évaluation automatique du retour à la source dans un contexte historique long et bruité. Application aux débats parlementaires de la Troisième République française - Julien Perez, Aurélien Pellet, Marie Puren

16:30 - 18:00

› Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills - Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe

16:30 - 18:00

› Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence - Grégoire Martinon, Alexandra Lorenzo de Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel

16:30 - 18:00

› Décoder le pouvoir de persuasion dans les concours d'éloquence : une étude sur la capacité des modèles de langues à évaluer la prise de parole en public - Alisa Barkar, Mathieu Chollet, Matthieu Labeau, Beatrice Biancardi, Chloé Clavel

16:30 - 18:00

› Évaluation de la description automatique de scènes audio par la tâche d'Audio Question Answering - Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, Jean-François Bonastre

16:30 - 18:00

› Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering - Louis Jourdain, Skander Hellal

Programme