Programme

lundi 30 juin 2025

Heures événement (+)
09:00 - 10:30 LLM (Amphi Sciences Nat) - Session 1 (+)  
09:10 - 09:30 › AllSummedUp : un framework open-source pour comparer les métriques d'évaluation de résumé - Tanguy Herserant, vincent Guigue  
09:30 - 09:50 › Culture et acculturation des grands modèles de langue - Mathieu Valette  
09:50 - 10:10 › Étude des déterminants impactant la qualité de l'information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning - Rémy Decoupes, Adrien Guille  
10:10 - 10:30 › Évaluation Comparative de la Génération Contrainte vs. du Post-Parsing pour l'Analyse de Contenu par LLMs : Étude sur le Corpus EUvsDisinfo - Kevin Séjourné, Marine Foucher, Alexandru Lata, Jean-Fabrice Lebraty  
10:30 - 11:00 Pause café  
11:00 - 11:50 Finetuning LLMs, From Llama to Mistral (Amphi Sciences Nat) - Louis Martin, MISTRAL.AI  
11:50 - 12:30 LLM (Amphi Sciences Nat) - Challenge Extraction d'Informations (+)  
12:00 - 12:10 › CEA-List@EvalLLM2025 extraction d'information : des LLM mais sans modèle décodeur - Arthur Peuvot, Université Paris-Saclay - Olivier Ferret, Laboratoire dÍntégration des Systèmes et des Technologies - Sondes Souihi, Université Paris-Saclay, CEA, List  
12:10 - 12:20 › LLM, Au Rapport ! Extraction d'Informations Médicales entre Prompting, Fine-tuning et Post-correction - Guillaume Fortier, Head of the Computer Vision Team - Solen Quiniou, Laboratoire d'Informatique de Nantes Atlantique - Richard Dufour, Laboratoire des Sciences du Numérique de Nantes  
12:30 - 14:00 Déjeuner  
14:00 - 14:30 LLM (Amphi Sciences Nat) - Challenge Fine-Tuning  
14:30 - 16:00 LLM (Amphi Sciences Nat) - Session 2 (+)  
14:30 - 14:50 › Évaluation de la Robustesse des LLM : Proposition d'un Cadre Méthodologique et Développement d'un Benchmark - Fares Grina, Natalia Kalashnikova -- Talan  
14:50 - 15:10 › Evaluation de petits modèles de langues (SLM) sur un corpus de Sciences Humaines et Sociales (SHS) en français - Sam Vallet, Philippe Suignard-- EDF R&D SEQUOIA  
15:10 - 15:30 › Exploration de stratégies de prédiction de la complexité lexicale en contexte multilingue à l'aide de modèles de langage génératifs et d'approches supervisées. - Abdelhak Kelious, Mathieu Constant, Christophe Coeur  
15:30 - 15:50 › Generative approach to pragmatics conformation a case study of conference review analysis - Julien Perez, Idir Benouaret, EPITA  
16:00 - 16:30 Pause café  
16:30 - 18:00 LLM-poster (Salle "Conférences") - Posters (+)  
16:30 - 18:00 › Peut-on faire confiance aux juges ? Validation de méthodes d'évaluation de la factualité par perturbation des réponses - Giovanni Gatti Pinheiro, Sarra Gharsallah, Adele Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphael Troncy, Paolo Papotti, Pietro Michiardi  
16:30 - 18:00 › TIBS@EvalLLM : extraction d'entités et d'événements dans des documents francophones par prompt engineering - Edouard Haddag, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Theo RENAUX VERDIERE, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Safaa MENAD, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Gabriel H. A. MEDEIROS, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Lina F. Soualmia, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen  
16:30 - 18:00 › Participation de l'équipe Inria Défense et Sécurité au défi EvalLLM 2025 en reconnaissance d'entités nommées et extraction de relations dans le domaine biomédical - Pauline Soutrenon, Mission Défense et Sécurité - Lucie Bader, Mission Défense et Sécurité - Lucie Chasseur, Mission Défense et Sécurité  
16:30 - 18:00 › Kairntech à EvalLLM 2025 - Kévin Deturck, Kairntech  
16:30 - 18:00 › Exploiter le prompting pour l'extraction d'information à partir de textes médicaux français avec peu de ressources - Hossam Boudraa, Laboratoire d'Informatique et des Systèmes (LIS) (Marseille, Toulon) - Anas Belfathi, Laboratoire des Sciences du Numérique de Nantes  
16:30 - 18:00 › Comment évaluer un grand modèle de langue dans le domaine médical en français ? - Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum  
16:30 - 18:00 › Amélioration et Automatisation de la Génération des Cas de Tests à l'Aide des Modèles de Langage de Grande Taille (LLMs) - Imane Moughit, Imad Hafidi  
16:30 - 18:00 › A Linguistically-Inspired Approach for the Evaluation of Spoken Language Features in Conversational Models - Oussama Silem, Maïwenn Fleig  
16:30 - 18:00 › Evaluating LLMs Efficiency Using Successive Attempts on Binary-Outcome Tasks - Mohamed Amine El Yagouby, Mehdi Zekroum, Abdelkader Lahmadi  
16:30 - 18:00 › POPCORN-RENS : un nouveau jeu de données en français annoté en entités d'intérêts sur une thématique "sécurité et défense" - Lucas Aubertin, Guillaume Gadek, Gilles Sérasset, MaLucas Aubertin, Guillaume Gadek, Gilles Sérasset, Maxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopezxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopez  
16:30 - 18:00 › Pedagogical Code Evaluation with Large Language Models A Large Scale Comparative Study against Unit Testing - Julien Perez, Anton Conrad, Elkoussy Laïla  
16:30 - 18:00 › SuperGPQA-HCE-FR : un corpus spécialisé en français pour le domaine hydraulique et le génie civil - Markarit Vartampetian, Diandra Fabre, Philippe Mulhem, Sylvain Joubert, Didier Schwab  
16:30 - 18:00 › Évaluation automatique du retour à la source dans un contexte historique long et bruité. Application aux débats parlementaires de la Troisième République française - Julien Perez, Aurélien Pellet, Marie Puren  
16:30 - 18:00 › Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills - Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe  
16:30 - 18:00 › Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence - Grégoire Martinon, Alexandra Lorenzo de Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel  
16:30 - 18:00 › Décoder le pouvoir de persuasion dans les concours d'éloquence : une étude sur la capacité des modèles de langues à évaluer la prise de parole en public - Alisa Barkar, Mathieu Chollet, Matthieu Labeau, Beatrice Biancardi, Chloé Clavel  
16:30 - 18:00 › Évaluation de la description automatique de scènes audio par la tâche d'Audio Question Answering - Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, Jean-François Bonastre  
16:30 - 18:00 › Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering - Louis Jourdain, Skander Hellal  
   /program?lang=fr
Chargement... Chargement...