09:00 - 10:30
|
LLM (Amphi Sciences Nat) - Session 1 |
(+)
|
09:10 - 09:30 |
› AllSummedUp : un framework open-source pour comparer les métriques d'évaluation de résumé - Tanguy Herserant, vincent Guigue |
|
09:30 - 09:50 |
› Culture et acculturation des grands modèles de langue - Mathieu Valette |
|
09:50 - 10:10 |
› Étude des déterminants impactant la qualité de l'information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning - Rémy Decoupes, Adrien Guille |
|
10:10 - 10:30 |
› Évaluation Comparative de la Génération Contrainte vs. du Post-Parsing pour l'Analyse de Contenu par LLMs : Étude sur le Corpus EUvsDisinfo - Kevin Séjourné, Marine Foucher, Alexandru Lata, Jean-Fabrice Lebraty |
|
10:30 - 11:00
|
Pause café |
|
11:00 - 11:50
|
Finetuning LLMs, From Llama to Mistral (Amphi Sciences Nat) - Louis Martin, MISTRAL.AI |
|
11:50 - 12:30
|
LLM (Amphi Sciences Nat) - Challenge Extraction d'Informations |
(+)
|
12:00 - 12:10 |
› CEA-List@EvalLLM2025 extraction d'information : des LLM mais sans modèle décodeur - Arthur Peuvot, Université Paris-Saclay - Olivier Ferret, Laboratoire dÍntégration des Systèmes et des Technologies - Sondes Souihi, Université Paris-Saclay, CEA, List |
|
12:10 - 12:20 |
› LLM, Au Rapport ! Extraction d'Informations Médicales entre Prompting, Fine-tuning et Post-correction - Guillaume Fortier, Head of the Computer Vision Team - Solen Quiniou, Laboratoire d'Informatique de Nantes Atlantique - Richard Dufour, Laboratoire des Sciences du Numérique de Nantes |
|
12:30 - 14:00
|
Déjeuner |
|
14:00 - 14:30
|
LLM (Amphi Sciences Nat) - Challenge Fine-Tuning |
|
14:30 - 16:00
|
LLM (Amphi Sciences Nat) - Session 2 |
(+)
|
14:30 - 14:50 |
› Évaluation de la Robustesse des LLM : Proposition d'un Cadre Méthodologique et Développement d'un Benchmark - Fares Grina, Natalia Kalashnikova -- Talan |
|
14:50 - 15:10 |
› Evaluation de petits modèles de langues (SLM) sur un corpus de Sciences Humaines et Sociales (SHS) en français - Sam Vallet, Philippe Suignard-- EDF R&D SEQUOIA |
|
15:10 - 15:30 |
› Exploration de stratégies de prédiction de la complexité lexicale en contexte multilingue à l'aide de modèles de langage génératifs et d'approches supervisées. - Abdelhak Kelious, Mathieu Constant, Christophe Coeur |
|
15:30 - 15:50 |
› Generative approach to pragmatics conformation a case study of conference review analysis - Julien Perez, Idir Benouaret, EPITA |
|
16:00 - 16:30
|
Pause café |
|
16:30 - 18:00
|
LLM-poster (Salle "Conférences") - Posters |
(+)
|
16:30 - 18:00 |
› Peut-on faire confiance aux juges ? Validation de méthodes d'évaluation de la factualité par perturbation des réponses - Giovanni Gatti Pinheiro, Sarra Gharsallah, Adele Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphael Troncy, Paolo Papotti, Pietro Michiardi |
|
16:30 - 18:00 |
› TIBS@EvalLLM : extraction d'entités et d'événements dans des documents francophones par prompt engineering - Edouard Haddag, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Theo RENAUX VERDIERE, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Safaa MENAD, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Gabriel H. A. MEDEIROS, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen - Lina F. Soualmia, Univ Rouen Normandie, TIBS-LITIS UR 4108, FR-76000 Rouen |
|
16:30 - 18:00 |
› Participation de l'équipe Inria Défense et Sécurité au défi EvalLLM 2025 en reconnaissance d'entités nommées et extraction de relations dans le domaine biomédical - Pauline Soutrenon, Mission Défense et Sécurité - Lucie Bader, Mission Défense et Sécurité - Lucie Chasseur, Mission Défense et Sécurité |
|
16:30 - 18:00 |
› Kairntech à EvalLLM 2025 - Kévin Deturck, Kairntech |
|
16:30 - 18:00 |
› Exploiter le prompting pour l'extraction d'information à partir de textes médicaux français avec peu de ressources - Hossam Boudraa, Laboratoire d'Informatique et des Systèmes (LIS) (Marseille, Toulon) - Anas Belfathi, Laboratoire des Sciences du Numérique de Nantes |
|
16:30 - 18:00 |
› Comment évaluer un grand modèle de langue dans le domaine médical en français ? - Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum |
|
16:30 - 18:00 |
› Amélioration et Automatisation de la Génération des Cas de Tests à l'Aide des Modèles de Langage de Grande Taille (LLMs) - Imane Moughit, Imad Hafidi |
|
16:30 - 18:00 |
› A Linguistically-Inspired Approach for the Evaluation of Spoken Language Features in Conversational Models - Oussama Silem, Maïwenn Fleig |
|
16:30 - 18:00 |
› Evaluating LLMs Efficiency Using Successive Attempts on Binary-Outcome Tasks - Mohamed Amine El Yagouby, Mehdi Zekroum, Abdelkader Lahmadi |
|
16:30 - 18:00 |
› POPCORN-RENS : un nouveau jeu de données en français annoté en entités d'intérêts sur une thématique "sécurité et défense" - Lucas Aubertin, Guillaume Gadek, Gilles Sérasset, MaLucas Aubertin, Guillaume Gadek, Gilles Sérasset, Maxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopezxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopez |
|
16:30 - 18:00 |
› Pedagogical Code Evaluation with Large Language Models A Large Scale Comparative Study against Unit Testing - Julien Perez, Anton Conrad, Elkoussy Laïla |
|
16:30 - 18:00 |
› SuperGPQA-HCE-FR : un corpus spécialisé en français pour le domaine hydraulique et le génie civil - Markarit Vartampetian, Diandra Fabre, Philippe Mulhem, Sylvain Joubert, Didier Schwab |
|
16:30 - 18:00 |
› Évaluation automatique du retour à la source dans un contexte historique long et bruité. Application aux débats parlementaires de la Troisième République française - Julien Perez, Aurélien Pellet, Marie Puren |
|
16:30 - 18:00 |
› Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills - Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe |
|
16:30 - 18:00 |
› Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence - Grégoire Martinon, Alexandra Lorenzo de Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel |
|
16:30 - 18:00 |
› Décoder le pouvoir de persuasion dans les concours d'éloquence : une étude sur la capacité des modèles de langues à évaluer la prise de parole en public - Alisa Barkar, Mathieu Chollet, Matthieu Labeau, Beatrice Biancardi, Chloé Clavel |
|
16:30 - 18:00 |
› Évaluation de la description automatique de scènes audio par la tâche d'Audio Question Answering - Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, Jean-François Bonastre |
|
16:30 - 18:00 |
› Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering - Louis Jourdain, Skander Hellal |
|