Challenge Fine-Tuning

Présentation

Dans le cadre de l’atelier EvalLLM2025, l’AMIAD propose un challenge de fine-tuning de LLM pour produire un modèle adapté à un domaine particulier. En l’occurrence, il s’agit du domaine de la défense, riche en vocabulaire, en sigles et en connaissances métier. L’objectif est de faire émerger les meilleures pratiques et techniques pour l’adaptation de modèle, les hyper-paramètres essentiels, et de mesurer l’impact des données et les coûts associés.

En pratique, des textes du domaine seront fournis aux participants, qui pourront, s’ils le souhaitent, en collecter d’autres. Les modèles de base seront imposés, les participants ayant le choix entre de deux catégories de taille (7B et 24B). Les modèles pourront prendre la forme d’un LoRa. Les performances du modèle produit seront mesurées selon 3 axes : coût en équivalent carbone (fourni par le participant), non-régression sur le domaine général, et performances sur le domaine défense. Ces évaluations de performances seront effectuées par l’AMIAD sur un ensemble de jeux d’évaluation développés au sein du Ministère des Armées.

Les participants seront invités à présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l’atelier.

Resultats (nouveau)

Les résultats sont affichés dans le diaporama : res_challenge_FT2025

Informations techniques

Données

Des textes du domaine sont fournis aux participants. Ils peuvent en utiliser d'autres, collectés par leur soin dans le respect des droits d'auteur, qu'ils devront alors mentionner dans leur rapport de participation.

Modèles de base

Deux tailles de modèles sont proposées, les participants sont libres de fine-tuner l'une ou l'autre ou les deux. :

Mistral 7B Instruct : https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3

Mistral Small Instruct : https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501

Evaluation

Les modèles seront évalués sur :

le coût carbone engendré par le fine-tuning, mesuré par http://calculator.green-algorithms.org/
les performances sur des jeux généralistes pour mesurer la non-régression
les performances sur un ensemble de jeux d'évaluation développés en interne à l'AMIAD. Celui -ci comporte des tâches de résumé, de titrage, de traduction FR-EN, de questions à choix multiples, de mesure de l'hallucination, sur le domaine de la défense et l'organisation du ministère des armées.

Remise des modèles

Les modèles fine-tunés pourront être fournis sous forme d'apatateur (LoRa) ou complet (full fine-tune). Ils devront pouvoir être mis en oeuvre par la version courante de vLLM qui servira à leur évaluation. Les modèles fine-tunés devront être transmis avant le 30 mai.

Rapport

Les rapport de participation sont attendus pour le 14 juin. Ils devront suivre le style de la conférence TALN : https://coria-taln-2025.lis-lab.fr/feuilles-de-style/

Dans ce rapport, il est demandé aux équipes participantes de :

tracer l'empreinte carbone de leurs approches (entrainement et inférence) : http://calculator.green-algorithms.org/
favoriser la reproductibilité de leurs expériences, en décrivant notamment dans leur rapport de participation les données, modèles, prompts, paramètres, etc. utilisés, et, quand c'est possible, en publiant leur code, modèles appris, etc.
globalement suivre les standards de publications du domaine : https://aclrollingreview.org/responsibleNLPresearch/

Le dépot se fait à https://evalllm2025.sciencesconf.org/submission/submit?lang=fr en sélectionnant bien "Rapport challenge fine-tuning".

Comment participer

Pour participer et accéder aux données, envoyer un mail à vincent.claveau@def.gouv.fr et maxime.poulain@def.gouv.fr en indiquant :

le nom de l'équipe
le nom, prénom, affiliation et email de la personne contact :
les noms, prénoms, affiliation et email de chaque participant

Calendrier du challenge

inscription et récupération des données : jusqu'au 30 mai
envoi des modèles fine-tunés : 30 mai 3 juin
soumission des articles de participation : 14 juin
atelier, présentation des résultats : 30 juin, Marseille

Vie privée | Accessibilité