Challenge extraction d'informations

Présentation

Dans le cadre de l’atelier EvalLLM2025, nous proposons un challenge d’évaluation de LLM par la tâche. Il s’agit d’extraction d’information dans le domaine de santé en français dans un contexte few-shot où seuls seront donnés le guide d’annotation et quelques documents annotés. Les participants sont invités à évaluer les mises-en-oeuvre par des LLM mais la participation avec d’autres approches est pertinente et permettra de mettre en perspective les résultats des systèmes fondés sur les LLM.

À l’issue de la phase d’entraînement, les données de test seront mises à disposition des participants pendant 3 jours (à choisir dans un intervalle de 3 semaines) et les résultats leur seront ensuite communiqués.

Les participants seront invités à présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l’atelier.

Description des données

Les données représentent des documents journalistiques pour la veille sanitaire annotés, par le Service de Santé des Armées, avec des entités d’intérêt (maladie, agent pathogène, agent toxine, substance explosive…) pouvant être discontinues, et des évènements (présentant des situations sanitaires) représentés par des tuples d'entités, où chaque entité correspond à un attribut de l'évènement ; voir illustration ci-dessous. Les noms des attributs sont indiqués par des relations sémantiques entre un évènement et ses entités composantes.

Le guide d'annotation est celui fourni à des annotateurs humains du métier et donne les règles générales d'annotation. Il définit les types d'entites et explicite les attributs d'évènements en fournissant quelques exemples.

exemple_ExtInfo

Calendrier du challenge

- inscription et récupération des données : jusqu'à phase de test
- phase de test : 3 jours consécutifs à choisir au moment de l’inscription entre le 12 et le 30 mai
- soumission des articles de participation : 14 juin
- atelier, présentation des résultats : 30 juin, Marseille

Comment participer

Pour participer et accéder aux données, transmettez par mail à vincent.claveau@def.gouv.fr et nihel.kooli@def.gouv.fr :

nom de l'équipe
mail de contact
pour tous les participants : nom, prénom, affiliation, adresse mail
jours de test si déjà connu (3j entre le 12 et le 30 mai)

Pour leur rapport de participation, il est demandé aux équipes participantes de :

tracer l'empreinte carbone de leurs approches (entrainement et inférence) : http://calculator.green-algorithms.org/
favoriser la reproductibilité de leurs expériences, en décrivant notamment dans leur rapport de participation les données, modèles, prompts, paramètres, etc. utilisés, et, quand c'est possible, en publiant leur code, modèles appris, etc.
globalement suivre les standards de publications du domaine : https://aclrollingreview.org/responsibleNLPresearch/

Soumission des runs et métriques

Trois runs par équipe peuvent être soumis, par mail à nihel.kooli@def.gouv.fr

Format de sortie attendu en JSON : identique aux fichiers de train fournis

Métriques d'évaluation : macro-F1 des entités, moyenne sur tous les évènements des macro-F1 des attributs, moyenne sur tous les documents des macro-F1 des évènements

Résultats

voir slides présentés lors de l'atelier : Présentation d'introduction au challenge et résultats

Vie privée | Accessibilité