Information Extraction Challenge

Présentation

Dans le cadre de l’atelier EvalLLM2025, nous proposons un challenge d’évaluation de LLM par la tâche. Il s’agit d’extraction d’information dans le domaine de santé en français dans un contexte few-shot où seuls seront donnés le guide d’annotation et quelques documents annotés. Les participants sont invités à évaluer les mises-en-oeuvre par des LLM mais la participation avec d’autres approches est pertinente et permettra de mettre en perspective les résultats des systèmes fondés sur les LLM.

Les données représentent des documents journalistiques pour la veille sanitaire annotés, par le Service de Santé des Armées, avec des entités d’intérêt (maladie, agent pathogène, agent toxine, substance explosive…) et des évènements (présentant des situations sanitaires) représentés par des tuples d'entités reliées par des relations sémantiques.

À l’issue de la phase d’entraînement, les données de test seront mises à disposition des participants pendant 3 jours (à choisir dans un intervalle de 3 semaines) et les résultats leur seront ensuite communiqués.


Les participants seront invités à présenter leurs travaux dans un bref article et sous forme de communication orale ou poster le jour de l’atelier.
 

Calendrier du challenge

- inscription et récupération des données : jusqu'à phase de test
- phase de test : 3 jours consécutifs à choisir au moment de l’inscription entre le 12 et le 30 mai
- soumission des articles de participation : 14 juin
- atelier, présentation des résultats : 30 juin, Marseille 

 

Comment participer

Pour participer et accéder aux données, transmettez par mail à vincent.claveau@def.gouv.fr et nihel.kooli@def.gouv.fr :

  • nom de l'équipe
  • mail de contact
  • pour tous les participants : nom, prénom, affiliation, adresse mail
  • jours de test si déjà connu (3j entre le 12 et le 30 mai)

Pour leur rapport de participation, il est demandé aux équipes participantes de :

  • tracer l'empreinte carbone de leurs approches (entrainement et inférence) : http://calculator.green-algorithms.org/
  • favoriser la reproductibilité de leurs expériences, en décrivant notamment dans leur rapport de participation les données, modèles, prompts, paramètres, etc. utilisés, et, quand c'est possible, en publiant leur code, modèles appris, etc.
  • globalement suivre les standards de publications du domaine : https://aclrollingreview.org/responsibleNLPresearch/



Online user: 2 Privacy | Accessibility
Loading...