Un Corpus Gold Standard sur data.istex

image actualité
08.02.2021

L’Inist, associé au Laboratoire d’informatique fonda­men­tale et appli­quée de Tours (LIFAT), vient de mettre à dispo­si­tion sur data.istex un corpus permet­tant d’éva­luer les outils de TDM : un corpus annoté à la main pour entraî­ner les outils de recon­nais­sance d’en­ti­tés nommées.

Définition, usage et caractéristiques du corpus

Un corpus gold stan­dard est destiné aux cher­cheurs dési­rant tester ou entraî­ner leur outil de recon­nais­sance d’entités nommées ; corpus qui pourra égale­ment être utilisé comme corpus d’apprentissage pour ces mêmes outils.

Il est annoté manuel­le­ment par un groupe de personnes ayant une culture commune d’annotation.

Il comporte 200 docu­ments ISTEX, en anglais. Ce corpus est le plus repré­sen­ta­tif possible des deux corpus les plus impor­tants du fonds ISTEX. Chaque docu­ment comporte au moins 10 entités nommées.

Entités nommées annotées

L’annotation manuelle utilise les huit balises suivantes :

  1. noms de personnes <persName>
  2. noms de lieux admi­nis­tra­tifs <placeName>
  3. noms de lieux géogra­phiques <geogName>
  4. noms d’organismes <orgName>
  5. noms d’organismes finan­ceurs <orgName type=“funder”>
  6. noms d’organismes pour­voyeurs de ressources <orgName type=“provider”>
  7. dates <date>
  8. url <ref type=“url”>

Démarche de constitution du corpus Gold

Le corpus Entités Nommées ISTEX a été consti­tué au long de l’année 2020 à l’Inist, à la demande du LIFAT.

Les 8 anno­ta­teurs ont pris 10 % du corpus et les ont annotés en même temps. Ils ont ensuite comparé les résul­tats, discuté et construit une culture d’annotation commune.

Ils ont mis en place un guide anno­ta­teur compor­tant des règles d’annotation propres au corpus.

La fiabi­lité de l’an­no­ta­tion a été mesurée par un accord inter-anno­ta­teurs : mesure globale de 0,91 de Kappa (réalisé par le LIFAT).

Les 180 docu­ments restants ont ensuite été répar­tis entre les annotateurs.

Le guide d’annotations, télé­char­geable, comprend la présen­ta­tion du projet, la métho­do­lo­gie, les résul­tats, les calculs de l’accord inter-anno­ta­teurs et les règles mises en place avec des exemples.

Accès au corpus

Le Corpus Gold Standard est publié sur le site data.istex.fr en tant que jeu de données, sous le nom de Corpus Entités Nommées ISTEX, dans la collec­tion Corpus annotés manuel­le­ment.

Le corpus au format XML-TEI et les offsets des entités nommées sont dispo­nibles au télé­char­ge­ment dans le champ « Application ».

Lien : https://gold-collection.corpus.istex.fr/ark:/67375/VH5-5W45R3J3‑P

Une vue graphique du corpus et de ses entités nommées

La visua­li­sa­tion de la répar­ti­tion des docu­ments du corpus selon diffé­rents angles de vue biblio­mé­triques est acces­sible sur le bouton “Graphiques”.

Les entités nommées du corpus font aussi l’objet de graphiques (bouton Graphiques) et sont visibles pour chaque article sur le bouton “Recherche”.

 

Voir aussi : https://blog.istex.fr/un-corpus-gold-standard-pour-le-tdm/

Data.Istex : une autre vision d’ISTEX