ISTEX et Conditor convertis au format TEI

Afin que les données de chacun des réservoirs soient interopérables avec d’autres systèmes, les équipes ISTEX et Conditor de l’Inist convertissent les données qu’elles récupèrent au format TEI (Text Encoding Initiative).

Tandis qu’ISTEX est un réservoir de ressources multidisciplinaires (texte intégral et notices bibliographiques), Conditor est quant à lui un projet de référentiel national de la production scientifique française collectant des notices bibliographiques issues de plusieurs sources. Ils ont cependant en commun d’être tous deux orientés vers la science ouverte et les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).

C’est donc dans ces objectifs d’ouverture et d’interopérabilité que les données ISTEX, initialement au format XML source (format éditeur), et les données Conditor, multiformats, ont été converties en TEI, un format XML de données structurées.

Un format pivot

Les données ISTEX et Conditor se retrouvent respectivement sous un format pivot TEI qui leur est propre ; format qui permet d’optimiser la réutilisation des données et qui permet aussi à ces dernières d’être interrogées par les moissonneurs TEI.

Pour ISTEX, 26 corpus de textes intégraux fournis par plusieurs éditeurs (soit 26 formats différents) sont donc passés dans la moulinette de feuilles de style complexes pour en ressortir avec des données classées et rangées. Ces enrichissements ont pour but de permettre aux utilisateurs d’analyser automatiquement des masses importantes de données par le biais de services à valeur ajoutée (enrichissement des données, analyse sémantique, mutualisation des connaissances…).

Pour Conditor, quatre corpus sont actuellement reformatés en TEI. Deux le sont grâce à des feuilles de style, les deux autres à l’aide de programmes développés à l’Inist.

Un schéma ODD-ISTEX

Ces corpus, confirmés par un validateur, répondent désormais au schéma ODD (One Document Does it all) qui a plusieurs avantages notamment de fournir un format XML bien établi, de permettre un traitement fortement intégré avec d’autres systèmes TEI, d’offrir une pérennisation à long terme et une standardisation.

Cependant, la TEI n’a pas d’éléments spécifiques pour encoder des informations supplémentaires dites d’enrichissement. Les équipes ISTEX ont donc produit un schéma ODD-ISTEX permettant de documenter et de valider les enrichissements spécifiques produits par les équipes ISTEX et leurs partenaires (ex. : l’enrichissement des entités nommées comme la désambiguïsation et l’alignement).

Plus d’informations sur le schéma ODD-ISTEX (https://blog.istex.fr/schema-odd-istex/)