ISTEX et Conditor convertis au format TEI

13 janvier 2020

Afin que les données de chacun des réservoirs soient interopérables avec d’autres systèmes, les équipes ISTEX et Conditor de l’Inist convertissent les données qu’elles récupèrent au format TEI (Text Encoding Initiative).

Tandis qu’ISTEX est un réser­voir de ressources multi­dis­ci­pli­naires (texte inté­gral et notices biblio­gra­phiques), Conditor est quant à lui un projet de réfé­ren­tiel natio­nal de la produc­tion scien­ti­fique fran­çaise collec­tant des notices biblio­gra­phiques issues de plusieurs sources. Ils ont cepen­dant en commun d’être tous deux orien­tés vers la science ouverte et les prin­cipes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).

C’est donc dans ces objec­tifs d’ouverture et d’interopérabilité que les données ISTEX, initia­le­ment au format XML source (format éditeur), et les données Conditor, multi­for­mats, ont été conver­ties en TEI, un format XML de données structurées.

Un format pivot

Les données ISTEX et Conditor se retrouvent respec­ti­ve­ment sous un format pivot TEI qui leur est propre ; format qui permet d’optimiser la réuti­li­sa­tion des données et qui permet aussi à ces dernières d’être inter­ro­gées par les mois­son­neurs TEI.

Pour ISTEX, 26 corpus de textes inté­graux fournis par plusieurs éditeurs (soit 26 formats diffé­rents) sont donc passés dans la mouli­nette de feuilles de style complexes pour en ressor­tir avec des données clas­sées et rangées. Ces enri­chis­se­ments ont pour but de permettre aux utili­sa­teurs d’analyser auto­ma­ti­que­ment des masses impor­tantes de données par le biais de services à valeur ajoutée (enri­chis­se­ment des données, analyse séman­tique, mutua­li­sa­tion des connaissances…).

Pour Conditor, quatre corpus sont actuel­le­ment refor­ma­tés en TEI. Deux le sont grâce à des feuilles de style, les deux autres à l’aide de programmes déve­lop­pés à l’Inist.

Un schéma ODD-ISTEX

Ces corpus, confir­més par un vali­da­teur, répondent désor­mais au schéma ODD (One Document Does it all) qui a plusieurs avan­tages notam­ment de fournir un format XML bien établi, de permettre un trai­te­ment forte­ment intégré avec d’autres systèmes TEI, d’offrir une péren­ni­sa­tion à long terme et une standardisation.

Cependant, la TEI n’a pas d’éléments spéci­fiques pour encoder des infor­ma­tions supplé­men­taires dites d’enrichissement. Les équipes ISTEX ont donc produit un schéma ODD-ISTEX permet­tant de docu­men­ter et de valider les enri­chis­se­ments spéci­fiques produits par les équipes ISTEX et leurs parte­naires (ex. : l’enrichissement des entités nommées comme la désa­m­bi­guï­sa­tion et l’alignement).

Plus d’informations sur le schéma ODD-ISTEX (https://blog.istex.fr/schema-odd-istex/)