ISTEX et Conditor convertis au format TEI

13 janvier 2020

Afin que les données de chacun des réservoirs soient interopérables avec d’autres systèmes, les équipes ISTEX et Conditor de l’Inist convertissent les données qu’elles récupèrent au format TEI (Text Encoding Initiative).

Tan­dis qu’ISTEX est un réser­voir de res­sources mul­ti­dis­ci­pli­naires (texte inté­gral et notices biblio­gra­phiques), Condi­tor est quant à lui un pro­jet de réfé­ren­tiel natio­nal de la pro­duc­tion scien­ti­fique fran­çaise col­lec­tant des notices biblio­gra­phiques issues de plu­sieurs sources. Ils ont cepen­dant en com­mun d’être tous deux orien­tés vers la science ouverte et les prin­cipes FAIR (Facile à trou­ver, Acces­sible, Inter­opé­rable, Réutilisable).

C’est donc dans ces objec­tifs d’ouverture et d’interopérabilité que les don­nées ISTEX, ini­tia­le­ment au for­mat XML source (for­mat édi­teur), et les don­nées Condi­tor, mul­ti­for­mats, ont été conver­ties en TEI, un for­mat XML de don­nées structurées.

Un format pivot

Les don­nées ISTEX et Condi­tor se retrouvent res­pec­ti­ve­ment sous un for­mat pivot TEI qui leur est propre ; for­mat qui per­met d’optimiser la réuti­li­sa­tion des don­nées et qui per­met aus­si à ces der­nières d’être inter­ro­gées par les mois­son­neurs TEI.

Pour ISTEX, 26 cor­pus de textes inté­graux four­nis par plu­sieurs édi­teurs (soit 26 for­mats dif­fé­rents) sont donc pas­sés dans la mou­li­nette de feuilles de style com­plexes pour en res­sor­tir avec des don­nées clas­sées et ran­gées. Ces enri­chis­se­ments ont pour but de per­mettre aux uti­li­sa­teurs d’analyser auto­ma­ti­que­ment des masses impor­tantes de don­nées par le biais de ser­vices à valeur ajou­tée (enri­chis­se­ment des don­nées, ana­lyse séman­tique, mutua­li­sa­tion des connaissances…).

Pour Condi­tor, quatre cor­pus sont actuel­le­ment refor­ma­tés en TEI. Deux le sont grâce à des feuilles de style, les deux autres à l’aide de pro­grammes déve­lop­pés à l’Inist.

Un schéma ODD-ISTEX

Ces cor­pus, confir­més par un vali­da­teur, répondent désor­mais au sché­ma ODD (One Docu­ment Does it all) qui a plu­sieurs avan­tages notam­ment de four­nir un for­mat XML bien éta­bli, de per­mettre un trai­te­ment for­te­ment inté­gré avec d’autres sys­tèmes TEI, d’offrir une péren­ni­sa­tion à long terme et une standardisation.

Cepen­dant, la TEI n’a pas d’éléments spé­ci­fiques pour enco­der des infor­ma­tions sup­plé­men­taires dites d’enrichissement. Les équipes ISTEX ont donc pro­duit un sché­ma ODD-ISTEX per­met­tant de docu­men­ter et de vali­der les enri­chis­se­ments spé­ci­fiques pro­duits par les équipes ISTEX et leurs par­te­naires (ex. : l’enrichissement des enti­tés nom­mées comme la désa­m­bi­guï­sa­tion et l’alignement).

Plus d’informations sur le sché­ma ODD-ISTEX (https://blog.istex.fr/schema-odd-istex/)