ISTEX-DL : des corpus ISTEX à portée de main

12 mars 2019

Jusqu’alors, extraire un corpus de documents ISTEX supposait une certaine pratique de l’informatique, les solutions proposées étant l’utilisation de moissonneurs – utilitaires en ligne de commande – ou l’emploi de la fonction « extract », fonction du moteur de recherche de l'API ISTEX se paramétrant directement dans l’URL d’interrogation. ISTEX-DL (ISTEX-DownLoad) permet désormais un téléchargement facilité de corpus de documents ISTEX sans connaissance informatique particulière.

ISTEX, Initiative d’excellence en Information Scientifique et Technique lancée en 2012 et desti­née à construire la biblio­thèque scien­ti­fique numé­rique natio­nale, est aujourd’hui un réser­voir d’archives scien­ti­fiques qui propose à travers sa plate­forme un accès en ligne à presque 22 millions de publi­ca­tions numé­riques – articles de revues ou chapitres de livres –, pour l’en­semble de la commu­nauté de l’en­sei­gne­ment supé­rieur et de la recherche fran­çaise qui le souhaite. Ces collec­tions rétros­pec­tives de docu­ments, publiés en 50 langues et remon­tant jusqu’au 15e siècle, couvrent toutes les disci­plines de la litté­ra­ture scien­ti­fique internationale.

De l’API à Istex ‑DL

Jusqu’alors, extraire un corpus de docu­ments ISTEX suppo­sait une certaine pratique de l’informatique, les solu­tions propo­sées étant l’utilisation de mois­son­neurs – utili­taires en ligne de commande – ou l’emploi de la fonc­tion « extract », fonc­tion du moteur de recherche de l’API ISTEX se para­mé­trant direc­te­ment dans l’URL d’interrogation.

ISTEX-DL est né de la volonté de permettre à tous les ayants droit ISTEX, sans connais­sance infor­ma­tique parti­cu­lière, d’exploiter l’archive ISTEX pour en extraire un corpus de docu­ments adapté à ses besoins,  afin de complé­ter les moyens d’extraction de corpus ISTEX exis­tants (lire à ce sujet le billet de blog : « Extraire un corpus ISTEX : 4 solu­tions »).

Développée en 5 jours par les équipes ISTEX et lancée en septembre 2017 dans une version bêta, l’application ISTEX-DL a évolué depuis vers une inter­face plus ergo­no­mique, avec de nouvelles fonc­tion­na­li­tés et de nombreuses bulles d’aide à chaque étape.

Besoin d’un corpus de publications sur un sujet de recherche spécifique ?

ISTEX-DL propose plusieurs manières de consti­tuer son corpus, soit via une équa­tion de recherche clas­sique, soit en utili­sant une liste d’identifiants pérennes de type ARK des docu­ments voulus. Des exemples à dispo­si­tion peuvent fournir l’inspiration néces­saire à la construc­tion de sa requête propre.

Besoin seulement d’un corpus quel qu’il soit pour tester des outils ?

Des corpus prêts à l’emploi sont dispo­nibles sur le site data.istex.fr, site qui expose selon les normes du web séman­tique les données ISTEX produites et/ou trans­for­mées par l’Inist-CNRS : théma­tiques et/ou gold, certains corpus de la ressource « Corpus Spécialisés » (Orthophonie, Unitex, Astrophysique…) sont télé­char­geables en 1 clic au moyen de l’application ISTEX-DL.

La plupart des jeux de données exposés offre égale­ment la possi­bi­lité de télé­char­ger via ISTEX-DL (rubrique « Cette ressource dans ISTEX ») les corpus ISTEX, actua­li­sés en fonc­tion des char­ge­ments de la plate­forme, corres­pon­dant à un critère particulier.

Exemples : caté­go­rie scien­ti­fique Scopus : « Space and Planetary Science » ; entité nommée geogName = « River Tavy » ; langue de publi­ca­tion : « russe » ; etc.

À partir de la requête ainsi éditée, que l’on pourra ajuster le cas échéant, ou créée ex nihilo, il ne restera plus qu’à fina­li­ser les dernières sélec­tions pour obtenir le corpus souhaité.

Désormais, avec ISTEX-DL, votre corpus ISTEX est à portée de main !