ISTEX-DL : des corpus ISTEX à portée de main

12 mars 2019

Jusqu’alors, extraire un corpus de documents ISTEX supposait une certaine pratique de l’informatique, les solutions proposées étant l’utilisation de moissonneurs – utilitaires en ligne de commande – ou l’emploi de la fonction « extract », fonction du moteur de recherche de l'API ISTEX se paramétrant directement dans l’URL d’interrogation. ISTEX-DL (ISTEX-DownLoad) permet désormais un téléchargement facilité de corpus de documents ISTEX sans connaissance informatique particulière.

ISTEX, Ini­tia­tive d’excellence en Infor­ma­tion Scien­ti­fique et Tech­nique lan­cée en 2012 et des­ti­née à construire la biblio­thèque scien­ti­fique numé­rique natio­nale, est aujourd’hui un réser­voir d’archives scien­ti­fiques qui pro­pose à tra­vers sa pla­te­forme un accès en ligne à presque 22 mil­lions de publi­ca­tions numé­riques – articles de revues ou cha­pitres de livres –, pour l’en­semble de la com­mu­nau­té de l’en­sei­gne­ment supé­rieur et de la recherche fran­çaise qui le sou­haite. Ces col­lec­tions rétros­pec­tives de docu­ments, publiés en 50 langues et remon­tant jusqu’au 15e siècle, couvrent toutes les dis­ci­plines de la lit­té­ra­ture scien­ti­fique internationale.

De l’API à Istex ‑DL

Jusqu’alors, extraire un cor­pus de docu­ments ISTEX sup­po­sait une cer­taine pra­tique de l’informatique, les solu­tions pro­po­sées étant l’utilisation de mois­son­neurs – uti­li­taires en ligne de com­mande – ou l’emploi de la fonc­tion « extract », fonc­tion du moteur de recherche de l’API ISTEX se para­mé­trant direc­te­ment dans l’URL d’interrogation.

ISTEX-DL est né de la volon­té de per­mettre à tous les ayants droit ISTEX, sans connais­sance infor­ma­tique par­ti­cu­lière, d’exploiter l’archive ISTEX pour en extraire un cor­pus de docu­ments adap­té à ses besoins,  afin de com­plé­ter les moyens d’extraction de cor­pus ISTEX exis­tants (lire à ce sujet le billet de blog : « Extraire un cor­pus ISTEX : 4 solu­tions »).

Déve­lop­pée en 5 jours par les équipes ISTEX et lan­cée en sep­tembre 2017 dans une ver­sion bêta, l’application ISTEX-DL a évo­lué depuis vers une inter­face plus ergo­no­mique, avec de nou­velles fonc­tion­na­li­tés et de nom­breuses bulles d’aide à chaque étape.

Besoin d’un corpus de publications sur un sujet de recherche spécifique ?

ISTEX-DL pro­pose plu­sieurs manières de consti­tuer son cor­pus, soit via une équa­tion de recherche clas­sique, soit en uti­li­sant une liste d’identifiants pérennes de type ARK des docu­ments vou­lus. Des exemples à dis­po­si­tion peuvent four­nir l’inspiration néces­saire à la construc­tion de sa requête propre.

Besoin seulement d’un corpus quel qu’il soit pour tester des outils ?

Des cor­pus prêts à l’emploi sont dis­po­nibles sur le site data.istex.fr, site qui expose selon les normes du web séman­tique les don­nées ISTEX pro­duites et/ou trans­for­mées par l’Inist-CNRS : thé­ma­tiques et/ou gold, cer­tains cor­pus de la res­source « Cor­pus Spé­cia­li­sés » (Ortho­pho­nie, Uni­tex, Astro­phy­sique…) sont télé­char­geables en 1 clic au moyen de l’application ISTEX-DL.

La plu­part des jeux de don­nées expo­sés offre éga­le­ment la pos­si­bi­li­té de télé­char­ger via ISTEX-DL (rubrique « Cette res­source dans ISTEX ») les cor­pus ISTEX, actua­li­sés en fonc­tion des char­ge­ments de la pla­te­forme, cor­res­pon­dant à un cri­tère particulier.

Exemples : caté­go­rie scien­ti­fique Sco­pus : « Space and Pla­ne­ta­ry Science » ; enti­té nom­mée geo­gName = « River Tavy » ; langue de publi­ca­tion : « russe » ; etc.

À par­tir de la requête ain­si édi­tée, que l’on pour­ra ajus­ter le cas échéant, ou créée ex nihi­lo, il ne res­te­ra plus qu’à fina­li­ser les der­nières sélec­tions pour obte­nir le cor­pus souhaité.

Désor­mais, avec ISTEX-DL, votre cor­pus ISTEX est à por­tée de main !