ISTEX-DL : des corpus ISTEX à portée de main

Jusqu’alors, extraire un corpus de documents ISTEX supposait une certaine pratique de l’informatique, les solutions proposées étant l’utilisation de moissonneurs – utilitaires en ligne de commande – ou l’emploi de la fonction « extract », fonction du moteur de recherche de l'API ISTEX se paramétrant directement dans l’URL d’interrogation. ISTEX-DL (ISTEX-DownLoad) permet désormais un téléchargement facilité de corpus de documents ISTEX sans connaissance informatique particulière.

ISTEX, Initiative d’excellence en Information Scientifique et Technique lancée en 2012 et destinée à construire la bibliothèque scientifique numérique nationale, est aujourd’hui un réservoir d’archives scientifiques qui propose à travers sa plateforme un accès en ligne à presque 22 millions de publications numériques – articles de revues ou chapitres de livres –, pour l’ensemble de la communauté de l’enseignement supérieur et de la recherche française qui le souhaite. Ces collections rétrospectives de documents, publiés en 50 langues et remontant jusqu’au 15e siècle, couvrent toutes les disciplines de la littérature scientifique internationale.

De l’API à Istex -DL

Jusqu’alors, extraire un corpus de documents ISTEX supposait une certaine pratique de l’informatique, les solutions proposées étant l’utilisation de moissonneurs – utilitaires en ligne de commande – ou l’emploi de la fonction « extract », fonction du moteur de recherche de l’API ISTEX se paramétrant directement dans l’URL d’interrogation.

ISTEX-DL est né de la volonté de permettre à tous les ayants droit ISTEX, sans connaissance informatique particulière, d’exploiter l’archive ISTEX pour en extraire un corpus de documents adapté à ses besoins,  afin de compléter les moyens d’extraction de corpus ISTEX existants (lire à ce sujet le billet de blog : « Extraire un corpus ISTEX : 4 solutions »).

Développée en 5 jours par les équipes ISTEX et lancée en septembre 2017 dans une version bêta, l’application ISTEX-DL a évolué depuis vers une interface plus ergonomique, avec de nouvelles fonctionnalités et de nombreuses bulles d’aide à chaque étape.

Besoin d’un corpus de publications sur un sujet de recherche spécifique ?

ISTEX-DL propose plusieurs manières de constituer son corpus, soit via une équation de recherche classique, soit en utilisant une liste d’identifiants pérennes de type ARK des documents voulus. Des exemples à disposition peuvent fournir l’inspiration nécessaire à la construction de sa requête propre.

Besoin seulement d’un corpus quel qu’il soit pour tester des outils ?

Des corpus prêts à l’emploi sont disponibles sur le site data.istex.fr, site qui expose selon les normes du web sémantique les données ISTEX produites et/ou transformées par l’Inist-CNRS : thématiques et/ou gold, certains corpus de la ressource « Corpus Spécialisés » (Orthophonie, Unitex, Astrophysique…) sont téléchargeables en 1 clic au moyen de l’application ISTEX-DL.

La plupart des jeux de données exposés offre également la possibilité de télécharger via ISTEX-DL (rubrique « Cette ressource dans ISTEX ») les corpus ISTEX, actualisés en fonction des chargements de la plateforme, correspondant à un critère particulier.

Exemples : catégorie scientifique Scopus : « Space and Planetary Science » ; entité nommée geogName = « River Tavy » ; langue de publication : « russe » ; etc.

À partir de la requête ainsi éditée, que l’on pourra ajuster le cas échéant, ou créée ex nihilo, il ne restera plus qu’à finaliser les dernières sélections pour obtenir le corpus souhaité.

Désormais, avec ISTEX-DL, votre corpus ISTEX est à portée de main !