Atelier pratique ISTEX : vers la fouille de texte

13 mai 2019

usages Istex TDM
Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique, les équipes ISTEX et leurs partenaires viennent à votre rencontre. Ils vous présenteront, sous forme de travaux pratiques encadrés, les usages du réservoir ISTEX pour la fouille de texte (TDM).

La plateforme ISTEX

Elle offre l’accès à un corpus de plus de 22 millions d’articles de revues et de chapitres d’ebooks publiés entre 1473 et 2015 par 20 éditeurs internationaux et francophones, corpus qui couvre tous les champs disciplinaires. Les articles sont systématiquement disponibles en texte intégral.
À ce réservoir inégalé en ressources multidisciplinaires s’ajoutent des services aux utilisateurs qui permettent d’en optimiser l’exploitation grâce à des outils de fouille de contenus (TDM) et de valorisation interactive.

Les ateliers pratiques

Ces formations concernant les usages du réservoir ISTEX grâce aux services associés sont organisées par la Direction de l’information scientifique et technique du CNRS (DIST), l’Inist et le réseau des Urfist.

Les agents de l’Inist seront en charge d’animer les matinées de ces rendez-vous pratiques.

Le programme se décline en 2 demi-journées

Matin : construire et valoriser un corpus spécialisé à partir du réservoir ISTEX en 3 parties

Interroger ISTEX

  • Création d’une requête étape par étape avec un niveau de complexité croissant
  • Test de la requête sur le démonstrateur (https://demo.istex.fr/)

Télécharger un corpus

  • Utilisation de l’application de téléchargement de corpus ISTEX-DL (https://dl.istex.fr/) et découverte des paramètres avancés du service.

Explorer et analyser son corpus téléchargé avec Lodex (https://lodex.inist.fr/)

  • Import du corpus dans Lodex, un outil qui permet de transformer n’importe quel jeu de données en site web dynamique offrant différents angles de vue sur les données au travers de différents graphiques, de fiche ou de facette.
  • Navigation dans le corpus pour se rendre compte de manière graphique des résultats de la requête
  • Exposition du corpus pour faciliter sa réutilisation

Ce processus peut être reproduit plusieurs fois en boucle pour affiner la requête jusqu’à l’obtention du corpus souhaité

Après-midi : visualiser et analyser les métadonnées d’un corpus documentaire

Atelier : exploration d’un corpus documentaire ISTEX à l’aide de l’outil de cartographie Gargantext et/ou CILLEX

L’outil Gargantext est conçu pour produire des cartes interactives qui évoluent au fur et à mesure que vous travaillez avec. Ces cartes thématiques de mots peuvent être utilisées pour construire un état de l’art en cartographiant un ensemble de documents et en mettant en place une représentation collective d’un questionnement, etc.

L’outil Cillex est conçu pour produire des cartes dynamiques référençant les métadonnées d’une requête à l’API ISTEX. Cette cartographie permet de choisir les métadonnées d’intérêt en fonction du type de recherche (par thématique, par auteur, etc.)

Pour aller plus loin

Les tutoriels

Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)

https://corpus-specialises.corpus.istex.fr/

Ce jeu de données propose des collections de corpus spécialisés constituées par l’équipe ISTEX de l’Inist en vue d’une exploitation en traitement automatique des langues et en fouille de textes.

Ces corpus spécialisés sont composés de documents en texte intégral extraits de la plateforme ISTEX pour répondre à différents cas d’usage.