Atelier pratique ISTEX : vers la fouille de texte

13 mai 2019

usages Istex TDM
Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique, les équipes ISTEX et leurs partenaires viennent à votre rencontre. Ils vous présenteront, sous forme de travaux pratiques encadrés, les usages du réservoir ISTEX pour la fouille de texte (TDM).

La plateforme ISTEX

Elle offre l’accès à un corpus de plus de 22 millions d’articles de revues et de chapitres d’ebooks publiés entre 1473 et 2015 par 20 éditeurs inter­na­tio­naux et fran­co­phones, corpus qui couvre tous les champs disci­pli­naires. Les articles sont systé­ma­ti­que­ment dispo­nibles en texte intégral.
À ce réser­voir inégalé en ressources multi­dis­ci­pli­naires s’ajoutent des services aux utili­sa­teurs qui permettent d’en opti­mi­ser l’exploitation grâce à des outils de fouille de conte­nus (TDM) et de valo­ri­sa­tion interactive.

Les ateliers pratiques

Ces forma­tions concer­nant les usages du réser­voir ISTEX grâce aux services asso­ciés sont orga­ni­sées par la Direction de l’in­for­ma­tion scien­ti­fique et tech­nique du CNRS (DIST), l’Inist et le réseau des Urfist.

Les agents de l’Inist seront en charge d’animer les mati­nées de ces rendez-vous pratiques.

Le programme se décline en 2 demi-journées

Matin : construire et valoriser un corpus spécialisé à partir du réservoir ISTEX en 3 parties

Interroger ISTEX

  • Création d’une requête étape par étape avec un niveau de complexité croissant
  • Test de la requête sur le démons­tra­teur (https://demo.istex.fr/)

Télécharger un corpus

  • Utilisation de l’application de télé­char­ge­ment de corpus ISTEX-DL (https://dl.istex.fr/) et décou­verte des para­mètres avancés du service.

Explorer et analyser son corpus téléchargé avec Lodex (https://lodex.inist.fr/)

  • Import du corpus dans Lodex, un outil qui permet de trans­for­mer n’importe quel jeu de données en site web dyna­mique offrant diffé­rents angles de vue sur les données au travers de diffé­rents graphiques, de fiche ou de facette.
  • Navigation dans le corpus pour se rendre compte de manière graphique des résul­tats de la requête
  • Exposition du corpus pour faci­li­ter sa réutilisation

Ce proces­sus peut être repro­duit plusieurs fois en boucle pour affiner la requête jusqu’à l’obtention du corpus souhaité

Après-midi : visualiser et analyser les métadonnées d’un corpus documentaire

Atelier : explo­ra­tion d’un corpus docu­men­taire ISTEX à l’aide de l’outil de carto­gra­phie Gargantext et/ou CILLEX

L’outil Gargantext est conçu pour produire des cartes inter­ac­tives qui évoluent au fur et à mesure que vous travaillez avec. Ces cartes théma­tiques de mots peuvent être utili­sées pour construire un état de l’art en carto­gra­phiant un ensemble de docu­ments et en mettant en place une repré­sen­ta­tion collec­tive d’un ques­tion­ne­ment, etc.

L’outil Cillex est conçu pour produire des cartes dyna­miques réfé­ren­çant les méta­don­nées d’une requête à l’API ISTEX. Cette carto­gra­phie permet de choisir les méta­don­nées d’intérêt en fonc­tion du type de recherche (par théma­tique, par auteur, etc.)

Atelier pratique sur l’usage des ressources ISTEX : les dates

Pour aller plus loin

Les tutoriels

Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)

https://corpus-specialises.corpus.istex.fr/

Ce jeu de données propose des collec­tions de corpus spécia­li­sés consti­tuées par l’équipe ISTEX de l’Inist en vue d’une exploi­ta­tion en trai­te­ment auto­ma­tique des langues et en fouille de textes.

Ces corpus spécia­li­sés sont compo­sés de docu­ments en texte inté­gral extraits de la plate­forme ISTEX pour répondre à diffé­rents cas d’usage.