Atelier pratique ISTEX : vers la fouille de texte

13 mai 2019

usages Istex TDM
Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique, les équipes ISTEX et leurs partenaires viennent à votre rencontre. Ils vous présenteront, sous forme de travaux pratiques encadrés, les usages du réservoir ISTEX pour la fouille de texte (TDM).

La plateforme ISTEX

Elle offre l’accès à un cor­pus de plus de 22 mil­lions d’articles de revues et de cha­pitres d’ebooks publiés entre 1473 et 2015 par 20 édi­teurs inter­na­tio­naux et fran­co­phones, cor­pus qui couvre tous les champs dis­ci­pli­naires. Les articles sont sys­té­ma­ti­que­ment dis­po­nibles en texte intégral.
À ce réser­voir inéga­lé en res­sources mul­ti­dis­ci­pli­naires s’ajoutent des ser­vices aux uti­li­sa­teurs qui per­mettent d’en opti­mi­ser l’exploitation grâce à des outils de fouille de conte­nus (TDM) et de valo­ri­sa­tion interactive.

Les ateliers pratiques

Ces for­ma­tions concer­nant les usages du réser­voir ISTEX grâce aux ser­vices asso­ciés sont orga­ni­sées par la Direc­tion de l’in­for­ma­tion scien­ti­fique et tech­nique du CNRS (DIST), l’I­nist et le réseau des Urfist.

Les agents de l’Inist seront en charge d’animer les mati­nées de ces ren­dez-vous pratiques.

Le pro­gramme se décline en 2 demi-journées

Matin : construire et valoriser un corpus spécialisé à partir du réservoir ISTEX en 3 parties

Interroger ISTEX

  • Créa­tion d’une requête étape par étape avec un niveau de com­plexi­té croissant
  • Test de la requête sur le démons­tra­teur (https://demo.istex.fr/)

Télécharger un corpus

  • Uti­li­sa­tion de l’application de télé­char­ge­ment de cor­pus ISTEX-DL (https://dl.istex.fr/) et décou­verte des para­mètres avan­cés du service.

Explorer et analyser son corpus téléchargé avec Lodex (https://lodex.inist.fr/)

  • Import du cor­pus dans Lodex, un outil qui per­met de trans­for­mer n’importe quel jeu de don­nées en site web dyna­mique offrant dif­fé­rents angles de vue sur les don­nées au tra­vers de dif­fé­rents gra­phiques, de fiche ou de facette.
  • Navi­ga­tion dans le cor­pus pour se rendre compte de manière gra­phique des résul­tats de la requête
  • Expo­si­tion du cor­pus pour faci­li­ter sa réutilisation

Ce pro­ces­sus peut être repro­duit plu­sieurs fois en boucle pour affi­ner la requête jusqu’à l’obtention du cor­pus souhaité

Après-midi : visualiser et analyser les métadonnées d’un corpus documentaire

Ate­lier : explo­ra­tion d’un cor­pus docu­men­taire ISTEX à l’aide de l’outil de car­to­gra­phie Gar­gan­text et/ou CILLEX

L’outil Gar­gan­text est conçu pour pro­duire des cartes inter­ac­tives qui évo­luent au fur et à mesure que vous tra­vaillez avec. Ces cartes thé­ma­tiques de mots peuvent être uti­li­sées pour construire un état de l’art en car­to­gra­phiant un ensemble de docu­ments et en met­tant en place une repré­sen­ta­tion col­lec­tive d’un ques­tion­ne­ment, etc.

L’outil Cil­lex est conçu pour pro­duire des cartes dyna­miques réfé­ren­çant les méta­don­nées d’une requête à l’API ISTEX. Cette car­to­gra­phie per­met de choi­sir les méta­don­nées d’intérêt en fonc­tion du type de recherche (par thé­ma­tique, par auteur, etc.)

Ate­lier pra­tique sur l’usage des res­sources ISTEX : les dates

Pour aller plus loin

Les tutoriels

Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)

https://corpus-specialises.corpus.istex.fr/

Ce jeu de don­nées pro­pose des col­lec­tions de cor­pus spé­cia­li­sés consti­tuées par l’é­quipe ISTEX de l’I­nist en vue d’une exploi­ta­tion en trai­te­ment auto­ma­tique des langues et en fouille de textes.

Ces cor­pus spé­cia­li­sés sont com­po­sés de docu­ments en texte inté­gral extraits de la pla­te­forme ISTEX pour répondre à dif­fé­rents cas d’usage.

  • https://unitex-collection.corpus.istex.fr/
    Cette col­lec­tion regroupe des cor­pus de docu­ments ISTEX en texte inté­gral. Ces cor­pus ont été consti­tués pour l’é­va­lua­tion de la détec­tion d’en­ti­tés nom­mées par l’ou­til Unitex-CasSys.
  • https://vieillissement-collection.corpus.istex.fr/
    Cette col­lec­tion regroupe des cor­pus de docu­ments ISTEX en texte inté­gral appar­te­nant à la thé­ma­tique du vieillissement.