Atelier pratique sur l’usage des ressources ISTEX (Toulouse)

05.05.2022

Pour faci­li­ter la prise en main des services et des outils de consti­tu­tion, de visua­li­sa­tion et d’exploration d’un corpus théma­tique, les équipes ISTEX et l’URFIST Occitanie vous proposent un atelier le jeudi 2 juin à Toulouse.  Ils vous présen­te­ront, sous forme de travaux pratiques enca­drés, les usages du réser­voir ISTEX pour la fouille de texte (TDM).

La plateforme ISTEX

Elle offre l’accès à un corpus de plus de 25 millions d’articles de revues et de chapitres d’ebooks publiés entre 1473 et 2015 par 20 éditeurs inter­na­tio­naux et fran­co­phones, corpus qui couvre tous les champs disci­pli­naires. Les articles sont systé­ma­ti­que­ment dispo­nibles en texte intégral.
À ce réser­voir inégalé en ressources multi­dis­ci­pli­naires s’ajoutent des services aux utili­sa­teurs qui permettent d’en opti­mi­ser l’exploitation grâce à des outils de fouille de conte­nus (TDM) et de valo­ri­sa­tion interactive.

Programme

[9h-12h] Construire et valo­ri­ser un corpus spécia­lisé à partir du réser­voir ISTEX – 30 min de présen­ta­tion sur ISTEX et 2h30 de travaux pratiques dirigés

Intervenants : Sabine BARREAUX et Pascale VIOT de l’Institut de l’information scien­ti­fique et tech­nique (Inist-CNRS)

Les parti­ci­pants pour­ront décou­vrir les outils et services ISTEX et s’approprier les méthodes de consti­tu­tion de corpus à travers des exemples de corpus réali­sés par l’Inist.

Cette demi-journée propo­sera une approche à la fois théo­rique et pratique autour de l’interrogation d’ISTEX, à travers la construc­tion d’une requête avec le démons­tra­teur, et l’extraction des résul­tats, à l’aide du service de télé­char­ge­ment ISTEX-DL.

A l’issue de cette matinée, les parti­ci­pants sauront inter­ro­ger la base ISTEX pour construire et télé­char­ger leur propre corpus.

[13h30-14h30] Travaux pratiques sur l’exploration d’un corpus docu­men­taire ISTEX à l’aide d’outils de visua­li­sa­tion de données 

Exploration d’un corpus avec LODEX

Intervenants : Sabine BARREAUX et Pascale VIOT (Inist-CNRS)

LODEX est un outil open-source dédié à la valo­ri­sa­tion et à la visua­li­sa­tion de données struc­tu­rées. Il permet d’explorer le contenu d’un corpus et de l’analyser afin d’en évaluer sa qualité.

Cet atelier permet­tra de pour­suivre la démarche de consti­tu­tion de corpus initiée le matin, en explo­rant le corpus télé­chargé avec ISTEX-DL. Il sera proposé diffé­rentes mani­pu­la­tions condui­sant à affiner la requête, afin de limiter les étapes de post-trai­te­ment des résul­tats et ainsi obtenir un corpus fina­lisé en vue d’une utili­sa­tion dans un outil de fouille de textes.

En amont de la forma­tion, les parti­ci­pants devront avoir pris connais­sance de quelques tuto­riels de l’Inist pour se fami­lia­ri­ser avec ISTEX, comprendre les diffé­rents formats de docu­ments, assi­mi­ler le voca­bu­laire et s’approprier les bases du langage d’interrogation de l’API

Inscription sur le site Urfist

Les tutoriels

Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)

https://corpus-specialises.corpus.istex.fr/

Ce jeu de données propose des collec­tions de corpus spécia­li­sés consti­tuées par l’équipe ISTEX de l’Inist en vue d’une exploi­ta­tion en trai­te­ment auto­ma­tique des langues et en fouille de textes.