Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique, les équipes ISTEX et l’URFIST Occitanie vous proposent un atelier le jeudi 2 juin à Toulouse. Ils vous présenteront, sous forme de travaux pratiques encadrés, les usages du réservoir ISTEX pour la fouille de texte (TDM).
La plateforme ISTEX
Elle offre l’accès à un corpus de plus de 25 millions d’articles de revues et de chapitres d’ebooks publiés entre 1473 et 2015 par 20 éditeurs internationaux et francophones, corpus qui couvre tous les champs disciplinaires. Les articles sont systématiquement disponibles en texte intégral.
À ce réservoir inégalé en ressources multidisciplinaires s’ajoutent des services aux utilisateurs qui permettent d’en optimiser l’exploitation grâce à des outils de fouille de contenus (TDM) et de valorisation interactive.
Programme
[9h-12h] Construire et valoriser un corpus spécialisé à partir du réservoir ISTEX – 30 min de présentation sur ISTEX et 2h30 de travaux pratiques dirigés
Intervenants : Sabine BARREAUX et Pascale VIOT de l’Institut de l’information scientifique et technique (Inist-CNRS)
Les participants pourront découvrir les outils et services ISTEX et s’approprier les méthodes de constitution de corpus à travers des exemples de corpus réalisés par l’Inist.
Cette demi-journée proposera une approche à la fois théorique et pratique autour de l’interrogation d’ISTEX, à travers la construction d’une requête avec le démonstrateur, et l’extraction des résultats, à l’aide du service de téléchargement ISTEX-DL.
A l’issue de cette matinée, les participants sauront interroger la base ISTEX pour construire et télécharger leur propre corpus.
[13h30-14h30] Travaux pratiques sur l’exploration d’un corpus documentaire ISTEX à l’aide d’outils de visualisation de données
Exploration d’un corpus avec LODEX
Intervenants : Sabine BARREAUX et Pascale VIOT (Inist-CNRS)
LODEX est un outil open-source dédié à la valorisation et à la visualisation de données structurées. Il permet d’explorer le contenu d’un corpus et de l’analyser afin d’en évaluer sa qualité.
Cet atelier permettra de poursuivre la démarche de constitution de corpus initiée le matin, en explorant le corpus téléchargé avec ISTEX-DL. Il sera proposé différentes manipulations conduisant à affiner la requête, afin de limiter les étapes de post-traitement des résultats et ainsi obtenir un corpus finalisé en vue d’une utilisation dans un outil de fouille de textes.
En amont de la formation, les participants devront avoir pris connaissance de quelques tutoriels de l’Inist pour se familiariser avec ISTEX, comprendre les différents formats de documents, assimiler le vocabulaire et s’approprier les bases du langage d’interrogation de l’API
Inscription sur le site Urfist
Les tutoriels
- Découvrir l’outil LODEX de manière pédagogique grâce aux nouveaux tutoriels LODEX mis en ligne sur le site Inist.
- Se familiariser avec ISTEX, comprendre les différents formats de documents, assimiler le vocabulaire et s’approprier les bases du langage d’interrogation de l’API : retrouvez les tutoriels de l’Inist :
Des corpus de démonstration à découvrir ou redécouvrir sur data ISTEX (http://data.istex.fr/)
https://corpus-specialises.corpus.istex.fr/
Ce jeu de données propose des collections de corpus spécialisés constituées par l’équipe ISTEX de l’Inist en vue d’une exploitation en traitement automatique des langues et en fouille de textes.