Text & Data Mining

Chercheur Professionnel de l'IST

Vous cherchez à analyser ou enrichir vos documents scientifiques à l'aide d'outils automatiques.

Nos équipes proposent différents services dédiés au Text & Data Mining. Nous appliquons, développons, adaptons des méthodes de fouille de textes pour vous proposer des enrichissements adaptés à vos textes, selon votre besoin.

TDM facilement

Vous déposez vos textes dans notre plateforme, ils seront automatiquement analysés pour vous permettre de les étudier ou les analyser.

Nous mettons à dispo­si­tion nos tech­niques et savoir-faire à travers l’outil de data visua­li­sa­tion - Lodex. Sans confi­gu­ra­tion, sans connais­sance parti­cu­lière, les trai­te­ments sont auto­ma­ti­que­ment appli­qués à vos textes. De cette manière vous pourrez, par exemple, posi­tion­ner auto­ma­ti­que­ment vos données dans un plan de clas­se­ment spéci­fique, extraire d’un texte des termes carac­té­ris­tiques (lieux, personnes , etc.),  ou aligner des termes sur des réfé­ren­tiels, des termi­no­lo­gies ou des classifications.

Webservices TDM

Vous utilisez nos techniques et algorithmes directement dans vos programmes Python ou R

Nous mettons à dispo­si­tions de la commu­nauté ensei­gne­ment et recherche une série de web-services (norme OpenAPI), pour vous permettre de traiter vos données avec vos propres systèmes et programmes. Actuellement nous propo­sons des services pour :

  • indexa­tion par voca­bu­laire contrôlé
  • aligne­ment d’affiliations via le réfé­ren­tiel des struc­tures (RNSR)
  • extrac­tion de termes signi­fiants à partir  de textes fran­çais ou anglais
  • struc­tu­ra­tion d’une adresse postale
  • clas­si­fi­ca­tion auto­ma­tique dans un plan de classement
  • détec­tion des agglo­mé­ra­tions géogra­phiques fran­çaises dans des affi­lia­tions WOS
  • struc­tu­ra­tion des affi­lia­tions en format texte

Bases de données enrichies

Vous souhaitez enrichir votre base de données avec des métadonnées générées automatiquement. 

Nos outils et méthodes de fouille de textes enri­chissent prin­ci­pa­le­ment des  fonds docu­men­taires existants : 

  • le fonds docu­men­taire ISTEX, une archive de litté­ra­ture scien­ti­fique pour la commu­nauté ensei­gne­ment supé­rieur et recherche française.
  • la base CONDITOR, le réfé­ren­tiel de la produc­tion de la recherche publique française.

Sur des centaines de milliers de docu­ments, nous appli­quons nos programmes sur les méta­don­nées et/ou sur les textes pour les enri­chir via  l’ajout de nouvelles méta­don­nées (caté­go­ri­sa­tions, aligne­ments, extrac­tion de connais­sances…), ceci dans le but de faci­li­ter l’accès aux docu­ments, l’exploration de corpus et les analyses théma­tiques ou bibliométriques.

  1. Analyse de contenu
  2. Enrichissement de métadonnées
  3. Extrapolation d'informations
  4. Traitement automatique du langage

Réalisation

De l’ontologie OntoTM à TM Tools Explorer

Au cours du projet Visa TM dont l’objectif prin­ci­pal était de décrire une infra­struc­ture capable de rendre la fouille de texte acces­sible à tous, une liste de trois cents outils spécia­li­sés dans le trai­te­ment auto­ma­tique du langage et la fouille de textes avait été… Lire plus

Désambiguïser les entités géographiques dans les textes scientifiques

Paris… capi­tale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ? La désa­m­bi­guï­sa­tion de termes peut être très utile, notam­ment dans les travaux liés au trai­te­ment auto­ma­tique de la langue. Dans le cadre du projet ISTEX, des actions d’enrichissement des données ont été menées en interne ou en… Lire plus

Actualités

20.09.2021

Focus sur ISTEX pour le TDM

Découvrez l'usage d'ISTEX pour le Text and Data Mining à travers une vidéo réalisée dans le cadre de l'ANF TDM 2020 et venez expérimenter le TDM avec ISTEX lors de l'ANF 2021. Il reste des places! Lire plus

Contactez-nous

Vous souhaitez contacter notre équipe ?

Remplissez notre formulaire de contact, nous vous répondrons dans les meilleurs délais.




    Veuillez saisir une adresse e-mail valide de type vous@exemple.fr