Text & Data Mining

Chercheur Professionnel de l'IST

Vous cherchez à analyser ou enrichir vos documents scientifiques à l'aide d'outils automatiques.

Nos équipes proposent différents services dédiés au Text & Data Mining. Nous appliquons, développons, adaptons des méthodes de fouille de textes pour vous proposer des enrichissements adaptés à vos textes, selon votre besoin.

TDM facilement

Vous déposez vos textes dans notre plateforme, ils seront automatiquement analysés pour vous permettre de les étudier ou les analyser.

Nous mettons à dispo­si­tion nos tech­niques et savoir-faire à travers l’outil de data visua­li­sa­tion - Lodex. Sans confi­gu­ra­tion, sans connais­sance parti­cu­lière, les trai­te­ments sont auto­ma­ti­que­ment appli­qués à vos textes. De cette manière vous pourrez, par exemple, posi­tion­ner auto­ma­ti­que­ment vos données dans un plan de clas­se­ment spéci­fique, extraire d’un texte des termes carac­té­ris­tiques (lieux, personnes , etc.),  ou aligner des termes sur des réfé­ren­tiels, des termi­no­lo­gies ou des classifications.

Webservices TDM

Vous utilisez nos techniques et algorithmes directement dans vos programmes Python ou R

Nous mettons à dispo­si­tions de la commu­nauté ensei­gne­ment et recherche une série de web-services (norme OpenAPI), pour vous permettre de traiter vos données avec vos propres systèmes et programmes. Actuellement nous propo­sons des services pour :

  • indexa­tion par voca­bu­laire contrôlé
  • aligne­ment d’affiliations via le réfé­ren­tiel des struc­tures (RNSR)
  • extrac­tion de termes signi­fiants à partir  de textes fran­çais ou anglais
  • struc­tu­ra­tion d’une adresse postale
  • clas­si­fi­ca­tion auto­ma­tique dans un plan de classement
  • détec­tion des agglo­mé­ra­tions géogra­phiques fran­çaises dans des affi­lia­tions WOS
  • struc­tu­ra­tion des affi­lia­tions en format texte

Bases de données enrichies

Vous souhaitez enrichir votre base de données avec des métadonnées générées automatiquement. 

Nos outils et méthodes de fouille de textes enri­chissent prin­ci­pa­le­ment des  fonds docu­men­taires existants : 

  • le fonds docu­men­taire ISTEX, une archive de litté­ra­ture scien­ti­fique pour la commu­nauté ensei­gne­ment supé­rieur et recherche française.
  • la base CONDITOR, le réfé­ren­tiel de la produc­tion de la recherche publique française.

Sur des centaines de milliers de docu­ments, nous appli­quons nos programmes sur les méta­don­nées et/ou sur les textes pour les enri­chir via  l’ajout de nouvelles méta­don­nées (caté­go­ri­sa­tions, aligne­ments, extrac­tion de connais­sances…), ceci dans le but de faci­li­ter l’accès aux docu­ments, l’exploration de corpus et les analyses théma­tiques ou bibliométriques.

  1. Analyse de contenu
  2. Enrichissement de métadonnées
  3. Extrapolation d'informations
  4. Traitement automatique du langage

Réalisation

Désambiguïser les entités géographiques dans les textes scientifiques

Paris… capi­tale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ? La désa­m­bi­guï­sa­tion de termes peut être très utile, notam­ment dans les travaux liés au trai­te­ment auto­ma­tique de la langue. Dans le cadre du projet ISTEX, des actions d’enrichissement des données ont été menées en interne ou en… Lire plus

Actualités

Contactez-nous

Vous souhaitez contacter notre équipe ?

Remplissez notre formulaire de contact, nous vous répondrons dans les meilleurs délais.




    Veuillez saisir une adresse e-mail valide de type vous@exemple.fr