Text & Data Mining

Chercheur Professionnel de l'IST

Vous cherchez à analyser ou enrichir vos documents scientifiques à l'aide d'outils automatiques.

Nos équipes proposent différents services dédiés au Text & Data Mining. Nous appliquons, développons, adaptons des méthodes de fouille de textes pour vous proposer des enrichissements adaptés à vos textes, selon votre besoin.

TDM facilement

Vous déposez vos textes dans notre plateforme, ils seront automatiquement analysés pour vous permettre de les étudier ou les analyser.

Nous mettons à disposition nos techniques et savoir-faire à travers l’outil de data visualisation – Lodex. Sans configuration, sans connaissance particulière, les traitements sont automatiquement appliqués à vos textes. De cette manière vous pourrez, par exemple, positionner automatiquement vos données dans un plan de classement spécifique, extraire d’un texte des termes caractéristiques (lieux, personnes , etc.),  ou aligner des termes sur des référentiels, des terminologies ou des classifications.

Webservices TDM

Vous utilisez nos techniques et algorithmes directement dans vos programmes Python ou R

Nous mettons à dispositions de la communauté enseignement et recherche une série de web-services (norme OpenAPI), pour vous permettre de traiter vos données avec vos propres systèmes et programmes. Actuellement nous proposons des services pour :

  • indexation par vocabulaire contrôlé
  • alignement d’affiliations via le référentiel des structures (RNSR)
  • extraction de termes signifiants à partir  de textes français ou anglais
  • structuration d’une adresse postale
  • classification automatique dans un plan de classement
  • détection des agglomérations géographiques françaises dans des affiliations WOS
  • structuration des affiliations en format texte

Bases de données enrichies

Vous souhaitez enrichir votre base de données avec des métadonnées générées automatiquement. 

Nos outils et méthodes de fouille de textes enrichissent principalement des  fonds documentaires existants : 

  • le fonds documentaire ISTEX, une archive de littérature scientifique pour la communauté enseignement supérieur et recherche française.
  • la base CONDITOR, le référentiel de la production de la recherche publique française.

Sur des centaines de milliers de documents, nous appliquons nos programmes sur les métadonnées et/ou sur les textes pour les enrichir via  l’ajout de nouvelles métadonnées (catégorisations, alignements, extraction de connaissances…), ceci dans le but de faciliter l’accès aux documents, l’exploration de corpus et les analyses thématiques ou bibliométriques.

  1. Analyse de contenu
  2. Enrichissement de métadonnées
  3. Extrapolation d'informations
  4. Traitement automatique du langage

Réalisation

De l’ontologie OntoTM à TM Tools Explorer

Au cours du projet Visa TM dont l’objectif principal était de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes avait été… Lire plus

Désambiguïser les entités géographiques dans les textes scientifiques

Paris… capitale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ? La désambiguïsation de termes peut être très utile, notamment dans les travaux liés au traitement automatique de la langue. Dans le cadre du projet ISTEX, des actions d’enrichissement des données ont été menées en interne ou en… Lire plus

Actualités

Contactez-nous

Vous souhaitez contacter notre équipe ?

Remplissez notre formulaire de contact, nous vous répondrons dans les meilleurs délais.




    Veuillez saisir une adresse e-mail valide de type vous@exemple.fr






    En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
    OK
    Modifier les paramètres