Text & Data Mining

Chercheur Professionnel de l'IST

Vous cherchez à analyser ou enrichir vos documents scientifiques à l'aide d'outils automatiques.

Nos équipes proposent différents services dédiés au Text & Data Mining. Nous appliquons, développons, adaptons des méthodes de fouille de textes pour vous proposer des enrichissements adaptés à vos textes, selon votre besoin.

ISTEX TDM ISTEX Search

TDM facilement

Vous déposez vos textes dans notre plateforme, ils seront automatiquement analysés pour vous permettre de les étudier ou les analyser.

Nous mettons à disposition nos techniques et savoir-faire à travers l’outil de data visualisation – Lodex. Sans configuration, sans connaissance particulière, les traitements sont automatiquement appliqués à vos textes. De cette manière vous pourrez, par exemple, positionner automatiquement vos données dans un plan de classement spécifique, extraire d’un texte des termes caractéristiques (lieux, personnes , etc.), ou aligner des termes sur des référentiels, des terminologies ou des classifications.

Webservices TDM

Vous utilisez nos techniques et algorithmes directement dans vos programmes Python ou R

Nous mettons à dispositions de la communauté enseignement et recherche une série de web-services (norme OpenAPI), pour vous permettre de traiter vos données avec vos propres systèmes et programmes. Actuellement nous proposons des services pour :

indexation par vocabulaire contrôlé
alignement d’affiliations via le référentiel des structures (RNSR)
extraction de termes signifiants à partir de textes français ou anglais
structuration d’une adresse postale
classification automatique dans un plan de classement
détection des agglomérations géographiques françaises dans des affiliations WOS
structuration des affiliations en format texte

Bases de données enrichies

Vous souhaitez enrichir votre base de données avec des métadonnées générées automatiquement.

Nos outils et méthodes de fouille de textes enrichissent principalement des fonds documentaires existants :

le fonds documentaire ISTEX, une archive de littérature scientifique pour la communauté enseignement supérieur et recherche française.
la base CONDITOR, le référentiel de la production de la recherche publique française.

Sur des centaines de milliers de documents, nous appliquons nos programmes sur les métadonnées et/ou sur les textes pour les enrichir via l’ajout de nouvelles métadonnées (catégorisations, alignements, extraction de connaissances…), ceci dans le but de faciliter l’accès aux documents, l’exploration de corpus et les analyses thématiques ou bibliométriques.

Analyse de contenu
Enrichissement de métadonnées
Extrapolation d'informations
Traitement automatique du langage

Réalisation

De l’ontologie OntoTM à TM Tools Explorer

Au cours du projet Visa TM dont l’objectif principal était de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes avait été… Lire plus

Actualités

12.01.2023

De la fouille de textes sans coder grâce aux web services

Justine Revol du service TDM de l’Inist explique comment faire de la fouille de textes sans coder grâce à des web services dédiés. Lire plus

12.07.2024

Formation : La fouille de textes par l’exemple

L'Inist et l'ENSSIB se sont associés pour proposer une formation consacrée à la fouille de textes, à l'ENSSIB, mi novembre 2024. Les inscriptions sont ouvertes jusqu'au 5/10/2024 Lire plus

10.09.2024

Istex, de la base au TDM

Plus qu’une base documentaire, l’infrastructure Istex, opérée par l’Inist-CNRS, propose à la communauté de l’enseignement supérieur et de la recherche un ensemble d’outils autonomes et interopérables pour la fouille de textes ou TDM (Text and Data Mining). Lire plus

Contactez-nous

Vous souhaitez contacter notre équipe ?

Remplissez notre formulaire de contact, nous vous répondrons dans les meilleurs délais.