Retour sur une approche concrète du TDM

03.10.2019

Se plaçant comme un acteur fort en matière de Text and Data Mining (TDM), l’Inist a animé la forma­tion « La fouille de textes par l’exemple à travers l’ex­ploi­ta­tion des corpus Istex » à la BULAC à Paris, en parte­na­riat avec l’Enssib.

Durant deux jours, les 25 et 26 septembre dernier, des profes­sion­nels de la fouille de textes se sont succédé devant les 14 parti­ci­pants afin de leur présen­ter un pano­rama du TDM avec un double objec­tif : permettre une montée en compé­tences sur la culture TDM (sur les aspects poli­tiques, juri­diques et tech­niques) et donner une approche concrète au travers de « données à voir » dans des corpus ISTEX.

Le premier jour était axé sur le contenu, essen­tiel­le­ment autour d’ISTEX, avec d’une part l’utilisation de proces­sus de TDM pour l’en­ri­chis­se­ment des données ISTEX et d’autre part la métho­do­lo­gie mise en place pour créer un corpus à valeur ajoutée quali­fié, perti­nent et normé.

La seconde journée était quant à elle plus orien­tée vers les outils et ou plate­formes tels que GROBID, KEYTERM, GARGANTEX ou encore CORTEXT.

Conservateurs dans des services de valo­ri­sa­tion, proches des cher­cheurs, les parti­ci­pants ont émis des retours très favo­rables sur cette forma­tion.  Outre la décou­verte du TDM, elle leur a permis d’appréhender davan­tage ISTEX, une infra­struc­ture sécu­ri­sée qui se présente comme un réser­voir de qualité pour le TDM.

La forma­tion était pilotée par Laurent Schmitt, direc­teur adjoint de l’Inist, et animée par plusieurs inter­ve­nants de l’Inist, de l’Enssib, de Science-Miner, de l’ISC-PIF et de LISIS.