De l’ontologie OntoTM à TM Tools Explorer

16 novembre 2021

Fruit d’une collaboration entre les services « Text et Data Mining » et « Ingénierie terminologique » de l’Inist, TM Tools Explorer est la version bêta d’une application d’exploration des outils de fouille de textes construite à partir d’OntoTM et de Lodex.

Au cours du projet Visa TM dont l’objectif prin­ci­pal était de décrire une infra­struc­ture capable de rendre la fouille de texte acces­sible à tous, une liste de trois cents outils spécia­li­sés dans le trai­te­ment auto­ma­tique du langage et la fouille de textes avait été établie. Elle présen­tait un premier pano­rama des appli­ca­tions disponibles.

Cependant, l’équipe chargée du projet a décidé d’aller plus loin en trans­for­mant cette liste en onto­lo­gie avec l’objectif de propo­ser une repré­sen­ta­tion enri­chie, formelle, expli­cite et mani­pu­lable par une machine de ces outils.

La naissance d’OntoTM

Pour construire OntoTM (Ontology of Text Mining), la liste d’outils a été trans­for­mée en fichier OWL (Web Ontology Language). Le langage OWL permet de repré­sen­ter les connais­sances dans les onto­lo­gies infor­ma­tiques. Dans un deuxième temps, un ensemble de classes et de proprié­tés prove­nant d’ontologies exis­tantes ont été sélec­tion­nés afin d’aider à la modé­li­sa­tion du domaine.

La liste d’outils OWL et les onto­lo­gies externes ont ensuite été fusion­nées au sein d’une même onto­lo­gie : OntoTM.

Passage par Lodex

Produit par l’Inist, l’outil Lodex (Linked Open Data EXperiment) permet de publier des jeux de données (.csv, .tsv, .xml, .json, etc.) dans des formats du web séman­tique (JSON-LD, N‑Quads) et d’exposer ces données dans un rapport web dyna­mique sous la forme d’un tableau de bord avec des graphiques.

Aussi, un jeu de données a été extrait d’OntoTM en .csv. Avant son verse­ment dans Lodex, il a béné­fi­cié d’enrichissements :

  • un aligne­ment des outils avec ceux réper­to­riés dans Wikidata afin d’enrichir le fichier avec les liens vers les notices Wikidata trouvées ;
  • une recherche auto­ma­ti­sée de réfé­rences biblio­gra­phiques liées aux outils à la fois dans la base ISTEX et dans la base Conditor.

Une vue des facettes dans TM Tools Explorer

Ensuite, le char­ge­ment du fichier .csv dans Lodex en vue de son exploi­ta­tion a mis en avant un certain nombre de facettes dans TM Tools Explorer : tâche(s) effectuée(s) par l’outil, pays de produc­tion, langue(s) traitée(s), langage(s) de program­ma­tion, format(s) d’entrée, système(s) d’exploitation, interface(s) utili­sa­teurs. Les croi­se­ments de diffé­rentes facettes sont suscep­tibles de consti­tuer une aide à la recherche pour des outils spécifiques.

Une optique collaborative

Les données étant rensei­gnées majo­ri­tai­re­ment en anglais, et afin de propo­ser plus rapi­de­ment une version utili­sable, l’équipe a fait le choix de produire cette version bêta en anglais. Une version en fran­çais devrait suivre assez rapi­de­ment néanmoins.

Afin d’enrichir la base de données, l’équipe compte sur une appro­pria­tion de l’outil par les utili­sa­teurs et les commu­nau­tés de recherche impli­quées dans des travaux sur le Traitement Automatique des Langues ainsi que la fouille de textes.

C’est donc clai­re­ment dans une optique colla­bo­ra­tive et ouverte que cette première propo­si­tion a été construite au service d’une faci­li­ta­tion d’appropriation par tous des outils de fouille de textes, la plus simple possible.

Toutes les propo­si­tions d’amélioration sont les bienvenues.

Plus d’in­for­ma­tions…

Contact

Fabienne KETTANI (Équipe Text and Data Mining, Inist-CNRS)

Frank ARNOULD (Équipe Ingénierie termi­no­lo­gique, Inist-CNRS)