Désambiguïser les entités géographiques dans les textes scientifiques

21 octobre 2019

L’équipe Istex de l’Inist a travaillé sur la désambiguïsation et l’alignement d'entités géographiques dans les textes scientifiques. Un article relatant ce travail et la méthode utilisée a été publié sur HAL.

Paris… capi­tale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ?

La désa­m­bi­guï­sa­tion de termes peut être très utile, notam­ment dans les travaux liés au trai­te­ment auto­ma­tique de la langue.

Dans le cadre du projet ISTEX, des actions d’enrichissement des données ont été menées en interne ou en colla­bo­ra­tion avec des labo­ra­toires ; des actions qui ont permis de procé­der à une extrac­tion d’entités nommées par le Laboratoire d’informatique fonda­men­tale et appli­quée de Tours (Lifat) et l’outil Unitex-Cassys.

Une méthode d‘apprentissage automatique

Il restait à relier une chaine de carac­tères extraite de son contexte avec une entité géogra­phique précise.

Aussi, pour désa­m­bi­guï­ser ces termes et les aligner auto­ma­ti­que­ment, l’équipe ISTEX a déve­loppé une méthode par appren­tis­sage auto­ma­tique non super­visé (sans ressource) ; une métho­do­lo­gie utili­sant l’algorithme Adagram. L’expérimentation a été réali­sée sur 400 000 docu­ments en texte inté­gral issus d’ISTEX, tous domaines confondus.

Désambiguïser pour aligner

Avec le projet Data-ISTEX, il était ques­tion de mettre en avant les données produites en les expo­sant avec les prin­cipes du web séman­tique (Linked Open Data), donc de les inter­con­nec­ter avec d’autres réser­voirs de données (wiki­data, data.bnf, dbpedia, viaf, etc.). Ici, le but était donc d’aligner les entités nommées avec la ressource GeoNames couram­ment utili­sée pour ce type de données géogra­phiques et ensuite de pouvoir faire le lien avec d’autres réser­voirs (data.bnf, wiki­data par exemple).

L’utilisation de LODEX a permis de publier ces données alignées, le triples­tore permet­tant quant à lui des inter­ro­ga­tions complexes du réservoir.

Une évaluation positive et un travail reconnu

La campagne SemEval 2019 (évalua­tion séman­tique) a montré une belle réus­site de ce projet puisque l’évaluation s’élève à 0,946 pour l’alignement « géogra­phique » (la meilleure évalua­tion possible étant 1).

Ce travail a été présenté lors : d’une ANF APSEM à Toulouse en 2018 ; d’un sémi­naire invité à l’IRIT à Toulouse en mars 2019 ; d’une présen­ta­tion invitée à Paris au labo­ra­toire géogra­phie-cités en juin 2019 ; des jour­nées d’études GIS-URFIST à l’IMSIC (Institut médi­ter­ra­néen des sciences de l’in­for­ma­tion) en juillet 2019 ; et récem­ment lors du colloque Isko France à Montpellier. La prochaine présen­ta­tion aura lieu à Dalian (Chine) lors de la confé­rence Collnet en novembre prochain.

A lire – L’article publié au colloque Isko France est dispo­nible sur HAL :

Pascal Cuxac, Alain Collignon, Stéphanie Gregorio, François Parmentier. Des bases de données massives au Web de données : désa­m­bi­guï­sa­tion et aligne­ment d’en­ti­tés géogra­phiques dans les textes scien­ti­fiques. 12ème Colloque inter­na­tio­nal d’ISKO-France : Données et méga­don­nées ouvertes en SHS : de nouveaux enjeux pour l’état et l’organisation des connais­sances ?, Oct 2019, Montpellier, France. ⟨hal-02307577⟩