Désambiguïser les entités géographiques dans les textes scientifiques

21 octobre 2019

L’équipe Istex de l’Inist a travaillé sur la désambiguïsation et l’alignement d'entités géographiques dans les textes scientifiques. Un article relatant ce travail et la méthode utilisée a été publié sur HAL.

Paris… capi­tale de la France ? Ville du Texas ? Ville de l’Ontario ? Une personne ?

La désa­m­bi­guï­sa­tion de termes peut être très utile, notam­ment dans les tra­vaux liés au trai­te­ment auto­ma­tique de la langue.

Dans le cadre du pro­jet ISTEX, des actions d’enrichissement des don­nées ont été menées en interne ou en col­la­bo­ra­tion avec des labo­ra­toires ; des actions qui ont per­mis de pro­cé­der à une extrac­tion d’entités nom­mées par le Labo­ra­toire d’informatique fon­da­men­tale et appli­quée de Tours (Lifat) et l’outil Unitex-Cassys.

Une méthode d‘apprentissage automatique

Il res­tait à relier une chaine de carac­tères extraite de son contexte avec une enti­té géo­gra­phique précise.

Aus­si, pour désa­m­bi­guï­ser ces termes et les ali­gner auto­ma­ti­que­ment, l’équipe ISTEX a déve­lop­pé une méthode par appren­tis­sage auto­ma­tique non super­vi­sé (sans res­source) ; une métho­do­lo­gie uti­li­sant l’algorithme Ada­gram. L’expérimentation a été réa­li­sée sur 400 000 docu­ments en texte inté­gral issus d’ISTEX, tous domaines confondus.

Désambiguïser pour aligner

Avec le pro­jet Data-ISTEX, il était ques­tion de mettre en avant les don­nées pro­duites en les expo­sant avec les prin­cipes du web séman­tique (Lin­ked Open Data), donc de les inter­con­nec­ter avec d’autres réser­voirs de don­nées (wiki­da­ta, data.bnf, dbpe­dia, viaf, etc.). Ici, le but était donc d’aligner les enti­tés nom­mées avec la res­source Geo­Names cou­ram­ment uti­li­sée pour ce type de don­nées géo­gra­phiques et ensuite de pou­voir faire le lien avec d’autres réser­voirs (data.bnf, wiki­da­ta par exemple).

L’utilisation de LODEX a per­mis de publier ces don­nées ali­gnées, le tri­ples­tore per­met­tant quant à lui des inter­ro­ga­tions com­plexes du réservoir.

Une évaluation positive et un travail reconnu

La cam­pagne SemE­val 2019 (éva­lua­tion séman­tique) a mon­tré une belle réus­site de ce pro­jet puisque l’évaluation s’élève à 0,946 pour l’alignement « géo­gra­phique » (la meilleure éva­lua­tion pos­sible étant 1).

Ce tra­vail a été pré­sen­té lors : d’une ANF APSEM à Tou­louse en 2018 ; d’un sémi­naire invi­té à l’IRIT à Tou­louse en mars 2019 ; d’une pré­sen­ta­tion invi­tée à Paris au labo­ra­toire géo­gra­phie-cités en juin 2019 ; des jour­nées d’é­tudes GIS-URFIST à l’IM­SIC (Ins­ti­tut médi­ter­ra­néen des sciences de l’in­for­ma­tion) en juillet 2019 ; et récem­ment lors du col­loque Isko France à Mont­pel­lier. La pro­chaine pré­sen­ta­tion aura lieu à Dalian (Chine) lors de la confé­rence Coll­net en novembre prochain.

A lire – L’article publié au col­loque Isko France est dis­po­nible sur HAL :

Pas­cal Cuxac, Alain Col­li­gnon, Sté­pha­nie Gre­go­rio, Fran­çois Par­men­tier. Des bases de don­nées mas­sives au Web de don­nées : désa­m­bi­guï­sa­tion et ali­gne­ment d’en­ti­tés géo­gra­phiques dans les textes scien­ti­fiques. 12ème Col­loque inter­na­tio­nal d’ISKO-France : Don­nées et méga­don­nées ouvertes en SHS : de nou­veaux enjeux pour l’état et l’organisation des connais­sances ?, Oct 2019, Mont­pel­lier, France. ⟨hal-02307577⟩