Conditor, du projet à la base

Date de la réalisation : 1 mars 2020

Après avoir été durant quatre ans un projet impliquant de nombreux partenaires dont l’Inist, la base de signalement des publications scientifiques françaises est ouverte comme annoncé lors de la réunion de fin de projet de février 2020.

Lancé en décembre 2016 et clos début 2020, l’objectif du projet Conditor était de recen­ser l’ensemble des publi­ca­tions de la recherche fran­çaise au sein d’un seul réser­voir de méta­don­nées enri­chies, homo­gé­néi­sées et dédou­blon­nées, et offrir ainsi une vision complète de la produc­tion française.

Le recueil des publi­ca­tions sous forme de méta­don­nées a néces­sité un impor­tant travail de program­ma­tion opéré à l’Inist ;  une mise en œuvre parfois complexe en raison de la multi­pli­cité des formats de données liées aux diffé­rentes sources collectées.

4 sources de données

Les bases en « open access » sont mois­son­nées, en iden­ti­fiant les publi­ca­tions ayant au moins un auteur appar­te­nant à une struc­ture fran­çaise de l’ESR. Actuellement, les méta­don­nées proviennent de HAL, Crossref, Pubmed et l’ABES qui fournit des données du SUDOC (ouvrages, thèses).

Ces méta­don­nées sont ensuite trans­for­mées au format TEI puis enri­chies par des méthodes d’alignements auto­ma­tiques et des méthodes de fouille de textes. Enfin, un algo­rithme de dédou­blon­nage iden­ti­fie et marque les docu­ments en doublons.

Des enrichissements

Les notices sont enri­chies de plusieurs infor­ma­tions (quand cela est possible) :

  • Lien vers le docu­ment en accès libre (après aligne­ment avec Unpaywal et Core) ;
  • Catégorie scien­ti­fique(apposée par le baro­mètre de la science ouverte – BSO) ;
  • Identifiants auteurs IdRef, Orcid, IdHal;
  • Domaines scien­ti­fiques des revues conte­nant l’article (clas­si­fi­ca­tion Science-Metrix et Scopus) ;
  • Code RNSR (Répertoire natio­nal des struc­tures de recherche) associé aux affi­lia­tions fran­çaises : cela se fait soit par récu­pé­ra­tion des infor­ma­tions dans d’autres bases (HAL par exemple), soit à partir de programmes infor­ma­tiques déve­lop­pés à l’Inist.

Et maintenant une base

A ce jour, Conditor recense plus de 1 430 000 signa­le­ments, dont environ 1 108 000 publi­ca­tions distinctes, allant de 2014 à 2020. Fin décembre, la base comp­tait 66 % d’articles, 10 % de thèses et 14 % de conférences.

Elle est acces­sible à tout membre de l’ESR pour requê­ter et télé­char­ger des corpus via une application.

Le résul­tat peut être déchargé sous forme de corpus en TEI ou JSON. De plus, le programme a une option permet­tant d’avoir une seule notice conso­li­dée quand plusieurs réfé­rences iden­tiques sont détectées.

Le fruit d’un travail multipartenarial

Le projet Conditor a été mené grâce au soutien du minis­tère de l’Enseignement supé­rieur, de la Recherche et de l’Innovation, en impli­quant de nombreux partenaires :

  • des orga­nismes de recherche : CNRS, Inra, Inria, IRD, Irstea,
  • des univer­si­tés : Angers, Bordeaux, Grenoble, Lorraine, Montpellier, Nice Paris Dauphine, Paris Diderot, Sorbonne Université, Strasbourg,
  • des opéra­teurs et entités de l’ESR : Abes, Amue, CCSD, Hcéres, Huma-Num, IAVFF Agreenium, Inist CNRS, MESRI RNSR-ScanR.

Vidéo

Découvrir la vidéo de présen­ta­tion de la base Conditor : https://youtu.be/tFE0risRMoI