Conditor, du projet à la base

Date de la réalisation : 1 mars 2021

Après avoir été durant quatre ans un projet impliquant de nombreux partenaires dont l’Inist, Conditor devient une base de références de l’ensemble de la production scientifique française des établissements et laboratoires relevant de l’Enseignement supérieur et de la recherche (ESR). Il s’inscrit pleinement dans le cadre de la science ouverte.

Lan­cé en décembre 2016, l’objectif du pro­jet Condi­tor était de recen­ser l’ensemble des publi­ca­tions de la recherche fran­çaise au sein d’un seul réser­voir de méta­don­nées enri­chies, homo­gé­néi­sées et dédou­blon­nées, et offrir ain­si une vision com­plète de la pro­duc­tion française.

Le recueil des publi­ca­tions sous forme de méta­don­nées a néces­si­té un impor­tant tra­vail de pro­gram­ma­tion opé­ré à l’Inist ;  une mise en œuvre par­fois com­plexe en rai­son de la mul­ti­pli­ci­té des for­mats de don­nées liées aux dif­fé­rentes sources collectées.

4 sources de données

Les bases en « open access » sont mois­son­nées, en iden­ti­fiant les publi­ca­tions ayant au moins un auteur appar­te­nant à une struc­ture fran­çaise de l’ESR. Actuel­le­ment, les méta­don­nées pro­viennent de HAL, Cross­ref, Pub­med et l’ABES qui four­nit des don­nées du SUDOC (ouvrages, thèses).

Ces méta­don­nées sont ensuite trans­for­mées au for­mat TEI puis enri­chies par des méthodes d’alignements auto­ma­tiques et des méthodes de fouille de textes. Enfin, un algo­rithme de dédou­blon­nage iden­ti­fie et marque les docu­ments en doublons.

Des enrichissements

Les notices sont enri­chies de plu­sieurs infor­ma­tions (quand cela est possible) :

  • Lien vers le docu­ment en accès libre (après ali­gne­ment avec Unpay­wal et Core) ;
  • Caté­go­rie scien­ti­fique(appo­sée par le baro­mètre de la science ouverte – BSO) ;
  • Iden­ti­fiants auteurs IdRef, Orcid, IdHal;
  • Domaines scien­ti­fiques des revues conte­nant l’article (clas­si­fi­ca­tion Science-Metrix et Scopus) ;
  • Code RNSR (Réper­toire natio­nal des struc­tures de recherche) asso­cié aux affi­lia­tions fran­çaises : cela se fait soit par récu­pé­ra­tion des infor­ma­tions dans d’autres bases (HAL par exemple), soit à par­tir de pro­grammes infor­ma­tiques déve­lop­pés à l’Inist.

Et maintenant une base

A ce jour, Condi­tor recense plus de 1 430 000 signa­le­ments, dont envi­ron 1 108 000 publi­ca­tions dis­tinctes, allant de 2014 à 2020. Fin décembre, la base comp­tait 66 % d’articles, 10 % de thèses et 14 % de conférences.

Elle est acces­sible à tout membre de l’ESR pour requê­ter et télé­char­ger des cor­pus via une application.

Le résul­tat peut être déchar­gé sous forme de cor­pus en TEI ou JSON. De plus, le pro­gramme a une option per­met­tant d’avoir une seule notice conso­li­dée quand plu­sieurs réfé­rences iden­tiques sont détectées.

Des évolutions en vue

Plu­sieurs évo­lu­tions de la base Condi­tor sont en cours de réa­li­sa­tion telles que :

  • un pro­gramme de clas­si­fi­ca­tion capable d’apposer une caté­go­rie scien­ti­fique à tout docu­ment se trou­vant dans Conditor ;
  • des méthodes d’extraction de mots clés;

Le fruit d’un travail multipartenarial

Le pro­jet Condi­tor a été mené grâce au sou­tien du minis­tère de l’Enseignement supé­rieur, de la Recherche et de l’Innovation, en impli­quant de nom­breux partenaires :

  • des orga­nismes de recherche : CNRS, Inra, Inria, IRD, Irstea,
  • des uni­ver­si­tés : Angers, Bor­deaux, Gre­noble, Lor­raine, Mont­pel­lier, Nice Paris Dau­phine, Paris Dide­rot, Sor­bonne Uni­ver­si­té, Strasbourg,
  • des opé­ra­teurs et enti­tés de l’ESR : Abes, Amue, CCSD, Hcéres, Huma-Num, IAVFF Agree­nium, Inist CNRS, MESRI RNSR-ScanR.

Vidéo

Décou­vrir la vidéo de pré­sen­ta­tion de la base Condi­tor : https://youtu.be/tFE0risRMoI