Des initiatives en fouille de textes fleurissent sur le coronavirus

definition of coronavirus
24.03.2020

Des exemples d’ini­tia­tives en fouille de texte autour du CoronaVirus et Covid-19

Base de données Kaggle

Dans une base de 29 000 articles, dont 13 000 en texte inté­gral concer­nant le coro­na­vi­rus (bien sûr pas seule­ment le « nouveau »), des ques­tions sont listées sous la rubrique “Tasks”, et chaque ques­tion géné­rique est décli­née en ques­tions spécifiques.

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks

Par exemple

“What is known about trans­mis­sion, incu­ba­tion, and envi­ron­men­tal stability?”

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks?taskId=568

Corpus (LitCovid) sur le Covid-19 mis à jour en continu à la National Library of Medicine

LitCovid est un centre de docu­men­ta­tion pour la recherche d’in­for­ma­tions scien­ti­fiques sur le Coronavirus 2019. Il s’agit de la ressource la plus complète sur le sujet, offrant un accès central à 1528 articles perti­nents (et en augmen­ta­tion) dans PubMed.

https://www.ncbi.nlm.nih.gov/research/coronavirus/ (1528 articles au 23/03/2020).

Annotations

Le DBCLS à Tokyo a mis en place dans sa plate­forme de gestion d’an­no­ta­tions un espace pour centra­li­ser les infor­ma­tions extraites sur le corpus LitCovid sous forme d’annotations :

http://pubannotation.org/collections/LitCovid

Tous les spécia­listes de TAL sont donc encou­ra­gés à appli­quer leurs méthodes sur ces données et à les faire tourner sur Kaggle (CORD-19), à les appli­quer au corpus LitCovid et à déposer les anno­ta­tions sur puban­no­ta­tion.