|
Stagiaire en sauvetage de données : Ming Qiu Durant l’hiver 2024, j’ai eu l’occasion de participer à un stage de sauvetage de données axé sur la conservation des données relatives aux substances perfluoroalkylées et polyfluoroalkylées (PFAS) dans les eaux de surface du Québec. Les PFAS sont un groupe de produits chimiques synthétiques largement utilisés notamment dans les emballages alimentaires, les vêtements et les ustensiles de cuisine antiadhésifs. Souvent appelés « polluants éternels », ils sont très persistants dans l’environnement en raison de leur résistance à la dégradation. Le professeur Sébastien Sauvé et son équipe de l’Université de Montréal effectuent un suivi régulier de ces substances nocives dans les plans d’eau douce du Québec, au Canada. La conservation de ces données permet aux scientifiques de suivre l’évolution des concentrations de PFAS au fil du temps et d’évaluer leur impact potentiel sur l’environnement et la santé publique. L’objectif principal de ce stage était de préparer et de téléverser un jeu de données propre et bien formaté concernant les PFAS sur DataStream, une plateforme en libre accès dédiée aux données sur la qualité de l’eau. L’une des principales difficultés a été d’associer correctement les composés PFAS mesurés à leurs noms normalisés dans le Water Quality eXchange (WQX), un cadre de formatage national pour le partage des données sur la qualité de l’eau, adapté aux données téléversées sur DataStream (voir le schéma de données ouvertes DS-WQX de DataStream [https://datastream.org/en-ca/documentation/data-schema]). Cela a nécessité l’obtention du numéro CAS (Chemical Abstracts Service) unique pour chaque PFAS afin d’assurer une correspondance parfaite avec la base de données standard. J’ai examiné attentivement l’ensemble de données brutes pour vérifier que tous les PFAS étaient bien associés aux bons numéros CAS. Pour les composés non encore inclus dans la base de données WQX, j’ai collaboré avec ma mentore pour soumettre des demandes d’inscription. Une fois les enregistrements PFAS et les données des sites d’échantillonnage vérifiés, j’ai développé une série de scripts R pour formater l’ensemble de données selon le schéma DataStream en vue de sa publication.
Cette expérience a été extrêmement enrichissante, elle m’a notamment permis de comprendre l’ensemble du processus de préparation d’un jeu de données en libre accès sur la qualité de l’eau. Je suis particulièrement reconnaissant envers ma mentore DataStream, Charlotte, pour sa patience et sa réactivité ; sa communication en milieu professionnel était exemplaire. Je tiens également à remercier mon coordonnateur, Pierre, pour son dévouement à organiser des réunions adaptées aux disponibilités de chacun, ce qui a permis le bon déroulement du stage. Ses comptes rendus de réunion précis ont grandement amélioré notre communication et l’efficacité de notre travail. Étant donné que certaines substances perfluoroalkylées et polyfluoroalkylées (PFAS) n’ont pas pu être téléchargées pour le moment en raison du processus de vérification nécessaire à leur enregistrement dans DataStream et WQX, j’ai hébergé tous les scripts R et les métadonnées sur Open Sciences Framework (https://osf.io/9rxsw/ ; DOI : 10.17605/OSF.IO/9RXSW) afin de présenter mon travail. Une fois les données publiées, le DOI DataStream sera ajouté au profil du projet sur OSF. Comments are closed.
|
RSS Feed