Stagiaire en sauvetage des données : Fiel Dimayacyac Mon stage de sauvetage de données portait sur les données climatiques récoltées par Parcs Canada dans les parcs nationaux du Nunavut et s’est effectué sous la direction de la chercheuse Florence Lapierre Poulin. Ces données ont été collectées de 1989 à 2019 dans les stations météorologiques du fjord Tanquary, du lac Hazen, de l’île Ward Hunt et de Conger. Elles ont été téléchargées chaque année, à chacun des emplacements, à partir des capteurs des stations météorologiques et ont été récemment fusionnées en une seule base de données par Florence. De nombreux scientifiques souhaitaient exploiter ces données, mais l’état de la base de données était problématique pour de multiples raisons. Ainsi, les méthodes de collecte de données variaient d’une année à l’autre, car les capteurs avaient été remplacés et améliorés au fil des ans. Différentes étiquettes existaient pour une même variable et il y avait des incohérences dans les unités de mesure ainsi que dans les intervalles de temps. Dans certains cas, les valeurs étaient erronées ou irréalistes pour diverses raisons (erreurs des capteurs). En raison de contraintes de temps, Florence avait besoin de l’aide d’un.e stagiaire en sauvetage de données pour le nettoyage, le formatage et la rationalisation des données afin que celles-ci puissent être facilement partagées sur le portail de données du gouvernement ouvert fédéral. Au cours de mon stage, j’ai accompli les tâches suivantes. J’ai d’abord séparé la base de données en fichiers CSV (valeurs séparées par des virgules) selon le type de données (lectures horaires ou quotidiennes) et l’emplacement (Tanquary, Hazen, etc.). Cela permettra aux chercheurs et aux chercheuses d’utiliser plus facilement les données dans un logiciel d’analyse, puisque la plupart des programmes n’acceptent pas les feuilles de calcul Excel comportant plusieurs onglets. Deuxièmement, une grande partie des données étaient séparées en tranches de temps, par exemple 1989-2007 et 2007-2013. J’ai donc fusionné ces ensembles de données selon leur type et leur emplacement afin que les données de chaque site d’échantillonnage soient regroupées en un seul CSV pour chacun des types de données. Ce processus impliquait l’agrégation de colonnes redondantes (répétées). Par exemple, à un même site, l’humidité relative avait été enregistrée par plusieurs capteurs, et nommée différemment d’un capteur à l’autre. Ce processus comprenait également la normalisation des horodatages entre les années et les lieux. Finalement, j’ai étudié la distribution des données de chaque année afin d’identifier les périodes où celles-ci semblaient erronées pour détecter s’il y avait eu des problèmes avec des capteurs ou certaines de leurs unités. Lorsque les données étaient manifestement incorrectes, j’ai recherché dans les fichiers bruts tout commentaire concernant ces périodes et j’ai identifié des problèmes de givrage des capteurs et de pannes de courant. Ces problèmes et bien d’autres ont été signalés par l’entremise de divers codes d’erreur. De plus, j’ai créé des fichiers de métadonnées séparés contenant les descriptions des différentes étiquettes, unités et interprétations, ainsi qu’une légende pour les codes d’erreur et le texte intégral de toutes les erreurs enregistrées. J’ai également créé un plan de gestion des données pour les futur.es gestionnaires de bases de données afin qu’iels puissent facilement télécharger de nouvelles données de manière ordonnée et facile à gérer.
0 Comments
Leave a Reply. |
Archives
May 2024
CatÉgories |