CIEE/ICEE
  • Home
  • Living Data
    • Courses
    • LDP Certificates
    • Internships
    • Living Data Stories
    • Working Groups
  • Working Groups
    • About
    • Apply
  • Training
    • CIEE Workshops and Training
  • Apply
    • For a Data Rescue Internship
    • To host a workshop
  • News
  • Outputs
    • Datasets
    • Publications
    • Documentary
  • Get Involved
    • Membership
    • Donations
    • Governance
    • Contact
  • Accueil
  • Données vivantes
    • Cours
    • LDP Certificats
    • Stages
    • Histoires de données vivantes
    • Groupes de travail
  • Groupes de travail
    • À Propos
    • POSTULER
  • Formation
    • Ateliers et formations de l’ICEE
  • POSTULER
    • Effectuer un stage de sauvetage de données
    • Animer un atelier
  • Nouvelles
  • La Production
    • Ensembles de données
    • Publications
    • Documentary
  • COMMENT S’ENGAGER
    • Adhésion
    • Faire un Don
    • Gouvernance
    • Nous Joindre

HISTOIRES DE PROJETS DE DONNÉES VIVANTES​

TENDANCES CLIMATIQUES DANS LES PARCS NATIONAUX DU NUNAVUT

5/2/2024

 
Picture
 Stagiaire en sauvetage des données :  
Fiel Dimayacyac
​
Mon stage de sauvetage de données portait sur les données climatiques récoltées par Parcs Canada dans les parcs nationaux du Nunavut et s’est effectué sous la direction de la chercheuse Florence Lapierre Poulin. Ces données ont été collectées de 1989 à 2019 dans les stations météorologiques du fjord Tanquary, du lac Hazen, de l’île Ward Hunt et de Conger. Elles ont été téléchargées chaque année, à chacun des emplacements, à partir des capteurs des stations météorologiques et ont été récemment fusionnées en une seule base de données par Florence.



De nombreux scientifiques souhaitaient exploiter ces données, mais l’état de la base de données était problématique pour de multiples raisons. Ainsi, les méthodes de collecte de données variaient d’une année à l’autre, car les capteurs avaient été remplacés et améliorés au fil des ans. Différentes étiquettes existaient pour une même variable et il y avait des incohérences dans les unités de mesure ainsi que dans les intervalles de temps. Dans certains cas, les valeurs étaient erronées ou irréalistes pour diverses raisons (erreurs des capteurs). 

En raison de contraintes de temps, Florence avait besoin de l’aide d’un.e stagiaire en sauvetage de données pour le nettoyage, le formatage et la rationalisation des données afin que celles-ci puissent être facilement partagées sur le portail de données du gouvernement ouvert fédéral.
 
Au cours de mon stage, j’ai accompli les tâches suivantes. J’ai d’abord séparé la base de données en fichiers CSV (valeurs séparées par des virgules) selon le type de données (lectures horaires ou quotidiennes) et l’emplacement (Tanquary, Hazen, etc.). Cela permettra aux chercheurs et aux chercheuses d’utiliser plus facilement les données dans un logiciel d’analyse, puisque la plupart des programmes n’acceptent pas les feuilles de calcul Excel comportant plusieurs onglets. Deuxièmement, une grande partie des données étaient séparées en tranches de temps, par exemple 1989-2007 et 2007-2013. J’ai donc fusionné ces ensembles de données selon leur type et leur emplacement afin que les données de chaque site d’échantillonnage soient regroupées en un seul CSV pour chacun des types de données. Ce processus impliquait l’agrégation de colonnes redondantes (répétées). Par exemple, à un même site, l’humidité relative avait été enregistrée par plusieurs capteurs, et nommée différemment d’un capteur à l’autre. Ce processus comprenait également la normalisation des horodatages entre les années et les lieux. Finalement, j’ai étudié la distribution des données de chaque année afin d’identifier les périodes où celles-ci semblaient erronées pour détecter s’il y avait eu des problèmes avec des capteurs ou certaines de leurs unités. Lorsque les données étaient manifestement incorrectes, j’ai recherché dans les fichiers bruts tout commentaire concernant ces périodes et j’ai identifié des problèmes de givrage des capteurs et de pannes de courant. Ces problèmes et bien d’autres ont été signalés par l’entremise de divers codes d’erreur.
 
De plus, j’ai créé des fichiers de métadonnées séparés contenant les descriptions des différentes étiquettes, unités et interprétations, ainsi qu’une légende pour les codes d’erreur et le texte intégral de toutes les erreurs enregistrées. J’ai également créé un plan de gestion des données pour les futur.es gestionnaires de bases de données afin qu’iels puissent facilement télécharger de nouvelles données de manière ordonnée et facile à gérer.

Comments are closed.

    Archives

    July 2025
    February 2025
    January 2025
    December 2024
    October 2024
    September 2024
    May 2024
    April 2024
    December 2023
    October 2023
    August 2023
    July 2023
    April 2023
    March 2023
    February 2023

    CatÉgories

    All

    RSS Feed

Home
Synthesis
Training
Living Data
Funding
News
Membership

Contact

  • Home
  • Living Data
    • Courses
    • LDP Certificates
    • Internships
    • Living Data Stories
    • Working Groups
  • Working Groups
    • About
    • Apply
  • Training
    • CIEE Workshops and Training
  • Apply
    • For a Data Rescue Internship
    • To host a workshop
  • News
  • Outputs
    • Datasets
    • Publications
    • Documentary
  • Get Involved
    • Membership
    • Donations
    • Governance
    • Contact
  • Accueil
  • Données vivantes
    • Cours
    • LDP Certificats
    • Stages
    • Histoires de données vivantes
    • Groupes de travail
  • Groupes de travail
    • À Propos
    • POSTULER
  • Formation
    • Ateliers et formations de l’ICEE
  • POSTULER
    • Effectuer un stage de sauvetage de données
    • Animer un atelier
  • Nouvelles
  • La Production
    • Ensembles de données
    • Publications
    • Documentary
  • COMMENT S’ENGAGER
    • Adhésion
    • Faire un Don
    • Gouvernance
    • Nous Joindre