Qu’est-ce que le Darwin Core, et en quoi est-il important?

Le standard Darwin Core (DwC) offre un cadre stable, simple et flexible permettant la compilation de données de biodiversité venant de sources diverses et variables.

*Platyspiza crassirostris* by Brian Gratwicke licensed under CC BY 4.0.

Les collections d’histoire naturelle, les programmes de surveillance environnementale, les sociétés d'enregistrement, les projets de science citoyenne et autres, tous possèdent de précieuses données sur la biodiversité dans le monde. Ils collectent et gèrent leurs informations dans des systèmes ou environnements très divers; ils varient grandement en fonction des détails qui sont capturés et stockés dans chacun des enregistrements individuels.

Comment pouvons-nous intégrer ces différents jeux de données pour que ceux-çi puissent être utiliser simplement et efficacement par les scientifiques, les analystes et les gestionnaires dans leurs recherches et décisions politiques?

Le standard Darwin Core (DwC) offre un cadre stable, simple et flexible permettant la compilation de données de biodiversité venant de sources diverses et variables. Initialement développé par la communauté Biodiversity Information Standards (TDWG), le Darwin Core joue un rôle fondamental dans le partage, l’utilisation et la réutilisation des données de biodiversité en accès libre. Il représente aujourd’hui une large majorité des centaines de millions d’enregistrements d’occurence d’espèces disponibles sur GBIF.org.

En pratique, utiliser le Darwin Core se résume à utiliser un format standard de fichier, le Darwin Core Archive (DwC-A). Cet ensemble compact (un fichier ZIP) contient des fichiers de texte interconnectés et permet aux éditeurs de données de partager leurs données sur base d’une terminologie commune. Cette standardisation ne fait pas que simplifier le processus de publication de jeux de données de biodiversité, elle simplifie également la découverte, la recherche, l’évaluation et la comparaison des jeux de données pour tous ceux qui désirent répondre aux questions de recherches ou de politiques nécessitant de telles données.

Ressources supplémentaires

Wieczorek J, Bloom D, Guralnick R, Blum S, Döring M, Giovanni R, et al. (2012) Darwin Core: An Evolving Community-Developed Biodiversity Data Standard. PLoS ONE 7(1): e29715. doi:10.1371/journal.pone.0029715.
Manuel Darwin Core de OBIS
Termes Darwin Core (via Gcube Wiki)

Qu’est-ce qu’une archive?

Lorsqu’ils préparent une version Darwin Core Archive de leurs sources de données, les éditeurs restructurent et simplifient l’information dans un petit groupe structuré de fichiers texte. Un de ces fichiers texte est le ‘noyau’(core en anglais), il contient un enregistrement par objet inclus dans l’archive. D’autres fichiers ‘extension’ peuvent également être inclus. Ceux-ci contiennent des informations additionnelles liées aux enregistrements du fichier noyau. Les fichiers d’extension permettent à l’archive de modéliser des relations 1-à-n.

En fonction del’information contenue dans la source des données -et de leur volonté de partager -les éditeurs de données peuvent créer un DawrinCore Archive avec un de ces trois types de ‘noyaux’:

un noyau Taxon qui répertorie un ensemble d’espèces, typiquement venant d’une même région ou partageant des caractéristiques communes
un noyau d'Occurrence, qui énumère un ensemble temporels et géographique où une espèce particulière a été enregistrée
un noyau Événement qui reprend des études de terrain (incluant les protocoles utilisés, les tailles d’échantillons et les emplacements de ceux-ci).

Dans le cas du noyau Événement, une extension Occurrence est fréquemment utilisée pour décrire les différents observations issues de l’étude de terrain planifiée.

Enfin, chaque archive contient deux fichiers additionnels qui aident les machines et les humains à interpréter les données. Le premier, un fichier de description (meta.xml), définit la structure précise et les relations entre le noyau et les éventuelles extensions. Le second, un fichier complémentaire de métadonnées, décrit le(s) jeu(x) de données contenus dans l’archive, typiquement en langage de métadonnées écologiques (EML.xml). Ces deux fichiers sont produits automatiquement par l’Integrated Publishing Toolkit (IPT) du GBIF.

Partager des données de surveillance d’espèces et d’échantillonnage à l’aide du noyau événement

Les efforts visant à suivre des changements dans les tendances de la biodiversité dans l'espace et le temps, via l’échantillonnage et les programmes de surveillance, ont augmenté les informations disponibles sur les espèces. En plus de permettre une meilleure description des méthodes que les données de présence, les données d’événements prennent en compte des détails plus riches et plus complexes sur les quantités et les fréquences d’observation des espèces.

Avec leur inclusion fréquente de mesures répétées aux mêmes endroits, les données d'événements d'échantillonnage provenant d'études écologiques et environnementales sont plus efficaces pour détecter les changements et les tendances dans les populations d'espèces et essentielles pour comprendre l'ampleur et la vitesse du changement global.

Mais pour aider à tirer le meilleur parti de ces données diverses et assurer leur contribution efficace à des analyses scientifiques et des décisions politiques plus précises, les chercheurs doivent pouvoir y accéder facilement dans un format cohérent et compatible.

Le standard Darwin Core est devenu le standard ouvert le plus utilisé pour l’accès libre aux données de biodiversité. Développé afin de fournir un moyen simple de documentation et de partage de l’information d’occurrence d’espèces, que ce soit sur le terrain ou dans une collection de musée, ce standard a permis l’intégration de centaines de millions d’enregistrements via GBIF.org.

De nouveaux ajouts au Darwin Core supportent l’agrégation des jeux de données d’événements. Le ‘noyau Événement’ nouvellement introduit place l’événement d’échantillonage au centre du jeu de données simplifié et lie son protocole, son effort et ses mesures aux occurrences d’espèces dérivées des événements d’échantillonage, qui sont ajoutées en tant qu’extension séparée dans le schéma en étoile standard 'one-to-many'.

En conséquence, les chercheurs peuvent analyser des enregistrements plus complexes et quantitativement plus riches et les combiner avec d’autres sur des organismes isolés ou des taxons individuels. Ces changements peuvent même conduire à améliorer la qualité et l’utilité des jeux de données déjà publiés sur GBIF.org qui dérivent d’enquêtes et de recensements plus complexes.

L’espoir est qu’en mêlant ces diverses sources de données, plutôt que de limiter ou de prescrire leurs usages, cela encourage leur découverte et leur réutilisation et pourrait même révéler des relations supérieures ou des idées qui n’étaient pas apparentes au regard des enregistrements individuels.

Par où commencer

Le moyen le plus efficace de préparer et publier des jeux de données basés sur du Darwin Core est d'utiliser le Integrated Publishing Toolkit (IPT) du GBIF. EU BON et d’autres partenaires ont contribué de manière significative aux changements nécessaires au support de cette nouvelle classe de jeux de données. Les détenteurs de données qui ont des programmes de surveillance et des projets d’échantillonnage récurrents peuvent aussi programmer des cycles de publication automatiques grâce à l’IPT multilingue.

Quels sont les éléments nouveaux du noyau événement ?

L'ajout du ‘noyau événement’ au standard Darwin Core s'accompagne de plusieurs nouveaux termes particulièrement destinés aux données d’échantillonnage et de surveillance.

eventID : un identifiant unique pour l’événement au sein du jeu de données
parentEventID : un identifiant qui permet de regrouper des événements
samplingProtocol : nom, référence et description de la méthode ou du protocole utilisé durant l’événement d’échantillonnage
sampleSizeValue : valeur numérique de la taille (durée, longueur, surface ou volume) de l’échantillonnage durant l’événement. Doit être utilisé de concert avec sampleSizeUnit
sampleSizeUnit : unité de mesure de la taille (sampleSizeValue)
organismQuantity : valeur numérique de la quantité d’organismes. Doit être utilisé de concert avec organismQuantityType
organismQuantityType : le type du système de quantification utilisé pour la quantité d’organismes