ダーウィンコアとは何ですか?なぜ重要なのですか?

ダーウィンコア・スタンダード(DwC)は、多様で変化するリソースから得た生物多様性データを蓄積するための、シンプルかつ柔軟で安定した枠組みです。

Platyspiza crassirostris
Platyspiza crassirostris (著作者:Brian Gratwicke、ライセンス:CC BY 4.0

自然史コレクション、環境モニタリングプログラム、情報記録に関する社会的な活動、市民科学者のプロジェクトなどにはいずれも、世界中の生物多様性に関する貴重なデータが保持されています。 それらの情報は、多くの異なるシステムや環境に保持されるため、個々のデータにどういう詳細情報が収集され保存されるかは、幅広く変わってきます。

では、科学者、アナリスト、政策立案者が、これらの多様なデータを研究や政策で使用できるよう、最も簡単かつ効率的に統合するにはどうすればいいのでしょうか?

ダーウィンコア・スタンダード(DwC)は、多様で変化するリソースから得た生物多様性データを蓄積するための、シンプルかつ柔軟で安定した枠組みです。 Originally developed by the Biodiversity Information Standards (TDWG) community, Darwin Core is 'an evolving community-developed biodiversity data standard. この標準データ形式はオープンアクセスの生物多様性データを共有、使用、再利用する基本的役割を果たしています。 今日では、GBIF.orgを介して利用可能な何億もの種の在データ(オカレンス・データ)の大半を支える枠組みとなっています。

実際に、ダーウィンコアを使用した場合には、標準ファイル形式であるダーウィンコア・アーカイブ(DwC-A)を中心に展開することになります。 この圧縮パッケージ(ZIPファイル)には、相互連携されたテキストファイルが含まれており、データ出版者は共通用語を使用してデータを共有できます。 この標準化により、生物多様性データセットを公開するプロセスが簡素化されるだけでなく、ユーザーが今日のデータ集約型研究や政策上の疑問に対する答えを求める際に、データセットを発見、検索、評価、比較することが簡単になります。

補足資料

アーカイブには何が含まれていますか?

ソースデータをダーウィンコア・アーカイブ形式で準備する場合には、出版者は、情報の再編や整理を行い、小さく構造化された複数のテキストファイルに情報をまとめます。 これらのファイルのうちの1つが「コア」ファイルであり、アーカイブに含まれる項目ごとに個々の記録が保持されます。 他に「拡張」ファイルが含まれる場合もあります。 拡張ファイルには、コアファイル内の記録にリンクした追加情報が含まれています。 拡張ファイルにより、アーカイブにおいて多対1の関係を作ることができます。

ソースデータにどのくらい情報が含まれているか、また、どの程度共有したいかによって、出版者は、以下の3つのコアの中からひとつを用いて、ダーウィンコア・アーカイブを作成できます。

  • 分類群コア(Taxon core)では、典型的には、同じ地域に由来するか共通の特徴を共有する一連の種をリストにします。
  • オカレンスコア(Occurrence core)では、ある種が記録された時間と場所のセットをリストにします。
  • イベントコア(Event core)では、フィールド調査(各調査で使用した手順、サンプル数、それぞれの場所など)をリストにします。

イベントコアの場合、通常、1つの拡張ファイルには、オカレンスコアで表示される要素が含まれており、単一のフィールド調査の一環として、多くの観察記録を含めることができます。

最後に、各アーカイブにはさらに、機械と人の両者にとってデータを解釈する上で助けとなる2つの要素が含まれています。 一つは記述子ファイル(meta.xml)で、コアと任意の拡張ファイル間の関係および各ファイルの正確な構造が定義されています。 二つめは補完メタデータファイルで、アーカイブに含まれるデータセットについて記述します。 このメタデータは、生態学メタデータ言語(EML.xml)で記述します。 GBIFのIntegrated Publishing Toolkit (IPT)によってこれらのファイルが自動的に生成されます。

イベントコアによる生物種モニタリングおよびサンプリングデータの共有

生物多様性のパターンの空間的・時間的変化を追跡する取組みによって、サンプリングおよびモニタリングプログラムで得られる生物種の情報が増加しました。 こうしたサンプリングに基づくデータセットには、「種の存在のみ」のデータよりも正確な方法が記述されているばかりでなく、種の量と出現頻度に関するより豊富で複雑な情報の詳細が含まれています。

生態学および環境調査から得られたサンプリングイベントデータは、同じ場所での測定を繰り返すため、種の個体群の変化と傾向を検知するのに適しています。

しかし、これらの多様なデータを最大限に活用し、より精密な科学的分析と政策的結果に効率的に貢献できるようにするには、研究者は一貫した、互換性のある形式でこれらの情報に容易にアクセスできる必要があります。

ダーウィンコア・スタンダードは、最も広範に利用される生物多様性データのオープンアクセス・スタンダードとなっています。 フィールドであるか博物館のコレクションかに関わらず、種の出現情報を記録・共有する簡単な方法を提供するために開発されたこの標準形式によって、GBIF.orgを通じて数億の記録の統合が可能になりました。

以下で説明するダーウィンコアに最近追加された機能では、サンプリングイベントデータセットの集約をサポートしています。 新たに導入された「イベントコア」では、簡略化されたデータセットの中心にサンプリングイベントが置かれ、サンプリング手順、努力量、測定結果を、サンプリングイベントに由来する種のオカレンスデータにリンクします。 これらの情報は1点が多数の点にリンクする星型スキーマで、標準形式において個別の拡張ファイルとして追加されます。

その結果、研究者はより複雑で豊富で定量的な記録を分析に利用し、さらには単一の生物または個々の分類群に注目して他の記録と統合できます。 これらの変更により、より複雑な調査およびセンサス調査に由来するGBIF.orgで既に公開されたデータセットの質と有用性も向上するでしょう。

これらの様々なデータソースを統合することで、その使用が制限または規定されるのではなく、むしろ発見と再利用が促進されると期待しています。 個々の記録を調査するだけではわからない、高次の関係性や洞察を明らかにすることもできるでしょう。

How to get started

ダーウィンコアに基づくデータセットを作成および公開するには、GBIFのIntegrated Publishing Toolkitを利用するのが最も効率的な方法です。 この新たな種類のデータセットをサポートするのに必要な変更には、EU BONおよび他のパートナーが大きく貢献しました。 モニタリングプログラムやサンプリングプロジェクトが進行中の場合には、データ所有者は多言語に対応しているIPTで、自動的にスケジューリングされた公開サイクルを設定することもできます。

DwC-Aイベントコアの新機能とは

ダーウィンコア・スタンダードへの「イベントコア」の追加に伴い、サンプリングおよびモニタリングデータに関連の深い新たな用語が含まれます。

  • eventID: an identifier specific for the event in a dataset
  • parentEventID: イベントをグループ化するIDです。
  • samplingProtocol: サンプリングイベントで使用された方法または手順の名前、文献、説明です。
  • sampleSizeValue: サンプリングイベントにおけるサンプルのサイズ(期間、長さ、面積または体積)を表す数値です。 対応する項目としてsampleSizeUnitが必要です。
  • sampleSizeUnit: サイズ(sampleSizeValue)の測定単位です。
  • organismQuantity: 生物種の量を表す数値です。 対応する項目としてorganismQuantityTypeが必要です。
  • organismQuantityType: 生物種の量に使用される定量化システムの種類です。