GBIFでのデータ処理

ほとんどリアルタイムで出版者からユーザに生物多様性データが行き届く

Crabtree Nature Preserve by Justin Kern licensed under CC BY-NC-ND 2.0.

GBIFでのデータ処理：［Register（登録）］からダウンロードまで

この説明では、約50,000件からなる昆虫のオカレンスデータセットを所有する研究者、スミス教授がいると想像してください。彼はデータをExcelスプレッドシートにまとめ、所属機関のIntegrated Publishing Toolkit (IPT)環境にアップロードしました。IPTはスプレッドシートのオカレンスデータと彼が入力したメタデータを統合し、ダーウィンコア・アーカイブにすべてをまとめます。GBIFにデータセットを取り込む準備ができると、彼は［Register（登録）］をクリックします。

GBIFレジストリ

IPTはレジストリ用のAPIを介して直ちにGBIFレジストリへのデータ送信を開始します。レジストリは、IPTから渡されたメタデータの最小セットに基づいて新しいデータセットを作成して応答します。

DOI（デジタルオブジェクト識別子）

次にレジストリから新しいデータセットがあることを示すメッセージが送信されます。このメッセージがDOI更新ツールに受信されると、今度はDOI更新ツールがDatacite にデータを送信し、データセットの新規DOIを作成します。作成が完了すると、DOI更新ツールがデータセットを更新し、そのDOIを含めます。出版機関がDataciteと独自に契約している場合は、IPT側ですでに割り当てが済んでいるDOIを処理することができます。一般的には、GBIFが（DOI更新ツールを介して）割り当てたDOIではgbif.orgのデータセットのページが表示され、IPTが処理した割り当て済みのDOIでは機関のIPTのデータセットのページが表示されます。

クローリング

新規データセットの通知はGBIFのクローリング・インフラストラクチャによっても受信されます。クローリングは、データセットのコンテンツをGBIFに集約するプロセスです。クローリング・インフラストラクチャは、多くのデータセットを同時に取り扱う分散システムです。クローラーはIPTに接続して、ダーウィンコア・アーカイブをGBIFサーバーに転送します。クローラーは、様々なプロトコルを用いて他のソース（たとえば、BioCASe）からデータを取得することもできます。

断片化、持続化、正規化、データ解釈

この段階は断片化と呼ばれるプロセスで、データセットが個々のレコードに分割されます。断片化されたレコード、いわゆる「raw（生）」データが、個別に識別され、新規レコードを作成するか、既存レコードを更新するかが決定されます。次に断片化されたレコードの各項目が対応するダーウィンコアの用語に正規化されます。この時点のレコードは「verbatim（オリジナル）」と呼ばれます。最後にレコードのデータ解釈が行われ、さらに品質管理が適用されます。具体的には、ここで分類学上の学名がGBIF分類バックボーンと照合されます。もし、データギャップがある場合、たとえばレコードに属名と種名しかない場合には、より上位の分類レベルが追加されます。データ解釈中に誤りが検出されたり、推測による補完が行われたりするとフラグが立てられます。gbif.org上では、このような課題付き（データ解釈中にフラグが立った状態）のレコードを解釈されたバージョンで閲覧することができ、必要に応じてデータ解釈バージョンとverbatim（オリジナル）バージョンを比較することも可能です。レコードは最終的に大規模なデータベースに格納されます。

検索とダウンロード

レコードが格納されると、マップ、カウンター、検索インデックスが更新されます。この時点でレコードがGBIF.org上で閲覧可能となり、ダウンロード可能となります。スミス教授が［Register（登録）］をクリックしてから彼のデータが世界中で見えるようになるまでのすべての処理は通常5分もかかりません。もちろん、これはデータセット内のレコード数によって異なります。

データは以下の2種類の形式でダウンロード可能です。

タブ区切りCSV：このシンプルな形式では、最も頻繁に使用される列を伴う表形式で表示します。この表には、データ解釈と品質管理が行われた後のデータのみが含まれます。この形式はMicrosoft Excelなどのツールで読み込むことができます。
ダーウィンコア・アーカイブ：この形式はTDWG標準であり、豊富な情報が含まれています。このZipファイルには、出版者が共有したオリジナルデータと、品質管理が行われた後の解釈されたデータが含まれます。追加ファイルでは、画像などの補足情報を提供します。これはシンプルなCSVファイルより情報豊富なファイルですが、データを最も完全な形で見ることができます。

{{'resourceSearch.filters.audiences' | translate}}:
データ所持者
{{'resourceSearch.filters.purposes' | translate}}:
データ出版