GBIFでのデータ処理:[Register(登録)]からダウンロードまで
この説明では、約50,000件からなる昆虫のオカレンスデータセットを所有する研究者、スミス教授がいると想像してください。彼はデータをExcelスプレッドシートにまとめ、所属機関のIntegrated Publishing Toolkit (IPT)環境にアップロードしました。IPTはスプレッドシートのオカレンスデータと彼が入力したメタデータを統合し、ダーウィンコア・アーカイブにすべてをまとめます。GBIFにデータセットを取り込む準備ができると、彼は[Register(登録)]をクリックします。
GBIFレジストリ
IPTはレジストリ用のAPIを介して直ちにGBIFレジストリへのデータ送信を開始します。レジストリは、IPTから渡されたメタデータの最小セットに基づいて新しいデータセットを作成して応答します。
DOI(デジタルオブジェクト識別子)
次にレジストリから新しいデータセットがあることを示すメッセージが送信されます。このメッセージがDOI更新ツールに受信されると、今度はDOI更新ツールがDatacite にデータを送信し、データセットの新規DOIを作成します。作成が完了すると、DOI更新ツールがデータセットを更新し、そのDOIを含めます。出版機関がDataciteと独自に契約している場合は、IPT側ですでに割り当てが済んでいるDOIを処理することができます。一般的には、GBIFが(DOI更新ツールを介して)割り当てたDOIではgbif.orgのデータセットのページが表示され、IPTが処理した割り当て済みのDOIでは機関のIPTのデータセットのページが表示されます。
クローリング
新規データセットの通知はGBIFのクローリング・インフラストラクチャによっても受信されます。クローリングは、データセットのコンテンツをGBIFに集約するプロセスです。クローリング・インフラストラクチャは、多くのデータセットを同時に取り扱う分散システムです。クローラーはIPTに接続して、ダーウィンコア・アーカイブをGBIFサーバーに転送します。クローラーは、様々なプロトコルを用いて他のソース(たとえば、BioCASe)からデータを取得することもできます。
断片化、持続化、正規化、データ解釈
この段階は断片化と呼ばれるプロセスで、データセットが個々のレコードに分割されます。断片化されたレコード、いわゆる「raw(生)」データが、個別に識別され、新規レコードを作成するか、既存レコードを更新するかが決定されます。次に断片化されたレコードの各項目が対応するダーウィンコアの用語に正規化されます。この時点のレコードは「verbatim(オリジナル)」と呼ばれます。最後にレコードのデータ解釈が行われ、さらに品質管理が適用されます。具体的には、ここで分類学上の学名がGBIF分類バックボーンと照合されます。もし、データギャップがある場合、たとえばレコードに属名と種名しかない場合には、より上位の分類レベルが追加されます。データ解釈中に誤りが検出されたり、推測による補完が行われたりするとフラグが立てられます。gbif.org上では、このような課題付き(データ解釈中にフラグが立った状態)のレコードを解釈されたバージョンで閲覧することができ、必要に応じてデータ解釈バージョンとverbatim(オリジナル)バージョンを比較することも可能です。レコードは最終的に大規模なデータベースに格納されます。
検索とダウンロード
レコードが格納されると、マップ、カウンター、検索インデックスが更新されます。この時点でレコードがGBIF.org上で閲覧可能となり、ダウンロード可能となります。スミス教授が[Register(登録)]をクリックしてから彼のデータが世界中で見えるようになるまでのすべての処理は通常5分もかかりません。もちろん、これはデータセット内のレコード数によって異なります。
データは以下の2種類の形式でダウンロード可能です。
- タブ区切りCSV:このシンプルな形式では、最も頻繁に使用される列を伴う表形式で表示します。この表には、データ解釈と品質管理が行われた後のデータのみが含まれます。この形式はMicrosoft Excelなどのツールで読み込むことができます。
- ダーウィンコア・アーカイブ:この形式はTDWG標準であり、豊富な情報が含まれています。このZipファイルには、出版者が共有したオリジナルデータと、品質管理が行われた後の解釈されたデータが含まれます。追加ファイルでは、画像などの補足情報を提供します。これはシンプルなCSVファイルより情報豊富なファイルですが、データを最も完全な形で見ることができます。