About
本プロジェクトではLinked Dataのアプローチで様々な学術情報を公開して,活用することを目的としています.Linked Dataのアプローチとは,データをRDFで記述することで,相互にリンク可能なデータとして公開して,巨大な"web of data"の世界をつくることを目指すというものです.本プロジェクトは国内の情報資源を中心に,多くの人に有用な学術情報をLinked Dataとして公開し,その利用アプリケーション等をつくっていきます.現在,博物館・美術館データ,生物種データなどが本プロジェクトを通じて公開されています.本プロジェクトは情報・システム研究機構 新領域融合研究センター 新領域融合プロジェクト「異分野研究資源共有・協働基盤の構築(サイエンス3.0基盤構築)」のサブプロジェクトとして実施しています.

メンバー

関連プロジェクト

LODAC Museum

LODAC Museumでは,多様な情報源から博物館に関するデータを収集して,Linked Dataのアプローチで統合的に扱えるようにする仕組みを構築しています.博物館に関するデータとは,主に収蔵品と作者,そして施設についてのデータです.これらを中心としてイベントデータや位置データ,DBpedia,生物種データ等とリンクすることで,博物館に関するデータを様々な視点からひいてくることができるようになっています.

2012年6月6日現在,主なデータは以下のとおりです.

種別 RDFタイプ 件数
収蔵品(全体) lodac:Specimen + lodac:Work 約177万
収蔵品(標本) lodac:Specimen 約169万
収蔵品(美術品等,標本以外) lodac:Work 約13万
作者 foaf:Person 約8800
施設 foaf:Organization 約20万

例えば藤田嗣治という画家はhttp://lod.ac/id/455,横浜美術館はhttp://lod.ac/id/3172のように,各対象毎にURIが割り当てられています.

LODAC Location

LODAC Locationは位置情報に関するLinked Dataです.現在扱っているのは住所データ,郵便番号データ,電車データになります.

種別 RDFタイプ 件数
住所 lodac:Prefecture, lodac:Municipality, lodac:Word, lodac:CityArea, lodac:CityDistinct 275696
郵便番号 lodac:PostalCode 140456
lodac:Station 10745
路線 lodac:Line 595
鉄道会社 lodac:Railway 18
LODAC Species

LODAC Speciesは分散的に公開されている生物多様性に関するデータをLinked Dataのアプローチによって統合的に利用できるようにすることを目指しているプロジェクトです.現在は生物多様性に関するデータを結びつけるキーとして生物種データに焦点を当てて行なっています.生物種データは博物館の標本データから,生物多様性や地球環境等の諸問題のように多岐にわたる分野で関わってくるため,一つの基盤となりえるデータです.本プロジェクトでは専門家が作成した種名・分類データを他の専門的な生物多様性のデータや,より汎用的なデータ (DBpedia, Freebase等) に結びつけています.また,LODAC Museumに含まれている標本データからもリンクすることによって,博物館データから生物種を通して様々なデータにアクセスすることができるようになっています.

種別 RDFタイプ 件数
種名 species:SpeciesName 113118
LODAC BDLS

生物学辞書 (BDLS: Building Dictionary for Life Science)は, 生命科学分野における全ての日本語用語を英語やラテン語等の外部用語オントロジーと対応づける手掛かりとともに,収集することを目指しています.生物学辞書には,大きく分けて生物種名と学術用語の二種類があります.各用語は学名,和名,英名,慣用名といった様々な呼び方がなされますが,それら全てを収集して活用できるようにしています.

LODAC BDLSでは,BDLSをLinked Dataとして構築しなおすことで,生物種名や学術用語のグラフを形成します.これによって,和名と学名と英名の関係や和名同士の関係などを辿ることが容易となります.また,BDLSの特徴として,種名や用語の関係の出典情報も明示されています.これは出典によって使われているラベルや関係等が異なるということが良く発生するために,出典を基準に判断できる必要があるためです.この出典情報もグラフで表現することにより,出典自体の関係や,どの関係がどの出典由来であるかということを辿ることが可能となります.

以下の図は,"Papilio xuthus"という種名に関連するデータです.出典毎に関連データを表示するようになっています.

データモデル

LODAC BDLSの各リソース毎に用いられているデータモデルは以下の図のとおりです.LODAC BDLSでは,名一つにつき一リソースとなっており,各名に関連するデータをグラフとして表現しています. 出典情報はそのグラフに紐付けられているNamed Graphとして定義されています.

IRI設計

学術用語 http://lod.ac/bdls/term/
種名 http://lod.ac/bdls/species/
由来 http://lod.ac/bdls/provenance/
データ源 http://lod.ac/bdls/source/
データ提供者 http://lod.ac/bdls/publisher/

データの取得

各リソースIRI毎にContent-negotiationできるようになっています.また,IRIに拡張子を追加することでも取得可能です.以下がデータ形式とAcceptヘッダや拡張子の対応表になります.

データ形式 Accpetヘッダ 拡張子
Turtle text/turtle .ttl
N3 text/n3 .n3
RDF/XML application/rdf+xml .rdf
RDF/JSON application/json .json
TriX application/trix .trix
TriG application/trig .trig

例えばPapilio xuthusに関するデータをturtle形式で取得したい場合は, " curl -H 'Accept: text/turtle' http://lod.ac/bdls/species/Papilio_xuthus"のようにAcceptヘッダを送れば取得できます.

SPARQL

LODAC BDLSでは,自由に再利用可能にするために SPARQL Endpoint を公開しています.SPARQLを用いることで,より柔軟にデータを取得することが可能です. 例えば学名Papilio xuthusについて,出典情報も含めて取得したい場合は以下のようなクエリで問い合わせることができます.

PREFIX dcndl: http://ndl.go.jp/dcndl/terms/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX dc: <http://purl.org/dc/terms/>
SELECT DISTINCT *
WHERE {
  GRAPH ?g {
    <http://lod.ac/bdls/species/Papilio_xuthus> ?p ?o  .
  }
  ?g dc:source ?source .
  ?source dcndl:edition ?edition ;
            dc:publisher/rdfs:label ?publisher .
}

ライセンス

オリジナルのデータである BDLS のライセンスが クリエイティブ・コモンズ 表示-継承ライセンス (CC-BY-SA) であるため,LODAC BDLSもそれに準じてCC-BY-SAの下で再利用可能です.

クレジット表記は" LODAC & Life Science Databases(LDBC)"を推奨します.