基本的な考え方

本サイトでは、オープンデータの最高ランクとされるLOD*1による統計データの提供を行います。

統計データをLOD化するにあたり、統計値(統計表のセル)に様々な情報を付加して、それぞれの統計値に意味を持たせます。また、外部データとの連携が容易に行えるよう、共通な語彙(URI*2)を用いて統計データを定義します。

guide1


具体的な特徴は以下の通りです。

  • RDF*8データキューブ語彙をベースとする
  • 欧州の先進事例調査を踏まえ、国際連携を視野にいれて設計
  • 統計表のセル毎にRDF化
  • SDMX等既存の語彙とのリンク付け
  • *1:LOD: Linked Open Data
  • *2:URI: Uniform Resource Identifier
  • *3:SDMX: The Statistical Data and Metadata Exchange
  • *4:IPA: 独立行政法人情報処理推進機構
  • *5:ISTAT: イタリア国家統計局
  • *6:Eurostat: 欧州連合統計局
  • *7:OECD: 経済協力開発機構
  • *8:RDF: Resource Description Framework

1.RDFデータキューブ語彙をベースとした設計

統計データの構造を表すための一般的なモデルであるキューブモデルでは、統計データは以下の4つの要素から構成されます。

  • 観測値: 観測された値(例.人口の値、事業所数の値)
  • 次元: 観測値を同定するもの(例.市区町村、国籍、年月日、男女別)
  • 測度: 観測値の対象(例.人口、事業所数)
  • 属性: 測度の単位(例.人、事業所)

guide2

2.欧州の先進事例調査を踏まえ、国際連携を視野にいれて設計

海外の統計データとの連携も視野に入れ、イタリア国家統計局、Eurostat等の欧州の先進事例を調査した上で設計を行っています。

3.統計表のセル毎にRDF化

各統計値(統計表のセル)に、次元とその値、測度、属性、観測値を記述します。
guide3


川口市の44歳の総人口としての統計値は以下のように記述します。
guide4

4.SDMX等既存の語彙とのリンク付け

統計データとメタデータの交換規約でありISO国際標準になっているSDMXや、その他イタリア国家統計局、Eurostat、IMF、標準地域コードの語彙との関係性を記述しています。例えば、同等の場合は、skos:closeMatchを用いて関係性を記述します。

データ構造

データ構造のイメージ

LODのデータ構造のイメージを以下に示します。

guide5

具体的なデータ構造のイメージ

国勢調査の人口の場合のデータ構造イメージを以下に示します。

guide6

URIの命名規則

今回定義したURIの命名規則を以下に示します。

観測値(統計表の各々のセル)
http://data.e-stat.go.jp/lod/dataset/”政府統計名”/”統計表のID”/”セルのID”
例)http://data.e-stat.go.jp/lod/dataset/populationCensus/d0003041389/obs0000000000000001
測度
http://data.e-stat.go.jp/lod/ontology/”政府統計名”/measure/”制定年”/”測度名”
例)http://data.e-stat.go.jp/lod/ontology/populationCensus/measure/2010/population
次元
http://data.e-stat.go.jp/lod/ontology/”政府統計名”/dimension/”制定年”/”次元名”
例)http://data.e-stat.go.jp/lod/ontology/populationCensus/dimension/2010/householdType
次元の値
http://data.e-stat.go.jp/lod/ontology/”政府統計名”/code/”制定年”/”次元名”-“次元の値”
例)http://data.e-stat.go.jp/lod/ontology/populationCensus/code/2010/householdType-familyNuclei
属性
http://data.e-stat.go.jp/lod/ontology/”政府統計名”/attribute/”属性名”
例)http://data.e-stat.go.jp/lod/ontology/crossDomain/attribute/unitMultiplier
属性(単位)
http://data.e-stat.go.jp/lod/unit/”単位名”
例)http://data.e-stat.go.jp/lod/unit/unitOfPerson
属性の値(単位以外のコード)
http://data.e-stat.go.jp/lod/ontology/”政府統計名”/code/”属性の値”
例)http://data.e-stat.go.jp/lod/ontology/crossDomain/code/unitMultiplier-0

なお、次元の一部及び単位乗数は、複数の政府統計で用いることがあり、この場合は”政府統計名”を”cross Domain”とします。また、”cross Domain”の中でも値の改正が見込まれないものは制定年を付与しません。

・”cross Domain”に制定年を付与する場合(次元)
例)http://data.e-stat.go.jp/lod/ontology/crossDomain/dimension/2016/sex

・”cross Domain”に制定年を付与しない場合(次元)
例)http://data.e-stat.go.jp/lod/ontology/crossDomain/dimension/timePeriod

具体的なデータ例

国勢調査の人口の場合のデータの例を以下に示します(prefixについては、RDFスキーマ情報を参照)。

guide7