統計LODの概要

本サイトでは、LODによる統計データの提供を行います。
このページでは、LODや統計LODの概要をご紹介します。

LODとは

オープンデータの5つの段階

オープンデータは、公開のレベルによって5段階に分類されます。(オープンデータ評価指標「5 Star Open Data」による)

オープンライセンスでデータを公開している場合が1段階です。ここではコンピュータで処理できない形式での公開です。
5段階のLODでは、コンピュータで処理可能となることに加え、機械判読が可能となり、さらに外部のデータともリンクします。これによって、データの横断的な利用が可能となります。
従来、e-Statでは、PDF、Excel、CSVファイルのダウンロード、XML形式やJSON形式でのデータの取得等によりデータが公開されてきました。
統計LODでは、5つ星である、LODでのデータ公開を行ないます。

LOD化によってできること

LOD(Linked Open Data)とは、ウェブ上でデータを公開する方法や、公開されたデータを指します。
LODの特徴は、大きく2つあります。

1.データを一意に定義することができる(語彙のばらつきをなくす)

LODでは、データにURI(Uniform Resource Identifier)というユニークな識別子をつけます。
定義対象について、個別なURIを付加することでデータを一意に定義できます。

2.関係性を表現する(他のデータとリンクする)

LODでは、RDF(Resource Description Framework)というデータモデルを利用してデータを定義します。
その際に、外部のデータとの関係(リンク)を定義することで、データが相互につながり、データの横断的な検索などが容易に行なえるようになります。

統計LODとは

統計表のRDF化

統計データのLOD化のため、RDFを利用して統計表の情報を定義します。
RDFは一般的なモデルであり、統計情報以外にも利用可能ですが、統計表のRDF化においては、統計データの構造を表すための一般的なモデルであるデータキューブモデルが整備されています。
統計LODでは、このモデルに従ってデータを定義しています。

統計表とキューブモデルとの対応

データキューブモデルでは、統計データは以下の4つの要素から構成されます。

  • 観測値: 観測された値(例.人口の値、人口割合の値)
  • 次元: 観測値を同定するもの(例.市区町村、国籍、年月日、男女別)
  • 測度: 観測値の対象(例.人口、人口割合)
  • 属性: 測度の単位(例.人、%)
lod_img102

 

統計表の基本的なデータ構造

RDFでは、データを主語、述語、目的語の3つの要素で表します。
例えば「さいたま市」を表すコード「11100」があった場合、このコードの名称はさいたま市であることを、下図のような構造で表すことができます。

統計表のデータ定義では、統計表のセルごとにRDF化を行ないます。
統計表の各セルに対してIDを振り、それを主語とします。
各セルに対して、次元、測度、属性、観測値を、それぞれ述語、目的語として定義します。
主語、述語、目的語の3つの要素を「トリプル」といいますが、ひとつの統計値(統計表のセル)は複数のトリプルによって表されます。
例えば川口市の44歳、男性の人口は、以下のようなデータ構造となります。

統計LODにおけるデータセットの考え方

統計情報は、「政府統計」「提供統計」に整理されます。
統計LODでは、各提供統計について、内容に応じて統計表を整理し、それぞれの統計表をデータセットとして整理しています。

国勢調査のデータセットの例を以下に示します。

統計データのLOD化

LODでは、RDFによって定義されたデータが相互につながりあうことができます。
統計LODでは、統計データとメタデータの交換規約でありISO国際標準になっているSDMXや、その他イタリア国家統計局、Eurostat、IMF、標準地域コードの語彙と連携しています。

統計LODのデータ構造

データ構造のイメージ

統計LODでは、統計表のセルごとにRDF化を行なった上で、関連する情報がある場合は外部データとの連携を定義しています。
観測値のデータ構造のイメージを以下に示します。