「セマンティック」とは
セマンティックWebは、ティム・バーナーズ・リー氏によって考案された技術であり、「情報リソースに意味(セマンティック)を付与することで、人を介さずに、コンピュータが自律的に処理できるようにするための技術」と定義されています。セマンティックWebでは、情報を記述する際に必ずそれが何を意味するかを表すデータを付与することで、より複雑で精度の高い検索を可能にしたり、特定の種類の情報を収集して活用することができるようになります。セマンティックWebを実現させるために必要な技術を階層状に積み上げたレイヤーケーキが下図です。このセマンティックWebの中心的な概念であり、情報を記述する際に定められた表現形式で、現在W3Cで規格化されている最も有望なフレームワークとして知られているのがRDF(Resource Description Framework)です。RDFでは、情報をトリプルとして主語、述語、目的語の三種類のリソースによって記述します。レイヤーケーキでは、RDFの概念を中心に、機械可読に表現する技術である下位の技術と、 これを知的に処理する上位の技術が示されています。
セマンティクWEBの要素
「RDF/OWL/SPARQL」
ウェブ上にある「リソース」を計算機が取り扱えるように表現するための統一的枠組であるRDF(Resource Description Framework)が、ライフサイエンス分野の一部のデータベースにおいて利用されはじめています。そうした取り組みの先駆的な例としてはUniprot(Universal Protein Resource)が挙げられ、全てのタンパク質のアミノ酸配列に関するRDFデータの公開を目的としています。またリソースの機能などに関する個々の知識間の関係を示す概念(クラス)を詳細に論理表現・記述するためOWL(Web Ontology Language)言語によるオントロジーが利用されています。
既存公共データベースのRDF化に取り組み、各データベースのRDFデータをリンクさせたデータ構築することで、SPARQL(SPARQL Protocol and RDF Query Language)によるデータベースを跨いだ問い合わせが可能となります。 SPRQLによる検索では、グラフ構造により表現された柔軟な構造を持つRDFデータを対象に検索を実行可能としているので、膨大なグラフによって表現されたセマンティクWEBの世界で、部分グラフを条件として検索するグラフマッチングのイメージです。
「SADI」とは
SADI(Semantic Automated Discovery and Integration)は、W3Cセマンティックの規格に従い、分散して存在しているデータと解析技術の相互連携や知識発見へと繋げるフレームワークです。
ビッグデータ解析では、DBは単なる検索とその結果の閲覧だけでなく、DBに格納されたデータとその高度な情報解析結果を統合化し、検索と同様に利用できる枠組みが必要であると考え、セマンティックWeb技術による解析ツールのRDF化を行い、SADIサービスとして公開します。