...

セマンティックWebとオントロジー 現状と将来展望

by user

on
Category: Documents
26

views

Report

Comments

Transcript

セマンティックWebとオントロジー 現状と将来展望
セマンティックWebとオントロジー
現状と将来展望
セマンティックWebとオントロジー研究会(SIG-SWO)
武田 英明
国立情報学研究所
[email protected]
takeda@nii
ac jp
Twitter: @takechan2000
Hideaki Takeda / National Institute of Informatics
セマンティックWebとオントロジ 研究会(SIG SWO)
セマンティックWebとオントロジー研究会(SIG-SWO)




第2種研究会
2002年発足
年発足
主査:溝口理一郎(初代)
:山口高平
山口高平 (二代目)
:武田英明(三代目)
: 來村徳信(New!)
現在の構成
 主査:來村徳信(阪大)
 副査:川村 隆浩 (東芝)
 幹事:古崎 晃司(阪大)
大向 一輝(NII)
Hideaki Takeda / National Institute of Informatics
オントロジ
オントロジー
セマンティックウェブ
セマンテ
クウ ブ
セマンティックウェブ
Hideaki Takeda / National Institute of Informatics
セマンティックWeb/オントロジー・スケール
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理
semantic web
microformats
RDFS
LinkedData
軽量オントロジー
軽量オントロジ
tags
集合知
Wikipedia
http://www.flickr.com/photos/breebailey/470692148/
Hideaki Takeda / National Institute of Informatics
オントロジー研究
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理
semantic web
microformats
RDFS
LinkedData
軽量オントロジー
軽量オントロジ
tags
集合知
Wikipedia
http://www.flickr.com/photos/breebailey/470692148/
Hideaki Takeda / National Institute of Informatics
オント ジ 研究
オントロジー研究

オントロジーの基礎から応用まで

オ
オントロジーとは何ぞや?
ジ とは何ぞや
Hideaki Takeda / National Institute of Informatics
オント ジ の定義
オントロジーの定義



Gruber
 概念化の明示的な仕様
FIPA98
 特定のドメインの構造の明示的な仕様。
 対象領域を参照するための語彙(論理定数と述語記号)と領域に存在
する制約の表現と語彙の解釈を制限する論理的言明。
 あるトピックに関する知識の表現と通信のための語彙とその語彙で示
あるトピ クに関する知識の表現と通信のための語彙とその語彙で示
される実在物(entity)の関係と属性の集合である。
もっとわかり易くいえば
 共通の概念の体系(“語彙”とその定義とそれら間の関係)
 語彙以上OOのオブジェクト未満
Hideaki Takeda / National Institute of Informatics
オント ジ の定義
オントロジーの定義




存在に関する体系的議論(哲学)
概念化の明示的な仕様(T Gruber)
概念化の明示的な仕様(T.
人工システムを構築する際のビルディングブロックとして用いられる基本
概念/語彙の体系(理論)(溝口)
ある目的のための世界の認識の合意(武田)
Hideaki Takeda / National Institute of Informatics
オント ジ の構成要素
オントロジーの構成要素




「概念」の集合
「概念 のi 関係による階層化
「概念」のis-a関係による階層化
「概念」間のそれ以外の関係の付与
「概念
「概念」の公理化(意味付与)
理化(意味付与)
Hideaki Takeda / National Institute of Informatics
オント ジ の役割
オントロジーの役割

人間間において
 合意をえる手段
 暗黙情報の明示化

システム間で
 (システム間の)コミュニケーションの定義
 システムの仕様の明瞭化

人間ーシステムの関係において
 知的検索
 知識の共有と再利用
Hideaki Takeda / National Institute of Informatics
オント ジ 利用のレ ル
オントロジー利用のレベル
(1)共通語彙
( )意味検索
(2)意味検索
(3)インデックス
( )デ タ キ
(4)データスキーマ
(5)知識共有の媒体
(6)情報分析
(7)情報抽出
(8)知識モデルの規約
(9)知識の体系化
Hideaki Takeda / National Institute of Informatics
オントロジーの種類と利用法
オント
ジ の種類と利用法 [古崎
[古崎2010]
0 0]
オントロジーの利用法
(1)共通語彙
(2)意味検索
(3)インデックス
オントロジ の種類
オントロジーの種類
語彙集合、
そのほかの 意味制約も 強い公理を
簡易スキー 概念階層
合計
関係を含む 含む
含む
マ
1
4
12
1
0
2
2
49
5
1
1
3
28
5
0
18
59
37
(4)データスキーマ
1
0
35
5
0
41
(5)知識共有の媒体
3
0
39
4
0
46
(6)情報分析
(7)情報抽出
4
1
1
2
30
25
5
4
0
1
40
33
(8)知識モデルの規約
0
1
51
12
10
74
0
13
2
15
8
277
1
42
0
12
11
359
(9)知識の体系化
合計
Hideaki Takeda / National Institute of Informatics
“オントロジー”を含む論文(CiNii)
オントロジ
を含む論文(CiNii)
160
140
120
100
80
オントロジー
60
40
20
0
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Hideaki Takeda / National Institute of Informatics
人工知能学会誌
特集
特集:「オントロジーの進化と普及」
オント ジ の進化と普及」












概念体系とオントロジー ―基礎的ターミノロジーの提案― ………Gunnar O.
y Smith・來村徳信
Klein・Barry
現代応用オントロジーの哲学的・論理学的源泉 ……… 岡田光弘
言語的オントロジーの構築と展開……… 林良彦
ビジネスに使えるオントロジ 関連ツ ル ―代表的シーンからの抽出―
ビジネスに使えるオントロジー関連ツール
代表的シ ンからの抽出 ………
川村隆浩・長野伸一
オントロジー学習の現状と動向 ……… 森田武史・山口高平
オ
オントロジー利用研究の分類と傾向…………
ジ
究 分類と傾向
古崎晃
古崎晃司
生物学関連のオントロジーの最新動向 ………… 桝屋啓志
臨床医学知識処理を目指した医療オントロジー………
識
大江和彦・今井健
SNOMED-CT とICD-11 に見る医学・医療分野のReady to Use Ontology ………藤田
伸輔・今井健
情報家電をより身近にするオントロジー……… 大沼宏行
情報家電をより身近にするオントロジ
大沼宏行・松平正樹・細見格・福
松平正樹 細見格 福
重貴雄・富岡豊・野本昌子
ものづくり情報連携におけるオントロジーの応用 ……… 西岡靖之
目的指向プロセスのオントロジ 的共通性に基づいた人工物機能とモバイル
目的指向プロセスのオントロジー的共通性に基づいた人工物機能とモバイルユーザ
ザ
行動のモデリングとその応用 ……… 來村徳信・笹嶋宗彦・溝口理一郎
Hideaki Takeda / National Institute of Informatics
合計 (日本語 英語)
-----------------------------------------登録ユーザ数: 2209 ( 859 1350)
ダウ
ダウンロード数:6737
ド数
( 4022 2715)
)
Hideaki Takeda / National Institute of Informatics
ダウンロード数:約150件
ダウンロ
ド数:約150件
(約2ヶ月)
Hideaki Takeda / National Institute of Informatics
(大文字の)Semantic Web
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理
semantic web
microformats
RDFS
tags
集合知
LinkedData
Wikipedia
軽量オントロジー
軽量オントロジ
http://www.flickr.com/photos/breebailey/470692148/
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの目的

“The Semantic Web is an extension of the current web in
which information is given well
well-defined
defined meaning
meaning, better
enabling computers and people to work in cooperation.”
((セマンティックWebとは現在のWebの拡張であり,そこでは情報はちゃ
んと定義された意味を与えられていてコンピュータと人のよりよい協調が
可能となる).
Th Semantic
The
S
ti Web,
W b Scientific
S i tifi American,
A
i
M 2001,
May
2001 Ti
Tim B
Berners-Lee,
L
JJames Hendler
H dl and
d Ora
O Lassila
L
il

The Semantic Web is a vision: the idea of having data on the
web defined and linked in a way that it can be used by
machines not just for display purposes, but for automation,
integration and reuse of data across various applications.
(セマンティックWebとはビジョンである.データはきちんと定義されリ
ンクされており,単に表示用ではなく自動化,統合,アプリケーションを
超えたデータの再利用などに使える)
超
デ タ 再利用な
使 る)
http://www.w3.org/2001/sw/
Hideaki Takeda / National Institute of Informatics
Next Generation Web

Webの進化
 HTML: 表示のためのWeb
表示のための b
 XML:シンタックスをもったWeb
 ?? :セマンティックスをもったWeb
ク をも た

なぜセマンティックスをWebのメカニズムの中に組み込なね
ぜ
ズ
ばならないか
 人間のためのWeb
人間のためのW b
から
 人間と機械のためのWeb
人間と機械 ため
ヘ
cf. 機械ためだけのWeb
機械
だ
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの階梯



RDF (Resource Description Framework)
 最も原始的な意味記述の枠組みを提供
最も原始的な意味記述の枠組みを提供ー>SVOモデル
>SVOモデル
 Entity-Relation Model(実体関連モデル)
 セマンティックネット
RDF Schema
h
 RDFに最も原始的な概念記述の仕組みを追加
 class-subclass関係,制約
関係,制約
OWL (Web Ontology Language)
 記述論理(description logics)に基づいた
概念とその関係を記述する言語
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
Hideaki Takeda / National Institute of Informatics
Semantic Webの利用の枠組みと課題
ウェブページ
作成者
ウェブページ
探索者
いかに手間なく記述させるのか?
いかに表記をそろえさせるか?
ユーザの検索意図を
どのように把握し表現するか?
知識・情報をどのように
記述するか?
従来のHTMLの
従来のHTML
の
ウェブページ
RDFで意味付けされた
RDF
で意味付けされた
ウェブページ
SPARQLで表現された
SPARQLで表現された
検索問合せ
B
A
C
C
知識の表現UI
知識の表現
UI
E
F
b
a
D
c
どのように知識を融合(推論)
させるのか?
自然文で記述された
情報をいかに効率的に
変換するか?
いかに網羅性、一貫性を
確保するか?
いかに普及させるのか?
複雑な知識構造をいかに
分かりやすく提示するか?
RDFSで表現された
RDFSで表現された
オントロジー
E
D
推論のための
ルール
バイオ基幹情報資源の高準化と共用化
「バイオ分野におけるセマンティックWeb
技術動向に関する調査」より抜粋
Hideaki Takeda / National Institute of Informatics
特集テ
特集テーマ/招待講演(抜粋)
/招待講演(抜粋)










第3回:招待講演:辻井潤一「テキスト情報処理とオントロジー」(2002/6)
第6回:特集テーマ「Weblog」(2004/7)
招待講演:山下清美「Weblogの心理学」
第10回:特集テーマ:「ライトウエイト・メタデータ(blog, SNS, wiki
他)」(2005/11)
第12回:特集テーマ「セマンティックWebサービス」(2006/1)
招待講演:D. Fansel & M. Zaremba “Semantically
Semantically Enabled Service-Oriented
Service Oriented
Architectures: A Framework"
第13回:特集テーマ「セマンティックWeb」
第
第14回:特集テーマ「セマンティックWebとWeb2.0」(2006/11)
特集
「
第16回:特集テーマ「領域オントロジーの利用」(2007/7)
第17回:招待講演:N Guarino “An
第17回:招待講演:N.
An introduction to formal ontological
analysis”(2008/2)
第18回:特集テーマ「知識構造化のツール・方法論・事例」(2008/12)
第20回:Wikipediaワークショップ (2009/1)
Hideaki Takeda / National Institute of Informatics
Semantic Webに関する会議
International Semantic Web Conferences
(2002- )
European Semantic Web Conferences
(2004- )
Asian Semantic Web Conferences(2006Conferences(2006 )
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webに関する会議


World Wide Web ConferencesにおけるTrack
 2002-2007: Semantic
i Webb
 2008,2009: Semantic / Data Web
そ 他
その他
 セマンティックWebコンファレンス(日本) 2001-2009
 RuleML (The International RuleML Symposium on Rule
Interchange and Applications) 2005-
Hideaki Takeda / National Institute of Informatics
7
Hideaki Takeda / National Institute of Informatics
(小文字の)semantic web
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理
semantic web
microformats
RDFS
LinkedData
軽量オントロジー
軽量オントロジ
tags
集合知
Wikipedia
http://www.flickr.com/photos/breebailey/470692148/
Hideaki Takeda / National Institute of Informatics
(小文字の)semantic
(小文字の)se
a t c web


広い意味でのセマンティックWebを実現する
 RDF(S)/OWLに必ずしも依存しない
( )/
に必ずしも依存しない
 今のWeb情報を最大限利用する
 セマンティック技術の活用(NLP、メタデータ、、、)
ク技術 活 (
タデ タ
)
二つのアプローチ
 メタデータの異なるアプローチ
デ
プ
 microformats, atom
 Web 2.0的データの活用
 blog, social tagging, SNS, wikipedia
Hideaki Takeda / National Institute of Informatics
特集テ
特集テーマ/招待講演(抜粋)
/招待講演(抜粋)










第3回:招待講演:辻井潤一「テキスト情報処理とオントロジー」(2002/6)
第6回:特集テーマ「Weblog」(2004/7)
招待講演:山下清美「Weblogの心理学」
第10回:特集テーマ:「ライトウエイト・メタデータ(blog, SNS, wiki
他)」(2005/11)
第12回:特集テーマ「セマンティックWebサービス」(2006/1)
招待講演:D. Fansel & M. Zaremba “Semantically
Semantically Enabled Service-Oriented
Service Oriented
Architectures: A Framework"
第13回:特集テーマ「セマンティックWeb」
第
第14回:特集テーマ「セマンティックWebとWeb2.0」(2006/11)
特集
「
第16回:特集テーマ「領域オントロジーの利用」(2007/7)
第17回:招待講演:N Guarino “An
第17回:招待講演:N.
An introduction to formal ontological
analysis”(2008/2)
第18回:特集テーマ「知識構造化のツール・方法論・事例」(2008/12)
第20回:Wikipediaワークショップ (2009/1)
Hideaki Takeda / National Institute of Informatics
Wikipedia
W
ped a ワ
ワークショップ
クショップ



2009/1/22 終日
15件発表+1チュートリアル+1招待講演
件発表+ チ
トリア + 招待講演
参加者:120名程度
 大学:企業=2:1(参加票より)
大学 企業
(参加票より)
 大体は研究者、少しWikipediaコミュニティ、マスコミ
Hideaki Takeda / National Institute of Informatics
なんのためにW ped aを研究するか
なんのためにWikipediaを研究するか


18+27
“Wikipedia現象”の解明
 コンテンツの共同作成プロセスや編集者コミュニティの分析
 利用状況や利用者コミュニティの分析
 作成されたコンテンツの分析
145+167
Wikipediaデータの利用
情報検索
 情報推薦
 信頼性推定
 2次デ
2次データ作成
タ作成
 用語辞典作成
 シソーラス作成
 知識ベース作成
 オントロジー作成

37+30
25+22
11+29
53+59
9+10
13+17
15+15
16+17
Hideaki Takeda / National Institute of Informatics
W ped aの何に注目するのか
Wikipediaの何に注目するのか



3+20
編集プロセスに注目
 合意形成プロセス
合意形成プ セ
 集団性、社会性、社会ネットワーク、コミュニティ
2+12
利 プ
利用プロセスや利用者に注目
や利 者 注
 利用状況の分析
 利用者コミュニティの分析
共同作成されたコンテンツに着目 71+61
 知識の集合として
 構造的な知識、オントロジーの抽出
 常識、日常知識の抽出
 意外な知識の発見
 言語の集合として、多言語の集合として
 構造化文書の集合として
Hideaki Takeda / National Institute of Informatics
どんな研究分野か







知識処理(人工知能)
自然言語処理
データベース
ネ
ネットワーク分析、ネットワーク科学
ク分析 ネ
ク科学
言語学
社会学
そのほか
22
13
18
14
10
12
3
8
2
2
10
7
1
1
Hideaki Takeda / National Institute of Informatics
セマンティックWeb/オントロジー・スケール
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理
semantic web
microformats
RDFS
tags
集合知
LinkedData
軽量オントロジー
軽量オントロジ
Wikipedia
http://www.flickr.com/photos/breebailey/470692148/
Hideaki Takeda / National Institute of Informatics
Linked Data


Linked Dataとは “Web of Data”
 RDFで公開されるデータ
で公開されるデ タ
 外部から参照可能
Linked Dataのための4条件
ため 条件
 事柄の名前にURIを使うこと
 すべてのモノ,コトにURIを!
 名前の参照がHTTP URIでできること
 DOIとかいったURNは使わないでね
 URIを参照したときに関連情報が手に入るように


理解可能なデータを提供してね.
外部へのリンクも含めよう
 Webのようにリンクでつながるデータを作ろう
Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの階梯




RDF (Resource Description Framework)
 最も原始的な意味記述の枠組みを提供
最も原始的な意味記述の枠組みを提供ー>SVOモデル
>SVOモデル
 Entity-Relation Model(実体関連モデル)
 セマンティックネット
RDF Schema
h
 RDFに最も原始的な概念記述の仕組みを追加
 class-subclass関係,制約
関係,制約
OWL (Web Ontology Language)
 記述論理(description logics)に基づいた
概念とその関係を記述する言語
Rule-ML
もっと上へ、もっと上へ
 …
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの階梯

抽象問題から具体問題への回帰
クラスに関する記述
オントロジー
インスタンスに関する記述
Linked Data
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの階梯

オントロジー
 クラスに関する記述
 RDFS、OWL
 オントロジー構築の課題
 オントロジー構築はそもそも大変
オント ジ 構築はそもそも大変
 一貫性、網羅性、論理性
 複数オントロジーの統合・関連付けは
複数オン
ジ
統合 関連付けは
もっと大変
クラスに関する記述
オントロジー
インスタンスに関する記述
Linked Data
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
Hideaki Takeda / National Institute of Informatics
Semantic
Se
a t c Webの階梯

Linked Data
 インスタンスに関する記述
インスタンスに関する記述=個々の事物に関する記述
個々の事物に関する記述
 RDF + (RDFS, OWL)
 Linked Dataの記述における利点
 書きやすい(事実に関する記述が主)
 リンクしやすい(同)
 Linked Dataの記述における問題点
記述 おける問題点
 複雑な記述は難しい
 それでもクラス定義は必要(→オントロジー)
クラスに関する記述
オントロジー
インスタンスに関する記述
Linked Data
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
Hideaki Takeda / National Institute of Informatics
Linkingg Open
p Data ((LOD))





公開されたLinked Dataを集めるプロジェクト
主要な i k d Data
主要なLinked
(データ変換)
 Dbpedia (Wikipedia) : 百科事典,
科事典 2.7億文
億文
 Geonames:地名と緯度経度, 9300万文
 MusicBrainz:音楽
 WordNet:辞書
 DBLP bibliography:論文の書誌,2800万文
 US Census Data: 米国国勢調査(2000年), 10億文
(クロール)
 FOAF (Friend Of A Friend):個人と個人関係のプロファイル
(ラッパー)
 Flickr Wrapper
Hideaki Takeda / National Institute of Informatics
Music
Web-based
Information
Papers
Geographic information
Life Science and Health Care
131億文
1 41 万個のリンク
Hideaki Takeda / National Institute of Informatics
LODの発展(1)
O の発展( )
As of March 2008
Hideaki Takeda / National Institute of Informatics
LODの発展(2)
O の発展( )
Hideaki Takeda / National Institute of Informatics
LODの発展(3)
O の発展(3)
Hideaki Takeda / National Institute of Informatics
LODの発展(4)
O の発展( )
131億文
1 41 万個のリンク
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
DBpedia
p
Mobile
Hideaki Takeda / National Institute of Informatics
http://id.ndl.go.jp/auth/ndlsh/
http://id.ndl.go.jp/auth/ndlsh/?query=PREFIX+skos%3A+%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0D%
0APREFIX+rdfs%3A+%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdfschema%23%3E%0D%0A%0D%0ASELECT+DISTINCT+%3Fy+%3Flabel%0D%0AWHERE+%7B%0D%0A+++%3Fx+rdfs%3Alabel+%22
schema%23%3E%0D%0A%0D%0ASELECT
DISTINCT %3Fy %3Flabel%0D%0AWHERE %7B%0D%0A
%3Fx rdfs%3Alabel %22
%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD%22+.%0D%0A+++%3Fx+skos%3Arelated+%3Fy+.%0D%0A+++%3Fy+rdfs%3Al
abel+%3Flabel+.%0D%0A+++FILTER%28%3Flabel+%21%3D+%22%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD%22%29%0D
%0A%7D%0D%0A&output=htmltab
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
LOD.AC Museum



日本の美術館・博物館の情報をLinked Data化
 めざせ 3000館
館 !?
手法
 オントロジー:
オ
ジ
Lightweight Ontotology
 Japeana!? (日本版 Europeana)
 情報収集: Crawling & Scripting
 ミーニク!? (美術館版カーリル)
目下がんばっています
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
オントロジー・セマンティックウェブ・セマンティックウェブ
オントロジー研究
論理
Semantic Web
OWL
形式オントロジー
領域オントロジー
知識表現
記述論理



semantic web
microformats
RDFS
LinkedData
軽量オントロジー
軽量オントロジ
tags
集合知
Wikipedia
WebはAIの新しいプレイグランド
 Semantic WebはWebとAIを結ぶコンセプト
社会につながった研究
http://www.flickr.com/photos/breebailey/470692148/
未来をつくる研究
Hideaki Takeda / National Institute of Informatics
Fly UP