...

セマンティックWebの応用システム

by user

on
Category: Documents
15

views

Report

Comments

Transcript

セマンティックWebの応用システム
セマンティックWeb の応用システム
∼データベース応用システムとの比較から∼
(財)情報処理相互運用技術協会セマンティックWeb委員会委員
日本電気株式会社 インターネットシステム研究所
細見 格
1
C 2002 INTAP, NEC Corp. All rights reserved.
セマンティックWeb
クWeb をどう位置付けるか
データベース と Web情報システム に関するシンポジウム
セマンティックWeb
メタデータ
:
(
半)
構造型データ⇔
メタデータ
:
(
半)
構造型データ⇔ DB
DBのレコード
のレコード
オント
オントロ
ロジ
ジ:
:概念間の関係記述
概念間の関係記述
リソース
リソース本体
本体=
= Web
Webコンテンツ
コンテンツ+α
+α
「データベースのように使えるWeb
に使える Web」
」?
プログラムによる Web コンテンツの効率的検索, 比較, 統合, etc. が可能に
2
C 2002 INTAP, NEC Corp. All rights reserved.
1
データベースシステムとWWW
データベースシステムと
WWW
データベースシステム
World Wide Web
ユーザ
ユーザ
DBMS
ディレクトリ・サービス/
ポータル・サイト
DB
DB
インターネット
予め指定されたDB(群)
見つからない
Web コンテンツ
DB
3
C 2002 INTAP, NEC Corp. All rights reserved.
一般的なデータベースとセマンティックWeb との比較
セマンティック Web
一般的なデータベース
検索言語
SQL , OQL , etc.
RQL , etc. (まだ標準言語は 無い)
(現状のWeb検 索は キーワード列や
簡単な論理式程度)
検索に対する
再現性
DB内に存在し、与えられた条件に 全てはカバーできない
(検索エンジンの性能 やメタデータと
適合するデータは全て検索可能
その解釈能力 に依存)
データ更新に
対する追従性
保証
バックアップ/
リカバリ保証
可能
非保証
(ローカルな固定リポジトリを対象とした
システムの場合を除く)
未知のリソース 不可能
(情報源)
から
の情報収集
Web全体に対しては不可能
可能
(クローラーの 探索範囲にあれば)
未知の属性や 不可能
可能
スキーマを持つ (XML-DB で DTD や XML Schema を (RDF Schema やオントロジの 参照 に
情報源の検索
参照する場 合は限定的ながら可能)
より対応可能)
4
C 2002 INTAP, NEC Corp. All rights reserved.
2
意味(セマンティック)情報の活用
メタデータ(事実や意図の記述)+オントロジ(概念体系)の活用
・あるリソースの理解やその利用に関する推論 → AI 屋さん的発想?
・異種システム同士のコミュニケーション → 分散システム屋さん的発想?
セマンティックWeb はもともと後者の発想。より高度な応用では前者の領域へ。
用途
メタデータの活用
検索
キーワード・
マッチング
属性値による選別/絞込み
利用者/端末特性の利用
フィルタリング
分類
統合
キーワードによる分類/統合
属性とその値域による分類
オントロジの活用
横断的検索
(異種DB/リポジトリ)
意味的フィルタリング
(語の関連性/重要性など)
概念体系による分類
意味レベルでの適合性評価
5
C 2002 INTAP, NEC Corp. All rights reserved.
セマンティックWeb
クWeb 関連技術の応用に関する最近の動向
Semantic Web Business SIG 参加各社のソリューション・カテゴリ
デジタルコンテンツ管理(デジタルアセット管理)- 12 社
情報抽出・分類 - 8 社
知識管理 - 6 社
EAI,Webサービス連携/統合 - 3 社
オントロジ構築支援 - 3 社
Topic Map 関連サーバー/ツール - 3 社
RDF メタデータ管理・検索 - 2 社
コンサルティング支援、ビジネスポータル 構築ツール、
RDF Schema エディタ- 各 1 社
(2002年11月4日現在)
http://business.semanticweb.org/
6
C 2002 INTAP, NEC Corp. All rights reserved.
3
セマンティックWeb
クWeb 関連技術の応用に関する最近の動向
WWW 2002 Conference におけるセマンティックWebの応用に関する発表
応用領域
知識共有
システム名/種類
BTexact Technologies
WebScripter
アメリカ
南カリフォルニア大学
P2P Semantic Web
アメリカ
ジョージア大学
日本
イギリス
Computing City 大学
意思決定支援
アメリカ
R-Objects Inc.
教育
ドイツ
イギリス
QuizRDF
フレームワーク提案
Web サービス
NTT
Information Bus
フレームワーク提案
情報検索
組織
イギリス
Hyperclip
知識管理
国
OntoShare
カールスルーエ大学
British Telecom
ドイツ
カールスルーエ大学
複雑なクエリへの対応
アメリカ
ノースカロライナ大学
KarmaSIM (Webサービス合成・検証)
アメリカ
SRI International &スタンフォード大学
数学教育システム
ドイツ
Saarlandes 大学
EDUTELLA (P2P 型学習情報共有)
ドイツ
ハノーバー大学&カールスルーエ大学
リコメンダ
研究論文推薦システム
イギリス
サザンプトン 大学
コンテンツ変換
端末適応型情報表示
オランダ
CWI
個人情報管理
Haystack
アメリカ
MIT
Webインタフェース構築
Web-for -Web
ベルギー
ブリュッセル大学
国際的データアーカイブ
NESSTAR (Data Web)
E コマース
B2B 取引ライフサイクル 管理
EU
アメリカ
Nesstar Ltd.
SRI International
7
C 2002 INTAP, NEC Corp. All rights reserved.
最近の研究開発事例
Web サービス連携の動作フロー設計・検証支援ツール
KarmaSIM (SRI International, Stanford University)
複合的Webサービスをグラフィカルに設計し、内部動作の合成、検証、パフォーマンス評価が可能
DAML-S :
Web サービス用オントロジ記述言語
・サービスプロファイル(機能)の記述
・サービスモデル(動作フロー)の記述
・インタフェースとプロトコルの記述
start
Ready
finish
COMPONENT
COMPONENT
CONTROL
CONTROL
CONSTRUCTS
CONSTRUCTS
Done
DAML-S による基本的なサービス合成の
ペトリネット表現
例: 書籍購入Webサービスの設 計
http://www2002.org/CDROM/refereed/581/
8
C 2002 INTAP, NEC Corp. All rights reserved.
4
データベース(コンテンツ)管理システムとセマンティックWeb
9
C 2002 INTAP, NEC Corp. All rights reserved.
セマンティックWeb
クWeb に繋がる現在の応用システム
コンテンツ管理システム
Webコンテンツ管理(WCM)、デジタルアセット管理(DAM)、企業コンテンツ管理(ECM)等
リッチメディア・コンテンツの管理
現状
将来
ビジネス・インテリジェンス(B I)
画像や映像を含むコンテンツの検索・
活用
膨大な情報の分類・
整理・マイニング
内容や特徴を表すメタデータ記述
権限や利用条件を表すメタデータ記述
コンテンツの自動分類、タクソノミ管理
メタデータや要約文の自動生成
独自 or 業界標準形式のメタデータ
独自形式のオントロジ
?
?
RDF
OWL
Semantic Web 時代のコンテンツ管理 = ベンダーや業界の枠を越えた相互運用性
10
C 2002 INTAP, NEC Corp. All rights reserved.
5
コンテンツ管理における種々の課題
解決策としての標準規格
大規模な商品カタログ管理
• 定義すべきスキーマやカラムの数が膨大に
• NULL だらけのテーブル によるインデックス浪費
XML ,
XML Schema
リッチメディア(音声、映像など)の管理
• 内容の検索が困難
• 適切な特徴量の抽出とその意味付けが必要
MPEG-7 ,
DIG35, etc.
権利およびライセンスの管理
• 著作権に関わる様々な制約の明確化が必要
• コンテンツ毎の利用許諾やその条件の管理が必要
XrML ,
ODRL, etc.
異なる複数のリポジトリの統合/相互運用
• 部門間/異業種間連携 における語彙多義性
• 部門再編や M&A の迅速化とコスト圧縮への要望
RDF ,
OWL, etc.
11
C 2002 INTAP, NEC Corp. All rights reserved.
コンテンツ管理の相互運用性向上に対するメタデータ標準化
デジタルコンテンツ(アセット)の分散配置・統合利用へ
メタデータにおける相互運用性の確立
XML によるメタデータ記述 ⇒ 属性記述や関係記述の方法が数多く存在
TV Anytime, DIG35 などの業界標準 ⇒ 異なる業界間での相互運用性に課題
MPEG-7 などの汎用標準 ⇒ 巨大な仕様。状況変化への迅速な対応に課題
セマンティックWeb (RDF , OWL)
メタデータ
を項目名まで規定せず、
記述方法と
解釈手段を提供
メタデータ
を項目名まで規定せず、
記述方法と
解釈手段を提供
メタデータ
標準間のアダプタと
し
て利用可能
メタデータ
標準間のアダプタと
し
て利用可能
12
C 2002 INTAP, NEC Corp. All rights reserved.
6
メタデータとオントロジのより高度な活用
オントロジを用いたコンテンツの自動分類・比較・統合・メタデータ生成
例: コンテンツ内の語の解釈
オントロジ(語彙体系)の例
(
Applied Semantics 社のオントロジ例から引用)
コンテンツ(文書等)から
語や文を抽出
オントロジを参照
コンテンツに含まれる語間の
関係から適切な語意を判断
逆にカテゴリ別のオントロジに含
まれる語を用いて各コンテンツを
特徴づけるキーワードを抽出
http://www.appliedsemantics.com/as_solutions_tech.shtml
コンテンツの分類や評価に利用
13
C 2002 INTAP, NEC Corp. All rights reserved.
例:Applied Semantics 社のコンテンツ管理ソリューション
1999年設立
企業コンテンツ/文書管理システム開発
http://www.appliedsemantics.com/
システム導入実績
VeriSign
Yahoo!
USA Today など 50 社以上
コア技術:
CIRCA (Conceptual Information Retrieval and Communication Architecture)
オントロジ (500,000+ concepts, 1,200,000+ terms)
terms
言語処理エンジン
CIRCA
し
た製品(
ソ
リ
ュ
ー
シ
ョ
ン・
コンポーネント
)
:
CIRCA をベースと
をベースと
し
た製品(
ソ
リ
ュ
ー
シ
ョ
ン・
コンポーネント
)
:
Auto
Categorizer
:
コンテンツを
タ
ク
ソ
ノ
ミに自動分類
Auto Categorizer : コンテンツをタクソノミに自動分類
Meta
を抽出しメタデータ
を生成
Meta Creator
Creator : : 文書からキーワード
文書からキーワード
を抽出しメタデータ
を生成
Page
からなる要約文を
生成
Page Summarizer
Summarizer : : 重要なキーワード
重要なキーワード
からなる要約文を
生成
14
C 2002 INTAP, NEC Corp. All rights reserved.
7
RDF とOWL による相互運用性がもたらすもの
申請/
入札
A社
社内業務管理システム
政府/自治体
電子政府システム
オントロジ
オントロジ
産学連携
提携/
BtoB
B大学
C社
Webサービス・サイト
研究
設備
オントロジ
オントロジ
15
C 2002 INTAP, NEC Corp. All rights reserved.
World Wide Web とセマンティックWeb
16
C 2002 INTAP, NEC Corp. All rights reserved.
8
「Web
Web検索エンジンがブックマーク
検索エンジンがブックマーク替わりに 」
主要検索エンジンに対する検索語上位ランキング
(2002年7月度/家庭からの接続) by NetRatings Japan Inc.
順位
検索語
入力者数
1
yahoo
32.8万人
携帯電話、ジョイスティック、
2
2ちゃんねる
29.3万人
リモコン、手書き、音声認識 ...
3
地図
28.9万人
PC 以外での Web 利用が増え
4
5
6
7
NHK
アダルト
JR
internet explorer
26.1万人
24.7万人
23.6万人
22.6万人
8
ANA
21.2万人
少ないキーワードで
より精度の高い検索が
9
JAL
20.8万人
要求される
10
高校野球
20.5万人
ると、この傾向がさらに加速
http://www.netratings.co.jp/press_releases/0917_ReleaseKeyWordSearch_J_final.pdf
17
C 2002 INTAP, NEC Corp. All rights reserved.
制約の多い端末での検索における課題
i モード用の Google で "JR" を検索した場合(2002年10月21日)
[1]
[1]Nick
NickJr.
Jr.Parents-Parents--Play
Playto
toLearn
Learnwith
withBlue's
Blue'sClues,
Clues,Dora
Dorathe
the...
...
[2]
JR東日本
[2] JR東日本
[3]
[3]JR
JRCYBER
CYBERSTATION
STATION
[4]
JR西日本ホームページ
[4] JR西日本ホームページ
[5]
[5]JR九州
JR九州
[6]
[6]JR東海
JR東海
[7]
[7]JR四国
JR四国
[8]
[8]The
TheMartin
MartinLuther
LutherKing,
King,Jr.
Jr.Papers
PapersProject
Project--...
...
[9]
JR北海道
[9] JR北海道
[10]
[10]The
TheSeattle
SeattleTimes:
Times:Martin
MartinLuther
LutherKing
King Jr.
Jr.--...
...
★ 利用端末(i モード)での閲覧に適したサイトが優先されていない
★ "JR" と"Jr"(ジュニア)でキーワードとしての優先度に差が無い
★ 同種のサイト(各地域の JR や同名人物)がまとめられていない
18
C 2002 INTAP, NEC Corp. All rights reserved.
9
意味情報の活用
用途
メタデータの活用
検索
キーワード・
マッチング
属性値による選別/絞込み
利用者/端末特性の利用
フィルタリング
分類
統合
キーワードによる分類/統合
属性とその値域による分類
交通
JR
タイプ
略記
横断的検索
(異種DB/リポジトリ)
意味的フィルタリング
(語の関連性/重要性など)
概念体系による分類
意味レベルでの適合性評価
名詞
会社
モバイル
オントロジの活用
日本旅客鉄道
形容詞
タイプ
固有名詞
タイプ
タイプ
Jr.
略記
名詞
タイプ
Junior
携帯電話から"JR" で検索した場合、どちらを優先するか(→ 判断ルール)
19
C 2002 INTAP, NEC Corp. All rights reserved.
意味情報を活用した検索システムの例:TAP
た検索システムの例:TAP--KB
W3Cサイト内情報検索システム
"Tim" で
検索
人、組織に関するDB、HTML
等の情報をRDF メタデータに
変換
RDF メタデータを知識ベース
に格納
検索すると、Google の結果に
知識ベースからの検索結果を
追加して表示
プロフィールや関連文書など
を素早く参照可能
http://tap.stanford.edu/w3c.html
Tim Berners-Lee に関する情報
20
C 2002 INTAP, NEC Corp. All rights reserved.
10
次世代 WWW = セマンティックWeb
クWeb ?
現在の WWW を置き換えるものではない
⇒ メタデータを持つ Web コンテンツと持たない Web コンテンツが並存
メタデータを持つ Web コンテンツはより高度な検索や自動処理が可能
現在の WWW
普及
セマンティックWeb
新たな価値・機能
将来の WWW
セマンティックWeb では
「ポータルサイト」はどう変わるのか?
「バナー広告」はどう変わるのか?
21
C 2002 INTAP, NEC Corp. All rights reserved.
セマンティックWeb
クWeb における「ポータル 」とは?
1.地図サイト/アプリケーション
• MapFan Web など豊富な付加サービスを提供する地図サイトやアプリ
ケーションが多数
• カーナビゲーションやモバイル 端末用の GPS 連動ソフト多数
• G-XML や GML などの メタデータおよびプロトコルの標準化が進展
• 複数の県や市が G-XML 準拠の地図データを作成、提供開始
地理情報とWeb
の情報(
メタデータ
)
を結びつけたポータル
サービスが可能に
地理情報とWebサイト
サイト
の情報(
メタデータ
)
を結びつけたポータル・
・
サービスが可能に
2.カレンダー・サイト/アプリケーション
• Apple の iCal , Yahoo! カレンダーなど
• カレンダー記述用標準プロトコル iCalender が普及
• 様々なカテゴリのカレンダー情報(予定表)を提供するサイトが増加
日付や時間帯に関わる様々な情報を閲覧者や閲覧時期に合わせて提供可能に
日付や時間帯に関わる様々な情報を閲覧者や閲覧時期に合わせて提供可能に
22
C 2002 INTAP, NEC Corp. All rights reserved.
11
例:地図ポータル
■ JIS規格となった G-XML により様々な地図情報の共有が可能に
→ 岐阜県、三重県など多くの都道府県が G-XML 準拠の地図情報を作成・提供開始
・グルメ情報 サイト
・人気ランキング
・割引クーポン ...
RSS
グルメ
グルメ
スポット
スポット
WEBサイト
RSS
○○駅
○○駅
周辺案内
周辺案内
・店名:○○レストラン
・場所:XXXXXXXX
・支払:現金 , VISA , ...
・開店時間:10:00 ∼..
エージェント/
セマンティック
Webサービス
意味に基づく
Webサイトの
検索/関連付け
地図情報ポータル・サイト
RDF
メタデータ
RDF
RDF
Webサイトと
地図情報との
連携による
地域サービス
池
食
駅
POI (*)
背景地図
RSS
水鳥の
水鳥の
棲
む池
棲 む池
場所・端末等に応じてWEB情報を活用
(観光/出張支援サービス)
G-XML
(*)
POI
- Point of Interest (関心地点)
この近 くで人 気の
レストランは?
カードで支払 える?
23
C 2002 INTAP, NEC Corp. All rights reserved.
多面性(マルチビュー)を持つポータルサイト
従来型ディレクトリ形式
地図
カレンダー
Sun
Wahoo!
Mon
Tue
Wed
Thu
Fri
Sat
II
和風にこだわるポータル
.... ....
..... ...
....
..
... ... .....
....
.....
....
.... .....
..... ....
....
....
....
.... .....
..... ....
....
....
.....
....
....
... .....
.... ....
....
II
II
II
II
P
HTML
P
II
II
G-XML
ポータル・
サイト
ポータル・
サイト
iCalender
RDF
メタデータ
オントロジ
インターネット
Webサイト
Webサイト
RSS
RSS
RSS
WSDL
Webサイト
Webサイト
Webサイト
Webサイト
WSDL
24
C 2002 INTAP, NEC Corp. All rights reserved.
12
セマンティックWeb
クWeb における広告ビジネス
バナー広告:コンシューマ向け Web サイト経営の主要なビジネスモデル
エージェントがコンテンツを探索・評価するセマンティックWeb に広告は不要?
消費者が直接目にする商品カタログとしての広告ポータル
サイト
に集約?
消費者が直接目にする商品カタログとしての広告ポータル・
・
サイト
に集約?
エージェント
に選ばれやすいメタデータ
記述方法の開発
グ進化形?
エージェント
に選ばれやすいメタデータ
記述方法の開発⇒
⇒META
METAタ
タ
グ進化形?
すべてがセマンティック Web になるわけではない
人間が見て評価してから
利用するWeb
発展
人間が見て評価してから
利用するWebサービスも並存し
サービスも並存し
発展
サービス/コンテンツ提供者と
の契約手続きの全てを自動化するのは困難
サービス/コンテンツ提供者と
の契約手続きの全てを自動化するのは困難
25
C 2002 INTAP, NEC Corp. All rights reserved.
まとめ
セマンティックWeb = WWW + マシン可読な意味情報 × 相互運用性
意味情報を何に使うか
・検索条件の補完、検索結果のフィルタリング、関連情報の自動検索
・リソース(コンテンツ, サービス)の分類、合成、マイニング
相互運用性によって何が得られるか
・オントロジの共有、補完、再利用 → 大規模オントロジ構築の省力化
・B2B や Web サービスへの適用
・部門再編、企業合併/買収時の早期リソース統合
一般利用者の視点では従来の WWW から何が変わるのか
・様々な側面や観点から利用可能なポータルサイト
・そのポータルサイトから直接複数の Web サービスを利用可能に
26
C 2002 INTAP, NEC Corp. All rights reserved.
13
Fly UP