Comments
Description
Transcript
セマンティックWebの応用システム
セマンティックWeb の応用システム ∼データベース応用システムとの比較から∼ (財)情報処理相互運用技術協会セマンティックWeb委員会委員 日本電気株式会社 インターネットシステム研究所 細見 格 1 C 2002 INTAP, NEC Corp. All rights reserved. セマンティックWeb クWeb をどう位置付けるか データベース と Web情報システム に関するシンポジウム セマンティックWeb メタデータ : ( 半) 構造型データ⇔ メタデータ : ( 半) 構造型データ⇔ DB DBのレコード のレコード オント オントロ ロジ ジ: :概念間の関係記述 概念間の関係記述 リソース リソース本体 本体= = Web Webコンテンツ コンテンツ+α +α 「データベースのように使えるWeb に使える Web」 」? プログラムによる Web コンテンツの効率的検索, 比較, 統合, etc. が可能に 2 C 2002 INTAP, NEC Corp. All rights reserved. 1 データベースシステムとWWW データベースシステムと WWW データベースシステム World Wide Web ユーザ ユーザ DBMS ディレクトリ・サービス/ ポータル・サイト DB DB インターネット 予め指定されたDB(群) 見つからない Web コンテンツ DB 3 C 2002 INTAP, NEC Corp. All rights reserved. 一般的なデータベースとセマンティックWeb との比較 セマンティック Web 一般的なデータベース 検索言語 SQL , OQL , etc. RQL , etc. (まだ標準言語は 無い) (現状のWeb検 索は キーワード列や 簡単な論理式程度) 検索に対する 再現性 DB内に存在し、与えられた条件に 全てはカバーできない (検索エンジンの性能 やメタデータと 適合するデータは全て検索可能 その解釈能力 に依存) データ更新に 対する追従性 保証 バックアップ/ リカバリ保証 可能 非保証 (ローカルな固定リポジトリを対象とした システムの場合を除く) 未知のリソース 不可能 (情報源) から の情報収集 Web全体に対しては不可能 可能 (クローラーの 探索範囲にあれば) 未知の属性や 不可能 可能 スキーマを持つ (XML-DB で DTD や XML Schema を (RDF Schema やオントロジの 参照 に 情報源の検索 参照する場 合は限定的ながら可能) より対応可能) 4 C 2002 INTAP, NEC Corp. All rights reserved. 2 意味(セマンティック)情報の活用 メタデータ(事実や意図の記述)+オントロジ(概念体系)の活用 ・あるリソースの理解やその利用に関する推論 → AI 屋さん的発想? ・異種システム同士のコミュニケーション → 分散システム屋さん的発想? セマンティックWeb はもともと後者の発想。より高度な応用では前者の領域へ。 用途 メタデータの活用 検索 キーワード・ マッチング 属性値による選別/絞込み 利用者/端末特性の利用 フィルタリング 分類 統合 キーワードによる分類/統合 属性とその値域による分類 オントロジの活用 横断的検索 (異種DB/リポジトリ) 意味的フィルタリング (語の関連性/重要性など) 概念体系による分類 意味レベルでの適合性評価 5 C 2002 INTAP, NEC Corp. All rights reserved. セマンティックWeb クWeb 関連技術の応用に関する最近の動向 Semantic Web Business SIG 参加各社のソリューション・カテゴリ デジタルコンテンツ管理(デジタルアセット管理)- 12 社 情報抽出・分類 - 8 社 知識管理 - 6 社 EAI,Webサービス連携/統合 - 3 社 オントロジ構築支援 - 3 社 Topic Map 関連サーバー/ツール - 3 社 RDF メタデータ管理・検索 - 2 社 コンサルティング支援、ビジネスポータル 構築ツール、 RDF Schema エディタ- 各 1 社 (2002年11月4日現在) http://business.semanticweb.org/ 6 C 2002 INTAP, NEC Corp. All rights reserved. 3 セマンティックWeb クWeb 関連技術の応用に関する最近の動向 WWW 2002 Conference におけるセマンティックWebの応用に関する発表 応用領域 知識共有 システム名/種類 BTexact Technologies WebScripter アメリカ 南カリフォルニア大学 P2P Semantic Web アメリカ ジョージア大学 日本 イギリス Computing City 大学 意思決定支援 アメリカ R-Objects Inc. 教育 ドイツ イギリス QuizRDF フレームワーク提案 Web サービス NTT Information Bus フレームワーク提案 情報検索 組織 イギリス Hyperclip 知識管理 国 OntoShare カールスルーエ大学 British Telecom ドイツ カールスルーエ大学 複雑なクエリへの対応 アメリカ ノースカロライナ大学 KarmaSIM (Webサービス合成・検証) アメリカ SRI International &スタンフォード大学 数学教育システム ドイツ Saarlandes 大学 EDUTELLA (P2P 型学習情報共有) ドイツ ハノーバー大学&カールスルーエ大学 リコメンダ 研究論文推薦システム イギリス サザンプトン 大学 コンテンツ変換 端末適応型情報表示 オランダ CWI 個人情報管理 Haystack アメリカ MIT Webインタフェース構築 Web-for -Web ベルギー ブリュッセル大学 国際的データアーカイブ NESSTAR (Data Web) E コマース B2B 取引ライフサイクル 管理 EU アメリカ Nesstar Ltd. SRI International 7 C 2002 INTAP, NEC Corp. All rights reserved. 最近の研究開発事例 Web サービス連携の動作フロー設計・検証支援ツール KarmaSIM (SRI International, Stanford University) 複合的Webサービスをグラフィカルに設計し、内部動作の合成、検証、パフォーマンス評価が可能 DAML-S : Web サービス用オントロジ記述言語 ・サービスプロファイル(機能)の記述 ・サービスモデル(動作フロー)の記述 ・インタフェースとプロトコルの記述 start Ready finish COMPONENT COMPONENT CONTROL CONTROL CONSTRUCTS CONSTRUCTS Done DAML-S による基本的なサービス合成の ペトリネット表現 例: 書籍購入Webサービスの設 計 http://www2002.org/CDROM/refereed/581/ 8 C 2002 INTAP, NEC Corp. All rights reserved. 4 データベース(コンテンツ)管理システムとセマンティックWeb 9 C 2002 INTAP, NEC Corp. All rights reserved. セマンティックWeb クWeb に繋がる現在の応用システム コンテンツ管理システム Webコンテンツ管理(WCM)、デジタルアセット管理(DAM)、企業コンテンツ管理(ECM)等 リッチメディア・コンテンツの管理 現状 将来 ビジネス・インテリジェンス(B I) 画像や映像を含むコンテンツの検索・ 活用 膨大な情報の分類・ 整理・マイニング 内容や特徴を表すメタデータ記述 権限や利用条件を表すメタデータ記述 コンテンツの自動分類、タクソノミ管理 メタデータや要約文の自動生成 独自 or 業界標準形式のメタデータ 独自形式のオントロジ ? ? RDF OWL Semantic Web 時代のコンテンツ管理 = ベンダーや業界の枠を越えた相互運用性 10 C 2002 INTAP, NEC Corp. All rights reserved. 5 コンテンツ管理における種々の課題 解決策としての標準規格 大規模な商品カタログ管理 • 定義すべきスキーマやカラムの数が膨大に • NULL だらけのテーブル によるインデックス浪費 XML , XML Schema リッチメディア(音声、映像など)の管理 • 内容の検索が困難 • 適切な特徴量の抽出とその意味付けが必要 MPEG-7 , DIG35, etc. 権利およびライセンスの管理 • 著作権に関わる様々な制約の明確化が必要 • コンテンツ毎の利用許諾やその条件の管理が必要 XrML , ODRL, etc. 異なる複数のリポジトリの統合/相互運用 • 部門間/異業種間連携 における語彙多義性 • 部門再編や M&A の迅速化とコスト圧縮への要望 RDF , OWL, etc. 11 C 2002 INTAP, NEC Corp. All rights reserved. コンテンツ管理の相互運用性向上に対するメタデータ標準化 デジタルコンテンツ(アセット)の分散配置・統合利用へ メタデータにおける相互運用性の確立 XML によるメタデータ記述 ⇒ 属性記述や関係記述の方法が数多く存在 TV Anytime, DIG35 などの業界標準 ⇒ 異なる業界間での相互運用性に課題 MPEG-7 などの汎用標準 ⇒ 巨大な仕様。状況変化への迅速な対応に課題 セマンティックWeb (RDF , OWL) メタデータ を項目名まで規定せず、 記述方法と 解釈手段を提供 メタデータ を項目名まで規定せず、 記述方法と 解釈手段を提供 メタデータ 標準間のアダプタと し て利用可能 メタデータ 標準間のアダプタと し て利用可能 12 C 2002 INTAP, NEC Corp. All rights reserved. 6 メタデータとオントロジのより高度な活用 オントロジを用いたコンテンツの自動分類・比較・統合・メタデータ生成 例: コンテンツ内の語の解釈 オントロジ(語彙体系)の例 ( Applied Semantics 社のオントロジ例から引用) コンテンツ(文書等)から 語や文を抽出 オントロジを参照 コンテンツに含まれる語間の 関係から適切な語意を判断 逆にカテゴリ別のオントロジに含 まれる語を用いて各コンテンツを 特徴づけるキーワードを抽出 http://www.appliedsemantics.com/as_solutions_tech.shtml コンテンツの分類や評価に利用 13 C 2002 INTAP, NEC Corp. All rights reserved. 例:Applied Semantics 社のコンテンツ管理ソリューション 1999年設立 企業コンテンツ/文書管理システム開発 http://www.appliedsemantics.com/ システム導入実績 VeriSign Yahoo! USA Today など 50 社以上 コア技術: CIRCA (Conceptual Information Retrieval and Communication Architecture) オントロジ (500,000+ concepts, 1,200,000+ terms) terms 言語処理エンジン CIRCA し た製品( ソ リ ュ ー シ ョ ン・ コンポーネント ) : CIRCA をベースと をベースと し た製品( ソ リ ュ ー シ ョ ン・ コンポーネント ) : Auto Categorizer : コンテンツを タ ク ソ ノ ミに自動分類 Auto Categorizer : コンテンツをタクソノミに自動分類 Meta を抽出しメタデータ を生成 Meta Creator Creator : : 文書からキーワード 文書からキーワード を抽出しメタデータ を生成 Page からなる要約文を 生成 Page Summarizer Summarizer : : 重要なキーワード 重要なキーワード からなる要約文を 生成 14 C 2002 INTAP, NEC Corp. All rights reserved. 7 RDF とOWL による相互運用性がもたらすもの 申請/ 入札 A社 社内業務管理システム 政府/自治体 電子政府システム オントロジ オントロジ 産学連携 提携/ BtoB B大学 C社 Webサービス・サイト 研究 設備 オントロジ オントロジ 15 C 2002 INTAP, NEC Corp. All rights reserved. World Wide Web とセマンティックWeb 16 C 2002 INTAP, NEC Corp. All rights reserved. 8 「Web Web検索エンジンがブックマーク 検索エンジンがブックマーク替わりに 」 主要検索エンジンに対する検索語上位ランキング (2002年7月度/家庭からの接続) by NetRatings Japan Inc. 順位 検索語 入力者数 1 yahoo 32.8万人 携帯電話、ジョイスティック、 2 2ちゃんねる 29.3万人 リモコン、手書き、音声認識 ... 3 地図 28.9万人 PC 以外での Web 利用が増え 4 5 6 7 NHK アダルト JR internet explorer 26.1万人 24.7万人 23.6万人 22.6万人 8 ANA 21.2万人 少ないキーワードで より精度の高い検索が 9 JAL 20.8万人 要求される 10 高校野球 20.5万人 ると、この傾向がさらに加速 http://www.netratings.co.jp/press_releases/0917_ReleaseKeyWordSearch_J_final.pdf 17 C 2002 INTAP, NEC Corp. All rights reserved. 制約の多い端末での検索における課題 i モード用の Google で "JR" を検索した場合(2002年10月21日) [1] [1]Nick NickJr. Jr.Parents-Parents--Play Playto toLearn Learnwith withBlue's Blue'sClues, Clues,Dora Dorathe the... ... [2] JR東日本 [2] JR東日本 [3] [3]JR JRCYBER CYBERSTATION STATION [4] JR西日本ホームページ [4] JR西日本ホームページ [5] [5]JR九州 JR九州 [6] [6]JR東海 JR東海 [7] [7]JR四国 JR四国 [8] [8]The TheMartin MartinLuther LutherKing, King,Jr. Jr.Papers PapersProject Project--... ... [9] JR北海道 [9] JR北海道 [10] [10]The TheSeattle SeattleTimes: Times:Martin MartinLuther LutherKing King Jr. Jr.--... ... ★ 利用端末(i モード)での閲覧に適したサイトが優先されていない ★ "JR" と"Jr"(ジュニア)でキーワードとしての優先度に差が無い ★ 同種のサイト(各地域の JR や同名人物)がまとめられていない 18 C 2002 INTAP, NEC Corp. All rights reserved. 9 意味情報の活用 用途 メタデータの活用 検索 キーワード・ マッチング 属性値による選別/絞込み 利用者/端末特性の利用 フィルタリング 分類 統合 キーワードによる分類/統合 属性とその値域による分類 交通 JR タイプ 略記 横断的検索 (異種DB/リポジトリ) 意味的フィルタリング (語の関連性/重要性など) 概念体系による分類 意味レベルでの適合性評価 名詞 会社 モバイル オントロジの活用 日本旅客鉄道 形容詞 タイプ 固有名詞 タイプ タイプ Jr. 略記 名詞 タイプ Junior 携帯電話から"JR" で検索した場合、どちらを優先するか(→ 判断ルール) 19 C 2002 INTAP, NEC Corp. All rights reserved. 意味情報を活用した検索システムの例:TAP た検索システムの例:TAP--KB W3Cサイト内情報検索システム "Tim" で 検索 人、組織に関するDB、HTML 等の情報をRDF メタデータに 変換 RDF メタデータを知識ベース に格納 検索すると、Google の結果に 知識ベースからの検索結果を 追加して表示 プロフィールや関連文書など を素早く参照可能 http://tap.stanford.edu/w3c.html Tim Berners-Lee に関する情報 20 C 2002 INTAP, NEC Corp. All rights reserved. 10 次世代 WWW = セマンティックWeb クWeb ? 現在の WWW を置き換えるものではない ⇒ メタデータを持つ Web コンテンツと持たない Web コンテンツが並存 メタデータを持つ Web コンテンツはより高度な検索や自動処理が可能 現在の WWW 普及 セマンティックWeb 新たな価値・機能 将来の WWW セマンティックWeb では 「ポータルサイト」はどう変わるのか? 「バナー広告」はどう変わるのか? 21 C 2002 INTAP, NEC Corp. All rights reserved. セマンティックWeb クWeb における「ポータル 」とは? 1.地図サイト/アプリケーション • MapFan Web など豊富な付加サービスを提供する地図サイトやアプリ ケーションが多数 • カーナビゲーションやモバイル 端末用の GPS 連動ソフト多数 • G-XML や GML などの メタデータおよびプロトコルの標準化が進展 • 複数の県や市が G-XML 準拠の地図データを作成、提供開始 地理情報とWeb の情報( メタデータ ) を結びつけたポータル サービスが可能に 地理情報とWebサイト サイト の情報( メタデータ ) を結びつけたポータル・ ・ サービスが可能に 2.カレンダー・サイト/アプリケーション • Apple の iCal , Yahoo! カレンダーなど • カレンダー記述用標準プロトコル iCalender が普及 • 様々なカテゴリのカレンダー情報(予定表)を提供するサイトが増加 日付や時間帯に関わる様々な情報を閲覧者や閲覧時期に合わせて提供可能に 日付や時間帯に関わる様々な情報を閲覧者や閲覧時期に合わせて提供可能に 22 C 2002 INTAP, NEC Corp. All rights reserved. 11 例:地図ポータル ■ JIS規格となった G-XML により様々な地図情報の共有が可能に → 岐阜県、三重県など多くの都道府県が G-XML 準拠の地図情報を作成・提供開始 ・グルメ情報 サイト ・人気ランキング ・割引クーポン ... RSS グルメ グルメ スポット スポット WEBサイト RSS ○○駅 ○○駅 周辺案内 周辺案内 ・店名:○○レストラン ・場所:XXXXXXXX ・支払:現金 , VISA , ... ・開店時間:10:00 ∼.. エージェント/ セマンティック Webサービス 意味に基づく Webサイトの 検索/関連付け 地図情報ポータル・サイト RDF メタデータ RDF RDF Webサイトと 地図情報との 連携による 地域サービス 池 食 駅 POI (*) 背景地図 RSS 水鳥の 水鳥の 棲 む池 棲 む池 場所・端末等に応じてWEB情報を活用 (観光/出張支援サービス) G-XML (*) POI - Point of Interest (関心地点) この近 くで人 気の レストランは? カードで支払 える? 23 C 2002 INTAP, NEC Corp. All rights reserved. 多面性(マルチビュー)を持つポータルサイト 従来型ディレクトリ形式 地図 カレンダー Sun Wahoo! Mon Tue Wed Thu Fri Sat II 和風にこだわるポータル .... .... ..... ... .... .. ... ... ..... .... ..... .... .... ..... ..... .... .... .... .... .... ..... ..... .... .... .... ..... .... .... ... ..... .... .... .... II II II II P HTML P II II G-XML ポータル・ サイト ポータル・ サイト iCalender RDF メタデータ オントロジ インターネット Webサイト Webサイト RSS RSS RSS WSDL Webサイト Webサイト Webサイト Webサイト WSDL 24 C 2002 INTAP, NEC Corp. All rights reserved. 12 セマンティックWeb クWeb における広告ビジネス バナー広告:コンシューマ向け Web サイト経営の主要なビジネスモデル エージェントがコンテンツを探索・評価するセマンティックWeb に広告は不要? 消費者が直接目にする商品カタログとしての広告ポータル サイト に集約? 消費者が直接目にする商品カタログとしての広告ポータル・ ・ サイト に集約? エージェント に選ばれやすいメタデータ 記述方法の開発 グ進化形? エージェント に選ばれやすいメタデータ 記述方法の開発⇒ ⇒META METAタ タ グ進化形? すべてがセマンティック Web になるわけではない 人間が見て評価してから 利用するWeb 発展 人間が見て評価してから 利用するWebサービスも並存し サービスも並存し 発展 サービス/コンテンツ提供者と の契約手続きの全てを自動化するのは困難 サービス/コンテンツ提供者と の契約手続きの全てを自動化するのは困難 25 C 2002 INTAP, NEC Corp. All rights reserved. まとめ セマンティックWeb = WWW + マシン可読な意味情報 × 相互運用性 意味情報を何に使うか ・検索条件の補完、検索結果のフィルタリング、関連情報の自動検索 ・リソース(コンテンツ, サービス)の分類、合成、マイニング 相互運用性によって何が得られるか ・オントロジの共有、補完、再利用 → 大規模オントロジ構築の省力化 ・B2B や Web サービスへの適用 ・部門再編、企業合併/買収時の早期リソース統合 一般利用者の視点では従来の WWW から何が変わるのか ・様々な側面や観点から利用可能なポータルサイト ・そのポータルサイトから直接複数の Web サービスを利用可能に 26 C 2002 INTAP, NEC Corp. All rights reserved. 13