Comments
Description
Transcript
PDF形式 479 KB - 内閣府経済社会総合研究所
第5章 5-1 セマンティック Web 技術の現状と今後の動向について セマンティック Web の概要 本節では、セマンティック Web の概要について述べる。まず 5.1 節において、セマンティック Web 技術の 提案のモチベーションとなった、現在の Web が抱える問題について述べる。それを受けて、5.2 節では、セマ ンティック Web を用いることによって、これらの問題がどのように解決されようとしているのかを述べる。 5-1-1 現在の Web が抱える問題 現在、Web は広く一般社会に浸透し、一般の人々の生活や企業・組織にとって欠かすことの出来ないものと なっている。Web 上では、一個人から企業まで世界中にいる誰でも低コストで情報を発信でき、またそれら の世界中から発信された情報に、検索などを用いることにより低コストかつ短時間でアクセスできる。このよ うな特徴により、Web は今までの社会のあり方を根本的に変え、世界中の人々に日々利用される、現代の社会 に欠かすことの出来ないものとなった。 しかし、「誰でも低コストで情報を発信出来る」という Web の特徴が、Web に「情報過負荷」という問題 をもたらしている。世界中の人々が Web 上に情報を発信するため、現在の Web 上には無数の情報が氾濫して しまっている。そのため、情報を入手する人々は、「無数の情報から、如何にして有益な情報を獲得するか」、 情報を発信する人々は、「如何にして発信した情報をユーザーに届けるか」という問題に直面している。 無数の情報の中から正しい情報を獲得するためには、検索エンジンなどを用いた情報検索を使う必要があ る。ただし、現在の検索技術では、正しい情報を獲得できない場合がある。例えば、あるユーザーが藤沢市に ある歯医者を検索しようとしている場合を考える。「藤沢」、「歯医者」と検索エンジンに入力した場合、以下 のような問題が発生する場合がある。 䉰䉟䊃䈱䊡䊷䉱䊷䈏䇸⮮ᴛᏒ䇹䈮䈅䉎䇸ᱤක⠪䇹䉕ត䈚䈠䈉䈫䈚䈩 ᬌ⚝䉣䊮䉳䊮䈮䇸⮮ᴛ䇹䇸ᱤක⠪䇹䈫ജ ว⥌䈜䉎䇸ᱤ⑼ක䇹䈏䊍䉾䊃䈚䈭䈇 䇸⮮ᴛ䈘䉖䇹䈱ᱤ⑼ක䈏䊍䉾䊃䈜䉎 ੱ䈱䊑䊨䉫䈭䈬䈏䊍䉾䊃䈜䉎 દ⮮ᱤ⑼ක䈱 ⮮ᴛᱤ⑼ක䈱 㬍㬍䈱䊑䊨䉫 ᚲ䋺ᄹᎹ⋵⮮ᴛᏒ ᚲ䋺᧲੩ㇺᄢ↰ ᣣ ᣣ䈲⮮ᴛ䈱䂦䂦䈮ⴕ䈦䈩 ⮮ᴛ ⴕ ᣣ䈲ᱤක⠪䈮ⴕ䈒੍ቯ䈣䇯 図 5-1: 現在の Web 検索の問題点 問題 1 藤沢市にある(条件に合致する)「伊藤歯科医」がヒットしない →「歯科医」と「歯医者」が同義語であると Web が判断出来ないことが原因 60 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 問題 2 藤沢さんという「人」が経営しているサイトがヒットしてしまう →「藤沢」という検索クエリが、「地名」である事を Web が判断出来ない事が原因 問題 2 「藤沢」と「歯科医」という言葉を含む個人のブログがヒットしてしまう →検索対象のサイトが「歯科医」のサイトであるということを Web が判断できないことが原因 これらの検索上の問題の原因は、現在の Web が、情報を「人々にとって解釈可能な形にする」ことを主眼に おいており、機械にとって解釈可能な形にしていないということに起因している。そのため、現在の Web 検索 は、検索対象となる情報の「意味」を考慮せず、サイトの「文字列」のみを照合している、という現状がある。 5-1-2 セマンティック Web による問題解決 このような Web の問題を受け、1998 年頃、W3C (World Wide Web Consortium) の Tim Berners-Lee ら は、セマンティック Web(Semantic Web) という、新しい Web の形態を提唱し、現在に至るまで標準化の努力 を続けている。 セマンティック Web では、 「メタデータ (Metadata)」(情報に関する情報)と「オントロジー (Ontology)」 (Web 上の語彙のつながり)を用いることにより、ハイパーリンクによって繋がっていた Web 上 の情報に、機械が解釈可能な意味の繋がりを加える。これによって、現在の Web が抱える情報検索の問題が 解決される。Tim Berners-Lee は、このようなセマンティック Web の目標を、Web を「データの Web にする」 と表現している。 先ほどの「藤沢市」の「歯医者」を見つける例では、「メタデータ」と「オントロジー」は、以下のように 利用され、現在の Web での検索の問題を解決している。 㗴䋲䋮䇸⮮ᴛ䈘䉖䇹䈱ᱤ⑼ක䈏䊍䉾䊃䈜䉎 㗴䋱䋮䇸દ⮮ᱤ⑼ක䇹䈏䊍䉾䊃䈚䈭䈇 㗴䋳䋮ੱ䈱䊑䊨䉫䈏䊍䉾䊃䈜䉎 ⸃╷䋺ᱤ⑼ක䈮㑐䈜䉎䉥䊮䊃䊨䉳 ⸃╷䋺ᱤ⑼ක䈮㑐䈜䉎䉥䊮䊃䊨䉳䊷 䉕↪䈚䇮䇸ᱤ⑼ක䇹䈫䇸ᱤක⠪䇹䈏ห⟵ 䈪䈅䉎䈫ቯ⟵䈜䉎 ⸃╷䋺䊖䊷䊛䊕䊷䉳䈮ኻ䈚䈩䇸䊜䉺 䊂䊷䉺䇹䉕ታⵝ䈚䇮䇸ᚲ䇹䋽䇸⮮ᴛ Ꮢ䇹䇮䇸ᬺ⒳䇹䋽䇸ᱤ⑼ක䇹䈱䉋䈉䈮䇮䊜䉺 䊂䊷䉺䉕ෳᾖ䈜䉎ᬌ⚝䉕ⴕ䈉 ᱤ⑼ක䉥䊮䊃䊨䉳䊷 ⮮ᴛᏒ䈱䇸દ⮮ᱤ⑼ක䇹䈱䊜䉺䊂䊷䉺 ᱤ⑼ක㒮 䋽 ᱤක⠪ 䊂䊮䉺䊦䉪䊥䊆䉾䉪 KDV 85/ ᱤ⑼ක KDV ᚲ KDV KDV ฬ೨ 㔚 ⇟ภ ༡ᬺᣣᤨ દ⮮ᱤ⑼ක ᚲ ᄹᎹ⋵⮮ᴛᏒ« ᬺ⒳ ᱤ⑼ ᱤ⑼ක ༡ᬺᣣᤨ « 85/ « 䉶䊙䊮䊁䉞䉾䉪:HE䈪䈲䇮䇸䊜䉺䊂䊷䉺䇹䈫䇸䉥䊮䊃䊨䉳䊷䇹䈱↪䈮䉋䈦䈩 ⋡⊛䈮ว⥌䈚䈢ᖱႎ䉕⚛ᣧ䈒ᬌ⚝䈜䉎䈖䈫䈏᧪䉎 図 5-2: メタデータとオントロジーによる検索の問題解決 このように、セマンティック Web は、Web 上の語彙の繋がりである「オントロジー」の記述と、情報に関 する情報である「メタデータ」の Web 上の情報への付与によって、情報検索の手間を省き、Web の利便性を 向上させるために生まれた取り組みである。 最後に、セマンティック Web がどのような手順をもって実現されていくかを示す、セマンティック Web の レイヤー・ケーキについて言及する。下の図は、2005 年 5 月に Tim Berners-Lee が示した、セマンティック Web のレイヤー・ケーキである(2002 年、2005 年 4 月にも同様のレイヤー・ケーキが発表されていたが、順 次改訂されている。) 基本的にはレイヤー・ケーキの下の階層から順に標準が固められ、これらの技術を順次標準化・実現するこ とによって、セマンティック Web が実現する。各階層についての説明を以下に記述する。 知識社会研究会 2008 年度報告書 61 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 図 5-3: 「セマンティック Web のレイヤー・ケーキ」(2005 年 5 月発表)」 表 5-1: 「レイヤー・ケーキの各階層についての記述」 技術階層名 URI Unicode XML Namespaces RDF Core RDF Schema DLP bit of OWL/Rul OWL Rules SParQL Logic Framework Proof Signature/Encryption Trust 知識社会研究会 2008 年度報告書 各技術階層についての説明 セマンティック Web の全ての基礎となるグローバルな識別子 ユニバーサルに処理できる文字コード ネットワークを通じてデータを交換するための共通構文 分散している語彙を区別し、用語が衝突しないための名前空間 情報の関係を主語, 述語, 目的語のトリプルと捉えるデータモデル RDF で用いる語彙を定義するデータモデル OWL と推論言語のうち、記述言語でプログラミング可能な範囲 オントロジー記述言語の OWL 全般 OWL と並んで推論機構を記述する言語 RDF のクエリ言語とプロトコル。知識を「利用」するための階層 論理フレームワーク。標準は定まっていないが、異なる論理システムの定義や システム間協調の仕組みを提供すると言われる セマンティック Web エージェントが行った推論の道筋や正しさを証明するため の仕組み データ署名と暗号化のパート。データの信頼性の記述に必要 コンピュータの力を利用して、Web の知識を利用するセマンティック Web の最 終目標 62 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 現在は、第1層から第6層の OWL と SPARQL までの標準が固まっている段階であると言える。第6層の Logic と、それ以上の層についての標準は未だ定まっていないため、今後の標準策定が待たれるところである。 5-2 セマンティック Web の要素技術 この節では、セマンティック Web を実現させるための要素技術を簡単に紹介する。まず 5.2.1 節で「メタ データ」「オントロジー」を記述するための技術である、RDF、RDF スキーマ、OWL について紹介する。次 に 5.2.2 節において、Web 上に記述された「メタデータ」「オントロジー」を発見・抽出するための技術であ (レイヤー・ケーキの第7層以降の標準が未確定の部分について る、SPARQL と GRDDL について紹介する。 は、ここでは割愛する) 5-2-1 「メタデータ」の記述言語:RDF セマンティック Web において、情報に「メタデータ」を付与する言語としては、RDF (Resource Description Framework) がある。RDF は、主語(Subject)、述語(Predicate)、目的語 (Object) の3つの組み合わせであ る、 「RDF トリプル」を用いることで、Web 上の情報に対してメタデータを記述する。述語はプロパティ、目 的語は値と呼ばれることがある。 例えば、先の歯科医の例において、「伊藤歯科医」のメタデータは RDF を用いて以下のように記述される (図 5-4)。 ฬ೨ દ⮮ᱤ⑼ක ᬺ⒳ ᚲ ਥ⺆䋨䋩 ㅀ⺆ દ⮮ᱤ⑼ක ᱤ⑼ක ᄹᎹ⋵⮮ᴛᏒ ⋡⊛⺆ ⮮ᴛᏒ䈱䇸દ⮮ᱤ⑼ක䇹䈱䊜䉺䊂䊷䉺 䈮䉋䉎䊜䉺䊂䊷䉺䈱⸥ㅀ ฬ೨ દ⮮ᱤ⑼ක ᚲ ᄹᎹ⋵⮮ᴛᏒ ᬺ⒳ ᱤ⑼ක ༡ᬺᣣᤨ 図 5-4: RDF による RDF による「伊藤歯科医」のメタデータの記述 この、RDF トリプルの集合を、RDF の「グラフ」という。このグラフを使用することによって、知識や概 念間の関係性を記述することが出来る。 しかし、Web 上のあらゆる情報についての記述を行う際、この RDF グラフの表現では2つの問題が生じて しまう。1つは同義語の問題、もう1つは機械処理の可能性に関する問題である。この2つの問題を解決す るため、URI(Uniform Resource Identifier) による RDF の記述と、RDF の XML 言語(eXtensible Markup Language)による表現(RDF/XML と呼ばれる)が行われる。 URI は、Web 上の全ての知識・概念を一意に識別するための識別子である。例えば、「藤沢」という単語一 つとっても、 「地名」である場合や、 「人名」である場合があり、一つの単語が違う意味を表すことがある。そ のため、RDF グラフの主語を「藤沢」という文字列にすると、そのグラフがどちらの意味についての記述な のかが区別出来なくなる、という問題が生じてしまう。そのため、Web 上の概念一つ一つに対して、URI と (RDF グラフの記述に関して、 いう単一の識別子を与えられ、RDF グラフもその URI を参照して記述される。 知識社会研究会 2008 年度報告書 63 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 主語とプロパティは URI によって記述しなければならない、というルールがある。目的語の場合のみ、文字 列での記述が許される。) XML は、Web ページの記述言語である HTML と同じくタグ付けの言語であるが、HTML との違いは、 HTML のタグは Web ページの構造を表す用途に使用され、使用可能なタグも限定されているのに対して、 XML のタグはユーザーが自由に定義することが出来、ページの意味の繋がりの表現が可能であり、RDF グラ フを機械処理可能な意味のつながりとして記述する方法として使用される、という違いがある。XML は RDF を記述する方法として最も適用範囲が広く、重要である。RDF の XML 表現である RDF/XML では、XML で 用いられる「タグ」を用いることで RDF の各要素を表現し、サンドイッチのような入れ子表現に組み立てて 記述する。 URI と XML を使用したメタデータ記述は以下のようになる(図 5-5)。 !'(%!!! ! ) 䉕↪䈇䈢⸥ㅀ દ⮮ᱤ⑼ක ! "#$%&!$ * (!)+ (%,- !./ */દ⮮ᱤ⑼ක*/ *!'(%!!!/ * (!)+ (%,- !./ *!'(%!!!/ *) / * (!)+ (%,-"#$%&!$./ *) / * (!)/ 䉕↪䈇䈢䊜䉺䊂䊷䉺 図 5-5: URI、XML を用いたメタデータ記述 (四角で表現される述語は文字列表現) このようにして、Web 上の情報に対して RDF トリプルを記述することによって、Web 上の情報にメタデー タを付与することが出来る。 5-2-2 「オントロジー」の記述言語:RDF スキーマと OWL Web 上の情報に対して RDF を用いて「メタデータ」を付与するためには、Web 上の語彙の関係性を記述 する「オントロジー」を記述する必要がある。もし、語彙の関係性に関する定義が無ければ、個々人が情報に 対するメタデータを記述するとき、RDF 記述の際にどのような主語、プロパティ、そして述語を用いればよ いか分からず、Web 上の情報に関するメタデータ記述が統一されず、情報検索の際に不都合が生じてしまう。 画一のメタデータの記述様式を与えるという意味で、オントロジーは重要な役割を担っている。 初めに、RDF に使用される語彙を定義する言語として、RDF スキーマ(RDF Schema)を紹介する。RDF スキーマで行う語彙の定義は、 • 似たような情報リソースをまとめ、一つの集合とする「クラス」、及びクラス間の包含関係の定義 • プロパティの定義域(どのような主語をとるか)、値域(どのような目的語をとるか)、プロパティ間の 包含関係の定義 の2つが主である。 下の図 5-6 に、RDF スキーマによる語彙の定義の例を示す。図の上半分は、クラスとその包含関係の定義の 例であり、以下のことを示している。 知識社会研究会 2008 年度報告書 64 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 0% (' 1 (' + (!!%2!!3( +4 51 (' 1% (' +2 (!!%2!!3( ࿑䉪䊤䉴䈶䉪䊤䉴䈱൮㑐ଥ䈱ቯ⟵ (! +4! +4! (! +4! (!!%'3( (! +4! (! 䊒䊨䊌䊁䉞䈱ቯ⟵ၞ䇮୯ၞ䇮㓏ጀ㑐ଥ䈱ቯ⟵ 図 5-6: RDF スキーマによる RDF 語彙の定義 • Satoru と Hanako が People クラスに属し、Mika と Kuro が Cat クラスに属すること • People クラスと Cat クラスが共に、LivingThing クラスのサブクラスであること 一方、図の下半分は、プロパティの定義域・値域・包含関係の定義の例であり、以下のことを示している。 • LivesWith、LivesWithPet の両プロパティがともに、定義域は People クラスであり、値域は LivingThing クラスであること • LivesWithPet プロパティは、LivesWith プロパティのサブプロパティであること このように、リソースの集合であるクラスとその包含関係の定義、プロパティの定義域・値域・包含関係の 定義によって、RDF スキーマは、RDF に使用される語彙に対して、ある程度の構造を与え、メタデータの記 述方式に指針を与えることが出来る。 上で示したように、RDF スキーマはシンプルに RDF で用いられる語彙を定義するが、語彙間の関係をより 精密に示したり、機械によって推論が可能な論理を記述し、Web 上のあらゆる場所で日々記述される他の語彙 と連携・相互運用したりするためには、より洗練された語彙が必要となる。そのための言語として、OWL(Web Ontology Language) という言語がある。 OWL には、OWL Full, OWL DL, OWL 3つのサブ言語がある。OWL Full はもっとも表現能力の高い言語 であり、複雑な語彙の関係を定義することが出来る。OWL DL は、表現力で OWL Full に劣るものの、OWL データに基づく推論の計算を有限時間内に完了させることを保障できるという特徴がある。OWL Lite は、OWL の機能を限定して使用する場合に使用され、シンプルに語彙を記述する場合に用いられる。使用者は目的に合 わせて3つのサブ言語から最適なものを選択し、語彙を記述することが可能である。 RDF スキーマの表現との違いとして、OWL は、以下のような語彙の関係性を記述することが出来る。 • クラス、個体、プロパティ同士が「同一である」ことを記述出来る(例: 「歯医者」クラスと「歯科医」 クラスは同一である、など) • クラス間の和・差・積・排他的関係など論理組み合わせの定義が出来る(例: 「クラシック音楽の輸入版 CD」のクラスは、「クラシック音楽 CD」クラスと、「輸入版 CD」クラスの積である、など) • プロパティの制約(出現回数など)を表現することが出来る。(例:企業の人員に関するオントロジーを 生成したとき、「社長である」というプロパティの出現回数を一回に制限することが出来る、など) • プロパティの論理的な性質(推移律、対称律など)を定義し、推論を可能にする(例:「下部組織であ る」というプロパティを、推移律を満たすプロパティとして定義することが出来る。すなわち、A が B の「下部組織である」、かつ B が C の「下部組織である」ならば、A は C の「下部組織である」) 知識社会研究会 2008 年度報告書 65 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について ⢻ജ ᄢ ផ⺰ᤨ㑆 ዊ 図 5-7: OWL の3つのサブ言語 このように、RDF スキーマにはない、豊富な語彙の関係を記述する能力を実装することによって、OWL は、 機械による推論や、異なる語彙の連携・相互運用、語彙の正当性のチェックなどを可能にしている。 最後に、オントロジーの記述例と、オントロジーの記述支援に用いられるツールを紹介する。図8の左側は、 Food Taxonomy と呼ばれるオントロジーの記述例である。RDF と同じく、RDF スキーマや OWL も、XML 形式を用いて表現されるのが一般的である。但し、XML を直接記述することによるオントロジーの記述は、 ユーザビリティの良い方法とはいえない。そこで、オントロジーの記述を支援するツールが開発されている。 最も有名かつ一般的に使用されているツールは、図 5-8 の右側に示されている、「protégé」[18] という、スタ ンフォード大で開発されたツールであり、グラフ形式による直感的なオントロジー構築を可能にしている。国 内のオントロジー記述支援ツールとしては、大阪大学の溝口らによって開発された「法造」[22] がある。これ らのオントロジー記述支援ツールは、オントロジーに関する研究活動や、オントロジーを利用する企業・組織 の実務活動にも広く使用されている。 䋨䋩2:/䈮䉋䉎䊐䊷䊄䉥䊮䊃䊨䉳䊷䈱⸥ㅀ 3URWpJp䈮䉋䉎SL]]D䉥䊮䊃䊨䉳䊷䈱ᚑ 䋨ᒻᑼ䈱⸥ㅀ䋩 䋨ో䈱৻ㇱಽ䋩 図 5-8: OWL によるオントロジーの記述 5-3 セマンティック Web 上の情報から「メタデータ」を発見・抽出する技術 この節では、Web 上の情報から「メタデータ」を抽出するための技術を紹介する。5.3.1 節では、RDF に対 して検索を行い、情報のメタデータを参照するための言語であるクエリ言語 SPARQL を紹介する。5.3.2 節で 知識社会研究会 2008 年度報告書 66 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について は、XML や XHTML 文書を RDF に変換するための言語である GRDDL を紹介する。両者とも未だ標準が固 まりきっていない技術のため、ここでは要点のみに絞って紹介する。 5-3-1 RDF に対するクエリ言語:SPARQL SPARQL(SPARQL Protocol And RDF Query Language) は、Web 上の RDF に対して検索を実行するため のプロトコルと検索クエリを規定した規格である。SPARQL の仕様は、2007 年 7 月時点で、主に以下の3つ の仕様によって定められている。 • SPARQL Query Language for RDF…クエリの言語仕様を規定 • SPARQL Protocol for RDF…リモートで SPARQL クエリを発行し、結果を受け取る際のプロトコルを 規定 • SPARQL Query Results XML Format…SPARQL クエリの結果を表すための XML ドキュメントのフォー マットを規定 下の図 5-9 は、SPARQL による RDF の検索に対する検索の例である。RDF の節の例で出てきた伊藤歯科医 (http://example.org/itohdentist)の「名前」を検索する例である。SPARQL では、以下のようなクエリを用 いて、(http://example.org/itohdentist) の名前である、「伊藤歯科医」を検索している。 ! 䋿 ਅ䈱ᬌ⚝䉪䉣䊥䉕↪䈇䈩 !䈱ฬ೨䉕ᬌ⚝ 08829+: 88+;+* !/+*/+:+<+ એਅ䈱ᬌ⚝⚿ᨐ䈏␜䈘䉏䉎 -દ⮮ᱤ⑼ක. 図 5-9: SPARQL による RDF に対する検索 SPARQL では、このような検索クエリを用いることによって、RDF の要素を検索、つまりは Web 上の情報 に付与された「メタデータ」の検索を可能にしている。 5-3-2 XML から RDF を抽出する言語:GRDDL SPARQL は Web 上の RDF に対する検索機能を提供することによって、Web 上の情報のメタデータの検 索を可能にしているが、一般に Web 上の情報に関するメタデータが RDF 単体で記述されているとは限らな い。RDF は XML や、XML の形式で HTML を記述した XHTML などに内包されている場合が多い。GRDDL (Gleaning Resource Description from Dialects of Languages)は、GRDDL 変換と呼ばれる方法を使って、 XML や XHTML から RDF を抽出する機能を提供している。 GRDDL の持つ XML や XHTML から RDF の抽出機能と、SPARQL の持つ RDF の検索機能を組み合わせ ることによって、Web 上の情報に添付された「メタデータ」の抽出が可能になる。 知識社会研究会 2008 年度報告書 67 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 5-4 セマンティック Web 技術の現実社会への応用 まだ技術的に未成熟・未確定な部分もあり、一般社会への認知度も決して高くはないセマンティック Web 技 術であるが、現実社会における応用のシナリオや、実際にセマンティック Web 技術を応用した例も出てきて いる。本節では、セマンティック Web 技術が現実社会において、どのような分野で応用されるかを、事例を 交えて紹介する。 5-4-1 メタデータの付与とオントロジーの作成支援のための汎用語彙 現在、Web 上の情報にメタデータを付与するための語彙が提供されてきており、その中には広く一般に使用 されている汎用性の高いものもある。 一般的に使用されている例として、RSS(RDF Site Summary) を挙げる。RSS は、RDF の技術を用いて、ウェ ブログなどの更新時に、記事のタイトル、アドレス、トピック、要約、更新時刻などのメタデータの形で更新 情報を発信するための文書フォーマットである。現在はウェブログに対する使用が主であるが、ニュースポー タルの更新情報の発信や、企業の新製品情報、サポート情報の発信、図書館での新着図書、新着雑誌情報の発 信など、適用範囲・事例が増えてきているのが現状である。 また、一般ユーザーが RSS を購読するために、RSS リーダーという、一定時間毎にウェブサイトの発信する RSS を自動収集し、更新があった場合のみ RSS をダウンロードし、ユーザーに知らせるソフトウェアがあり、 ユーザーはこれを用いることによって RSS を参照することが出来る。これによって、ユーザーはお気に入り の Web サイトに逐一アクセスして更新をチェックする必要がなくなり、更新情報が発信されたサイトにのみ アクセスすればよい、ということになる。 ᧂᦝᣂ ᦝᣂ 䉰䉟䊃2 ᦝᣂ 䉰䉟䊃 䉰䉟䊃> ᧂᦝᣂ 䉰䉟䊃= 䉰䉟䊃䈱ᦝᣂౝኈ䉕⏕䈎䉄䉎䈢䉄䈮䈲䇮 00䈱ㅍ䉌䉏䈩䈐䈢䉰䉟䊃>䇮䉰䉟䊃䌃䈱䉂䉕ෳᾖ䈜䉏䈳䉋䈇 図 5-10: RSS リーダーの利用による Web サイト更新情報の自動収集 RSS の他の語彙としては、Web 上の文書情報が持つ基本要素を定義し、語彙の形にまとめた Dublin Core[13] や、Web 上の「人」に関する情報を表すための語彙である FOAF(Friend Of A Friend)[15] が、汎用性の高い 語彙として広く認知され、メタデータの記述に利用されている。 Dublin Core は、Web 上の書誌的な情報に関するメタデータを記述するために開発された語彙である。一 般的には、以下の 15 の基本要素(プロパティ)からなる、DC 基本要素(DC Metadata Element Set)を用 いてメタデータを記述する。(場合によっては、基本要素をより精密に表現した、DC 精密化要素 (Element Refinements) を用いる場合もある)。 FOAF は、Web 上の人に関する情報を記述する語彙であり、RDF の様々な可能性を追求する実験的プロジェ クトとして位置づけられている。人物だけでなく、人物に関する幅広い情報を記述することを念頭に置き、RDF の主語となりうるクラスに、人物が書いた文書、撮影した写真、所属したグループなどを加え、プロパティは、 知識社会研究会 2008 年度報告書 68 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 表 5-2: 15 個の DC 基本要素 要素名 title creator subject description publisher contributor date type format identifier source language relation coverage rights 要素の定義 情報に与えられた名前 情報の内容に責任を持つ人または組織 情報に含まれるトピック、またはキーワード リソースの説明(要約や説明文など) 情報を利用可能にする責任者(個人、組織、サービスなど) 情報の内容に協力、貢献している個人、組織、サービス 情報の作成日、公開日など主要な出来事に関連する日 情報の内容の性質もしくはジャンル(カテゴリ、機能、分野など) 情報の物理的あるいはデジタル化の形式 情報への曖昧さのない参照。URI や ISBN で一意に参照 情報が派生作品などのとき、元情報への参照 情報を記述している言語。通常は言語コードを使う 関連する情報への参照 情報の内容がカバーする範囲もしくは対象 情報の一部あるいは全体に適用される権利に関する情報 名前やメールアドレスといった基本情報に加え、趣味、所属プロジェクト、知人といったものを揃えていると いう特徴がある。FOAF を用いることによって、人物に関する多彩なメタデータを記述することができる。 最後の例として、WordNet[20] という英語のオンライン辞書を RDF 化した、RDF 版 WordNet を取り上げ る。WordNet は、1985 年にブリンストン大で始められたプロジェクトで、英単語の語義に、同義語・上位/下 位関係・全体/部分関係などの要素を加えて、電子的に利用できる単語の意味ネットワークを構築したもので ある。RDF 版の WordNet は、WordNet の名詞を RDF のクラス、上下関係をサブクラスとして定義したもの であり、約 10 万語にも及ぶ単語が RDF のクラス階層にマッピングされている(例:RDF 版 WordNet では、 「Network」という単語の階層構造を Network ⊂ System ⊂ Scheme ⊂ Group ⊂ Grouping(A ⊂ B:A が B の下位概念、つまりサブクラスである)と RDF で表現している)。 RDF 版 WordNet に定義されている語彙の改装構造を利用することで、オントロジー構築に使われる語彙 を体系的に位置づけ、オントロジー構築の助けになるとともに、階層関係を利用した推論を行うことが可能に なる。 5-4-2 セマンティック Web と検索エンジン セマンティック Web の普及を実現するために、様々なセマンティック Web 技術を応用した検索エンジンが 開発されている。検索エンジンには大きく分けて2つの種類があり、検索エンジンの1つ種類は、Web 上のセ マンティック Web 文書そのもの(オントロジーそのものや、RDF を埋め込まれた HTML なども含む)を検 索するためのセマンティック Web 文書検索エンジンであり、もうひとつの種類は、「情報を機械にとって解釈 可能な形にする」というセマンティック Web 技術の特徴を活かした検索エンジンである。 セマンティック Web 文書検索エンジンで有名なものとしては、Maryland 大によって開発された Swoogle[17] がある。Swoogle には、Web 上からセマンティック Web 文書を検索するクローラーが実装されており、2009 年 6 月現在、約 290 万のセマンティック Web 文書を検索することが可能である。また、後発ではあるが、Swoogle と異なるアルゴリズムを用いた検索エンジンである Watson[19] もイギリスの Open 大によって開発されてい る。(Swoogle は、Google の Pagerank アルゴリズムに準じたランク付けを行っているが、Watson は、文書 間の関連(バージョン違い、複製版)や内容の正当性を考慮したランク付けを行い、文書を表示している)こ れらのセマンティック Web 文書検索エンジンを使用することで、Web 上のオントロジーの参照やダウンロー 知識社会研究会 2008 年度報告書 69 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について ドなどを行うことができる。 6ZRRJOH :DWVRQ 図 5-11: セマンティック Web 文書検索エンジン Swoogle と Watson セマンティック Web 技術の特徴を活かした検索エンジンの例としては、アメリカのベンチャー企業 Powerset 社(2008 年 7 月に Microsoft に買収されている)が開発した Powerset[16] がある。 Powerset は、Google などの既存の検索エンジンと違い、以下のような特徴を持っている。 • 質問文での検索を可能にしている(セマンティック Web 技術を用いることにより、質問の意味を検索エ ンジンに解釈可能にしている) • 質問(検索文)の答えに「Web ページ」ではなく、答えとなる情報のみを直接返す • Web 全体ではなく、Wikipedia を検索の情報源としている Powerset の特徴を表す検索の実例を一つ挙げる。Powerset の検索画面において、「Who invented telephone?」(電話の発明者は誰か?)という検索クエリを入力する(図 5-12)。 図 5-12: Powerset を用いて、電話の発明者を検索する 質問の意味が理解でき、かつ Wikipedia 内に答えが見つかる場合、Powerset は以下のように、質問に対す るダイレクトな答えである「Alexander Graham Bell」を返し、その下に関連する Wikipedia の記事を出力す る(図 5-13)。 このように、Powerset は、セマンティック Web 技術を利用し、ユーザーの質問の意図を理解しその質問に合 致する答えのみを抽出するという特徴を持っている。現時点で Wikipedia のみを情報源とするため、答えられ ない質問も多々あるという弱点はあるものの、Google と異なる発想で作られた検索エンジンであり、Google には無い利便性を持っている。 知識社会研究会 2008 年度報告書 70 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 図 5-13: Powerset は Web サイトでなく、質問の答えとなる情報をダイレクトに返す 5-4-3 企業内情報管理・システム統合・連携への応用 メタデータの付与、オントロジーの実装といったセマンティック Web 技術は、企業内における情報管理に おいても役立つ。例えば、社内イントラネットで共有する文書にメタデータを付与することによって、お互い の興味・関心のあるデータの検索に役立てるといったことや、メタデータを基に文書間の関連を推論し、文書 のトピック・マップを生成するといったナレッジマネジメントへの応用が考えられている。[6] また、セマンティック Web 技術の中でも、特にオントロジーは、システム統合・連携の道具として期待を寄 せられている。企業内の複数のデータベースの連携や、企業間取引をする際のデータ取引、複数の企業の Web サービスを同時利用するとき、各データベースやアプリケーション間でのデータ定義の語彙の違いが、統合・ 連携を困難にする場合がある。オントロジーは、データ定義の語彙の関係性を記述し、違いを吸収することに よって、システムの統合や連携を容易にする役割を担うことが出来る。 実例としては、ルノー、ボーイング、ブリティッシュテレコムなどで、企業内で使用するオントロジーを生 成や情報へのメタデータの付与を行い、社内の情報管理に役立てるという、「コーポレート・セマンティック Web」という活動を挙げることが出来る。[5] 䉮䊷䊘䊧䊷䊃䊶䉶䊙䊮䊁䉞䉾䉪ડᬺ䈏䇮䈠䈱ડᬺ․䈱න৻䈱 䉥䊮䊃䊨䉳䊷䉕↢ᚑ䈚䈢䉍䇮ડᬺ䊂䊷䉺䈻䈱䊜䉺䊂䊷䉺䈱ઃਈ䉕ㅢ䈛䈩䇮ડ ᬺౝ 䊂 䉺 ᬌ⚝䉇⛔ว䈮ᓎ┙ 䉎 䈫 ᬺౝ䈱䊂䊷䉺䈱ᬌ⚝䉇⛔ว䈮ᓎ┙䈩䉎䈖䈫 䊦䊉䊷 䊗䊷䉟䊮䉫 䊑䊥䊁䉞䉾䉲䊠䊁䊧䉮䊛 䋨ㆊ䈱䊒䊨䉳䉢䉪䊃䉕▤ℂ䋩 䋨ડᬺౝ䈱䊂䊷䉺䉕▤ℂ䋩 ␠ౝ䊘䊷䉺䊦䈱ᢛ 図 5-14: 企業内情報管理への応用例 コーポレート・セマンティック Web 5-4-4 セマンティック Web 技術が可能にするエキスパートシステム セマンティック Web 技術(特に、オントロジー)は、エキスパートシステムに利用される場合もある。 知識社会研究会 2008 年度報告書 71 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 国内の例では成人病予防のための診断システム [10]、国外の例では旅行時のコンシェルジュ的役割を果たす SPETA[1] という携帯端末型エージェントシステムにオントロジーが使用されている。領域における知識体系 であるオントロジーを実装することによって、ユーザーの要求・置かれている状況を理解し、自立的にユー ザーに対する提案を行うことが出来るシステムを実現している。前者は健康領域に対するオントロジー、後者 は旅行に関するオントロジーがシステムに実装され、それぞれユーザーの健康状態、ユーザーの旅行時におけ る状況を把握している。推論機構や、データマイニング等の技術と組み合わせてシステムが実装される場合が 多い。 下の SPETA というシステムの場合では、ユーザーが旅行時に置かれている状況を把握するためのオントロ ジーである e-Tourism オントロジーをシステムに実装することで、携帯端末の情報から、ユーザーが旅行時に 置かれている状況(現在位置、近くにある名所、名所の種類)を把握することができる。ユーザーの置かれて いる状況とユーザーの嗜好を総合し、ユーザーに最適な訪問先をリコメンドする、といったシステムを実現し ている(図 5-15)。 図 5-15: セマンティック Web 技術を利用した旅行支援システム SPETA 5-4-5 Web2.0 環境下でのセマンティック Web 技術 応用の最後として、Web2.0 環境下での情報の体系化のために使われているセマンティック Web 技術を紹介 する。Web2.0 は、Web サイトユーザーが情報の受け手になるだけでなく、積極的に自分から情報を発信する (ブログ投稿、動画配信、SNS など)Web の形式であるが、このような、一般のユーザーが発信した情報の体 系化や分析にも、セマンティック Web 技術は効果を発揮する。 Web2.0 環境下でユーザーが発信する情報を体系化する例として、「フォークソノミー」の体系化を挙げる。 この、「フォークソノミー」は、しばしば「タクソノミー」との対比で用いられる概念で、サイトの管理者な どが与える単一の階層構造を用いて情報を分類するタクソノミーと違い、一般のユーザーが自分の思い通りに 情報にタグをつけることによって情報を分類するという方式である。フォークソノミーを用いたサイトは現在 流行しており、「del.ici.ous」「Flickr」「はてな」などがフォークソノミーのサービスを提供している。 フォークソノミーは、一つの情報に多様なユーザーから付けられた複数のタグが付けられ、様々な角度から 情報を検索することが出来、大量のデータに埋もれがちな情報を見つけやすくするという利点があるが、各人 が勝手に付けたタグで、個々人の感性の違いや、言葉の揺らぎといった問題が発生し、タグ間の統制が取れな くなってしまうという問題が発生する。この問題を解決するのが、オントロジーによるタグ間の意味関係の整 理である。ユーザーが勝手に付けたタグを、オントロジーを用いて整理する仕組みがあれば、ユーザーは、感 性の違いや言葉の揺らぎを気にせずに、自由にタグを付けることに専念できる。そのようなタグの体系化のア プリケーションについての研究や、実験的ツールも存在している。[3][5] Web2.0 環境下でユーザー発信する情報を分析する例として、SNA(Social Network Analysis)を挙げる。 近年、閉じたコミュニティ内で、人と人との交流や情報交換を促進する、SNS(Social Network Analysis)が 流行しており、海外の例では Friendster、日本の例では mixi などが有名で、多くのユーザーが参加している。 SNS の台頭によって、Web 上での人と人との繋がりをネットワークとして分析する、SNA(Social Network Analysis) が注目を集め、コミュニティの発見、口コミやマーケティング分析などへの応用が期待されている。 知識社会研究会 2008 年度報告書 72 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について $!%)!!( 䊤䉟䉥䊮 ‐ $!%)!!( $!%)!!( ູ㘃 ₀ $!=! $!=! ) 䈰䈖 $!=! ᱤ⑼ක $!=! ᱤක⠪ 図 5-16: 「フォークソノミー」の体系化 セマンティック Web 技術は、(SNS 内の情報に限らず)Web 上の情報から人と人との繋がりを分析し、人同 士のネットワーク構造の自動的な抽出に使用することが出来る。例として、2005 年に開発された Flink という ツールでは、研究者のネットワークを自動的に抽出するために、研究者のメタデータ(FOAF オントロジーを 基に付与)を情報源の一つに用いている。[7] 5-5 セマンティック Web の今後について 最後に、今後セマンティック Web が普及・浸透するために、どのような技術発展がなされていくかという ことと、今後どのような分野において技術が応用されていくかということについて述べる。 5-5-1 今後の技術発展の動向 セマンティック Web 技術は、まだ未成熟な部分もあり、本格的な実用化のためには、今後も更なる技術標準 の策定が必要である。Mathieu d’Aquin らは、次世代のセマンティック Web のアプリケーションに必要な要 件を定義し、そこから、どのような技術発展が必要かを述べている [5]。その要件と、技術発展への要請は以 下のように示されている。次世代のセマンティック Web アプリケーションには、以下のような要件がある。 • 一企業内に閉じた単一の大きな語彙を取り扱うのではなく、Web 上の様々な不均一(統合時に矛盾や、 語彙の揺らぎが生じる)かつ lightweight な語彙を取り扱うことになる…不均一な情報を統合する能力 が必要である • Web 上の、質的に玉石混合な情報を取り扱うことになる…”信頼性”の情報への付与と、それに基づいて 質の高い情報を選択する仕組みが必要である • 極めて多量のスケールの情報を取り扱うことにある…アプリケーションの現在のタスクに必要な情報と そうでない情報を取捨選択する必要がある • 大量の情報処理や、データ結合のための推論が必要になる…セマンティック Web に使用される論理的推 論だけでなく、機械学習や言語的・統計的な推論を組み合わせる必要がある つまり、推論機構の標準を固めることが今後の発展のキーになると考えられる(オントロジーの統合や、情 報の質の評価に必要になると考えられる)。 加えて、一般にセマンティック Web を普及させるために、敷居の低いメタデータ・オントロジーの記述ア プリケーションの開発が必要であると考えられる。現在の RDF/XML でのメタデータ記述にしても、prot?g? などのオントロジー作成ツールにしても、一般のユーザーが記述するには敷居が高い。現在、Web 上の文書 へのメタデータ・オントロジーの実装はあまり進んでおらず、一企業・組織内に閉じた実装が主になっている が、これはセマンティック Web 技術の敷居の高さが一因となっていると考えられる。ユーザーが、技術の困難 さを意識せずにメタデータ・オントロジーを記述出来るアプリケーションが開発されて初めて、セマンティッ ク Web が普及するものと考えられる。 知識社会研究会 2008 年度報告書 73 内閣府経済社会総合研究所委託事業 「イノベーション政策及び政策分析手法に関する国際共同研究」 第 5 章 セマンティック Web 技術の現状と今後の動向について 5-5-2 今後の技術応用の動向 最後に、今後どのような分野にセマンティック Web 技術が応用されていくかについて言及する。現在の、一 般にセマンティック Web が浸透していない現状を考えると、しばらくの間の技術応用は、以下のようなもの であると考えられる。 • 単一の企業・組織、もしくは単一バリューチェーンの複数企業内に閉じたオントロジーを利用した、ナ レッジ・マネジメント及びシステム統合・連携への応用 • 現在の Web マイニング(機械学習、言語的・統計的な推論)への補助的な役割。例えば、テキストマイ ニングの結果出てきた複数の単語に意味の繋がりを加える、など • エージェントシステムにおける、システムユーザーの周囲の状況を包括的に記述するためのオントロジー の提供 つまり、Tim Berners-Lee が当初の目的に掲げた、Web 上の情報に意味の繋がりを加えて、 「データの Web」 を作る、という目的はしばらくの間達成できないものと考えられる。 組織に閉じた応用から、Web 全体に応用され、Tim Berners-Lee の当初の目標を達成するためには、前節で も述べたように、 • 推論機構の標準の規定 • 一般ユーザーが容易に使用可能な語彙の記述アプリケーション の2つの技術的発展が必要になると考えられる。 加えて、一般にセマンティック Web の利便性・重要性が認知されるための「キラーアプリケーション」が 必要である。3.1 節の例に挙げた Powerset も、質問へのダイレクトな答えとなる情報を返すという優位性を 持っているものの、Wikipedia のみを情報源とせざるを得ない現状や、Google 自体の検索アルゴリズムの優 秀さもあり、キラーアプリケーションと成り得ていないのが現状である。 W3C の側には更なる技術標準の策定、及びその勧告が、セマンティック Web の研究者・セマンティック Web 技術の実務者には、「キラーアプリケーション」の開発が期待される。 知識社会研究会 2008 年度報告書 74