Comments
Description
Transcript
セマンティックWebとオントロジー 現状と将来展望
セマンティックWebとオントロジー 現状と将来展望 セマンティックWebとオントロジー研究会(SIG-SWO) 武田 英明 国立情報学研究所 [email protected] takeda@nii ac jp Twitter: @takechan2000 Hideaki Takeda / National Institute of Informatics セマンティックWebとオントロジ 研究会(SIG SWO) セマンティックWebとオントロジー研究会(SIG-SWO) 第2種研究会 2002年発足 年発足 主査:溝口理一郎(初代) :山口高平 山口高平 (二代目) :武田英明(三代目) : 來村徳信(New!) 現在の構成 主査:來村徳信(阪大) 副査:川村 隆浩 (東芝) 幹事:古崎 晃司(阪大) 大向 一輝(NII) Hideaki Takeda / National Institute of Informatics オントロジ オントロジー セマンティックウェブ セマンテ クウ ブ セマンティックウェブ Hideaki Takeda / National Institute of Informatics セマンティックWeb/オントロジー・スケール オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS LinkedData 軽量オントロジー 軽量オントロジ tags 集合知 Wikipedia http://www.flickr.com/photos/breebailey/470692148/ Hideaki Takeda / National Institute of Informatics オントロジー研究 オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS LinkedData 軽量オントロジー 軽量オントロジ tags 集合知 Wikipedia http://www.flickr.com/photos/breebailey/470692148/ Hideaki Takeda / National Institute of Informatics オント ジ 研究 オントロジー研究 オントロジーの基礎から応用まで オ オントロジーとは何ぞや? ジ とは何ぞや Hideaki Takeda / National Institute of Informatics オント ジ の定義 オントロジーの定義 Gruber 概念化の明示的な仕様 FIPA98 特定のドメインの構造の明示的な仕様。 対象領域を参照するための語彙(論理定数と述語記号)と領域に存在 する制約の表現と語彙の解釈を制限する論理的言明。 あるトピックに関する知識の表現と通信のための語彙とその語彙で示 あるトピ クに関する知識の表現と通信のための語彙とその語彙で示 される実在物(entity)の関係と属性の集合である。 もっとわかり易くいえば 共通の概念の体系(“語彙”とその定義とそれら間の関係) 語彙以上OOのオブジェクト未満 Hideaki Takeda / National Institute of Informatics オント ジ の定義 オントロジーの定義 存在に関する体系的議論(哲学) 概念化の明示的な仕様(T Gruber) 概念化の明示的な仕様(T. 人工システムを構築する際のビルディングブロックとして用いられる基本 概念/語彙の体系(理論)(溝口) ある目的のための世界の認識の合意(武田) Hideaki Takeda / National Institute of Informatics オント ジ の構成要素 オントロジーの構成要素 「概念」の集合 「概念 のi 関係による階層化 「概念」のis-a関係による階層化 「概念」間のそれ以外の関係の付与 「概念 「概念」の公理化(意味付与) 理化(意味付与) Hideaki Takeda / National Institute of Informatics オント ジ の役割 オントロジーの役割 人間間において 合意をえる手段 暗黙情報の明示化 システム間で (システム間の)コミュニケーションの定義 システムの仕様の明瞭化 人間ーシステムの関係において 知的検索 知識の共有と再利用 Hideaki Takeda / National Institute of Informatics オント ジ 利用のレ ル オントロジー利用のレベル (1)共通語彙 ( )意味検索 (2)意味検索 (3)インデックス ( )デ タ キ (4)データスキーマ (5)知識共有の媒体 (6)情報分析 (7)情報抽出 (8)知識モデルの規約 (9)知識の体系化 Hideaki Takeda / National Institute of Informatics オントロジーの種類と利用法 オント ジ の種類と利用法 [古崎 [古崎2010] 0 0] オントロジーの利用法 (1)共通語彙 (2)意味検索 (3)インデックス オントロジ の種類 オントロジーの種類 語彙集合、 そのほかの 意味制約も 強い公理を 簡易スキー 概念階層 合計 関係を含む 含む 含む マ 1 4 12 1 0 2 2 49 5 1 1 3 28 5 0 18 59 37 (4)データスキーマ 1 0 35 5 0 41 (5)知識共有の媒体 3 0 39 4 0 46 (6)情報分析 (7)情報抽出 4 1 1 2 30 25 5 4 0 1 40 33 (8)知識モデルの規約 0 1 51 12 10 74 0 13 2 15 8 277 1 42 0 12 11 359 (9)知識の体系化 合計 Hideaki Takeda / National Institute of Informatics “オントロジー”を含む論文(CiNii) オントロジ を含む論文(CiNii) 160 140 120 100 80 オントロジー 60 40 20 0 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 Hideaki Takeda / National Institute of Informatics 人工知能学会誌 特集 特集:「オントロジーの進化と普及」 オント ジ の進化と普及」 概念体系とオントロジー ―基礎的ターミノロジーの提案― ………Gunnar O. y Smith・來村徳信 Klein・Barry 現代応用オントロジーの哲学的・論理学的源泉 ……… 岡田光弘 言語的オントロジーの構築と展開……… 林良彦 ビジネスに使えるオントロジ 関連ツ ル ―代表的シーンからの抽出― ビジネスに使えるオントロジー関連ツール 代表的シ ンからの抽出 ……… 川村隆浩・長野伸一 オントロジー学習の現状と動向 ……… 森田武史・山口高平 オ オントロジー利用研究の分類と傾向………… ジ 究 分類と傾向 古崎晃 古崎晃司 生物学関連のオントロジーの最新動向 ………… 桝屋啓志 臨床医学知識処理を目指した医療オントロジー……… 識 大江和彦・今井健 SNOMED-CT とICD-11 に見る医学・医療分野のReady to Use Ontology ………藤田 伸輔・今井健 情報家電をより身近にするオントロジー……… 大沼宏行 情報家電をより身近にするオントロジ 大沼宏行・松平正樹・細見格・福 松平正樹 細見格 福 重貴雄・富岡豊・野本昌子 ものづくり情報連携におけるオントロジーの応用 ……… 西岡靖之 目的指向プロセスのオントロジ 的共通性に基づいた人工物機能とモバイル 目的指向プロセスのオントロジー的共通性に基づいた人工物機能とモバイルユーザ ザ 行動のモデリングとその応用 ……… 來村徳信・笹嶋宗彦・溝口理一郎 Hideaki Takeda / National Institute of Informatics 合計 (日本語 英語) -----------------------------------------登録ユーザ数: 2209 ( 859 1350) ダウ ダウンロード数:6737 ド数 ( 4022 2715) ) Hideaki Takeda / National Institute of Informatics ダウンロード数:約150件 ダウンロ ド数:約150件 (約2ヶ月) Hideaki Takeda / National Institute of Informatics (大文字の)Semantic Web オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS tags 集合知 LinkedData Wikipedia 軽量オントロジー 軽量オントロジ http://www.flickr.com/photos/breebailey/470692148/ Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの目的 “The Semantic Web is an extension of the current web in which information is given well well-defined defined meaning meaning, better enabling computers and people to work in cooperation.” ((セマンティックWebとは現在のWebの拡張であり,そこでは情報はちゃ んと定義された意味を与えられていてコンピュータと人のよりよい協調が 可能となる). Th Semantic The S ti Web, W b Scientific S i tifi American, A i M 2001, May 2001 Ti Tim B Berners-Lee, L JJames Hendler H dl and d Ora O Lassila L il The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications. (セマンティックWebとはビジョンである.データはきちんと定義されリ ンクされており,単に表示用ではなく自動化,統合,アプリケーションを 超えたデータの再利用などに使える) 超 デ タ 再利用な 使 る) http://www.w3.org/2001/sw/ Hideaki Takeda / National Institute of Informatics Next Generation Web Webの進化 HTML: 表示のためのWeb 表示のための b XML:シンタックスをもったWeb ?? :セマンティックスをもったWeb ク をも た なぜセマンティックスをWebのメカニズムの中に組み込なね ぜ ズ ばならないか 人間のためのWeb 人間のためのW b から 人間と機械のためのWeb 人間と機械 ため ヘ cf. 機械ためだけのWeb 機械 だ Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの階梯 RDF (Resource Description Framework) 最も原始的な意味記述の枠組みを提供 最も原始的な意味記述の枠組みを提供ー>SVOモデル >SVOモデル Entity-Relation Model(実体関連モデル) セマンティックネット RDF Schema h RDFに最も原始的な概念記述の仕組みを追加 class-subclass関係,制約 関係,制約 OWL (Web Ontology Language) 記述論理(description logics)に基づいた 概念とその関係を記述する言語 Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics Semantic Webの利用の枠組みと課題 ウェブページ 作成者 ウェブページ 探索者 いかに手間なく記述させるのか? いかに表記をそろえさせるか? ユーザの検索意図を どのように把握し表現するか? 知識・情報をどのように 記述するか? 従来のHTMLの 従来のHTML の ウェブページ RDFで意味付けされた RDF で意味付けされた ウェブページ SPARQLで表現された SPARQLで表現された 検索問合せ B A C C 知識の表現UI 知識の表現 UI E F b a D c どのように知識を融合(推論) させるのか? 自然文で記述された 情報をいかに効率的に 変換するか? いかに網羅性、一貫性を 確保するか? いかに普及させるのか? 複雑な知識構造をいかに 分かりやすく提示するか? RDFSで表現された RDFSで表現された オントロジー E D 推論のための ルール バイオ基幹情報資源の高準化と共用化 「バイオ分野におけるセマンティックWeb 技術動向に関する調査」より抜粋 Hideaki Takeda / National Institute of Informatics 特集テ 特集テーマ/招待講演(抜粋) /招待講演(抜粋) 第3回:招待講演:辻井潤一「テキスト情報処理とオントロジー」(2002/6) 第6回:特集テーマ「Weblog」(2004/7) 招待講演:山下清美「Weblogの心理学」 第10回:特集テーマ:「ライトウエイト・メタデータ(blog, SNS, wiki 他)」(2005/11) 第12回:特集テーマ「セマンティックWebサービス」(2006/1) 招待講演:D. Fansel & M. Zaremba “Semantically Semantically Enabled Service-Oriented Service Oriented Architectures: A Framework" 第13回:特集テーマ「セマンティックWeb」 第 第14回:特集テーマ「セマンティックWebとWeb2.0」(2006/11) 特集 「 第16回:特集テーマ「領域オントロジーの利用」(2007/7) 第17回:招待講演:N Guarino “An 第17回:招待講演:N. An introduction to formal ontological analysis”(2008/2) 第18回:特集テーマ「知識構造化のツール・方法論・事例」(2008/12) 第20回:Wikipediaワークショップ (2009/1) Hideaki Takeda / National Institute of Informatics Semantic Webに関する会議 International Semantic Web Conferences (2002- ) European Semantic Web Conferences (2004- ) Asian Semantic Web Conferences(2006Conferences(2006 ) Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webに関する会議 World Wide Web ConferencesにおけるTrack 2002-2007: Semantic i Webb 2008,2009: Semantic / Data Web そ 他 その他 セマンティックWebコンファレンス(日本) 2001-2009 RuleML (The International RuleML Symposium on Rule Interchange and Applications) 2005- Hideaki Takeda / National Institute of Informatics 7 Hideaki Takeda / National Institute of Informatics (小文字の)semantic web オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS LinkedData 軽量オントロジー 軽量オントロジ tags 集合知 Wikipedia http://www.flickr.com/photos/breebailey/470692148/ Hideaki Takeda / National Institute of Informatics (小文字の)semantic (小文字の)se a t c web 広い意味でのセマンティックWebを実現する RDF(S)/OWLに必ずしも依存しない ( )/ に必ずしも依存しない 今のWeb情報を最大限利用する セマンティック技術の活用(NLP、メタデータ、、、) ク技術 活 ( タデ タ ) 二つのアプローチ メタデータの異なるアプローチ デ プ microformats, atom Web 2.0的データの活用 blog, social tagging, SNS, wikipedia Hideaki Takeda / National Institute of Informatics 特集テ 特集テーマ/招待講演(抜粋) /招待講演(抜粋) 第3回:招待講演:辻井潤一「テキスト情報処理とオントロジー」(2002/6) 第6回:特集テーマ「Weblog」(2004/7) 招待講演:山下清美「Weblogの心理学」 第10回:特集テーマ:「ライトウエイト・メタデータ(blog, SNS, wiki 他)」(2005/11) 第12回:特集テーマ「セマンティックWebサービス」(2006/1) 招待講演:D. Fansel & M. Zaremba “Semantically Semantically Enabled Service-Oriented Service Oriented Architectures: A Framework" 第13回:特集テーマ「セマンティックWeb」 第 第14回:特集テーマ「セマンティックWebとWeb2.0」(2006/11) 特集 「 第16回:特集テーマ「領域オントロジーの利用」(2007/7) 第17回:招待講演:N Guarino “An 第17回:招待講演:N. An introduction to formal ontological analysis”(2008/2) 第18回:特集テーマ「知識構造化のツール・方法論・事例」(2008/12) 第20回:Wikipediaワークショップ (2009/1) Hideaki Takeda / National Institute of Informatics Wikipedia W ped a ワ ワークショップ クショップ 2009/1/22 終日 15件発表+1チュートリアル+1招待講演 件発表+ チ トリア + 招待講演 参加者:120名程度 大学:企業=2:1(参加票より) 大学 企業 (参加票より) 大体は研究者、少しWikipediaコミュニティ、マスコミ Hideaki Takeda / National Institute of Informatics なんのためにW ped aを研究するか なんのためにWikipediaを研究するか 18+27 “Wikipedia現象”の解明 コンテンツの共同作成プロセスや編集者コミュニティの分析 利用状況や利用者コミュニティの分析 作成されたコンテンツの分析 145+167 Wikipediaデータの利用 情報検索 情報推薦 信頼性推定 2次デ 2次データ作成 タ作成 用語辞典作成 シソーラス作成 知識ベース作成 オントロジー作成 37+30 25+22 11+29 53+59 9+10 13+17 15+15 16+17 Hideaki Takeda / National Institute of Informatics W ped aの何に注目するのか Wikipediaの何に注目するのか 3+20 編集プロセスに注目 合意形成プロセス 合意形成プ セ 集団性、社会性、社会ネットワーク、コミュニティ 2+12 利 プ 利用プロセスや利用者に注目 や利 者 注 利用状況の分析 利用者コミュニティの分析 共同作成されたコンテンツに着目 71+61 知識の集合として 構造的な知識、オントロジーの抽出 常識、日常知識の抽出 意外な知識の発見 言語の集合として、多言語の集合として 構造化文書の集合として Hideaki Takeda / National Institute of Informatics どんな研究分野か 知識処理(人工知能) 自然言語処理 データベース ネ ネットワーク分析、ネットワーク科学 ク分析 ネ ク科学 言語学 社会学 そのほか 22 13 18 14 10 12 3 8 2 2 10 7 1 1 Hideaki Takeda / National Institute of Informatics セマンティックWeb/オントロジー・スケール オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS tags 集合知 LinkedData 軽量オントロジー 軽量オントロジ Wikipedia http://www.flickr.com/photos/breebailey/470692148/ Hideaki Takeda / National Institute of Informatics Linked Data Linked Dataとは “Web of Data” RDFで公開されるデータ で公開されるデ タ 外部から参照可能 Linked Dataのための4条件 ため 条件 事柄の名前にURIを使うこと すべてのモノ,コトにURIを! 名前の参照がHTTP URIでできること DOIとかいったURNは使わないでね URIを参照したときに関連情報が手に入るように 理解可能なデータを提供してね. 外部へのリンクも含めよう Webのようにリンクでつながるデータを作ろう Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの階梯 RDF (Resource Description Framework) 最も原始的な意味記述の枠組みを提供 最も原始的な意味記述の枠組みを提供ー>SVOモデル >SVOモデル Entity-Relation Model(実体関連モデル) セマンティックネット RDF Schema h RDFに最も原始的な概念記述の仕組みを追加 class-subclass関係,制約 関係,制約 OWL (Web Ontology Language) 記述論理(description logics)に基づいた 概念とその関係を記述する言語 Rule-ML もっと上へ、もっと上へ … Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの階梯 抽象問題から具体問題への回帰 クラスに関する記述 オントロジー インスタンスに関する記述 Linked Data Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの階梯 オントロジー クラスに関する記述 RDFS、OWL オントロジー構築の課題 オントロジー構築はそもそも大変 オント ジ 構築はそもそも大変 一貫性、網羅性、論理性 複数オントロジーの統合・関連付けは 複数オン ジ 統合 関連付けは もっと大変 クラスに関する記述 オントロジー インスタンスに関する記述 Linked Data Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics Semantic Se a t c Webの階梯 Linked Data インスタンスに関する記述 インスタンスに関する記述=個々の事物に関する記述 個々の事物に関する記述 RDF + (RDFS, OWL) Linked Dataの記述における利点 書きやすい(事実に関する記述が主) リンクしやすい(同) Linked Dataの記述における問題点 記述 おける問題点 複雑な記述は難しい それでもクラス定義は必要(→オントロジー) クラスに関する記述 オントロジー インスタンスに関する記述 Linked Data Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/ Hideaki Takeda / National Institute of Informatics Linkingg Open p Data ((LOD)) 公開されたLinked Dataを集めるプロジェクト 主要な i k d Data 主要なLinked (データ変換) Dbpedia (Wikipedia) : 百科事典, 科事典 2.7億文 億文 Geonames:地名と緯度経度, 9300万文 MusicBrainz:音楽 WordNet:辞書 DBLP bibliography:論文の書誌,2800万文 US Census Data: 米国国勢調査(2000年), 10億文 (クロール) FOAF (Friend Of A Friend):個人と個人関係のプロファイル (ラッパー) Flickr Wrapper Hideaki Takeda / National Institute of Informatics Music Web-based Information Papers Geographic information Life Science and Health Care 131億文 1 41 万個のリンク Hideaki Takeda / National Institute of Informatics LODの発展(1) O の発展( ) As of March 2008 Hideaki Takeda / National Institute of Informatics LODの発展(2) O の発展( ) Hideaki Takeda / National Institute of Informatics LODの発展(3) O の発展(3) Hideaki Takeda / National Institute of Informatics LODの発展(4) O の発展( ) 131億文 1 41 万個のリンク Hideaki Takeda / National Institute of Informatics Hideaki Takeda / National Institute of Informatics DBpedia p Mobile Hideaki Takeda / National Institute of Informatics http://id.ndl.go.jp/auth/ndlsh/ http://id.ndl.go.jp/auth/ndlsh/?query=PREFIX+skos%3A+%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0D% 0APREFIX+rdfs%3A+%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdfschema%23%3E%0D%0A%0D%0ASELECT+DISTINCT+%3Fy+%3Flabel%0D%0AWHERE+%7B%0D%0A+++%3Fx+rdfs%3Alabel+%22 schema%23%3E%0D%0A%0D%0ASELECT DISTINCT %3Fy %3Flabel%0D%0AWHERE %7B%0D%0A %3Fx rdfs%3Alabel %22 %E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD%22+.%0D%0A+++%3Fx+skos%3Arelated+%3Fy+.%0D%0A+++%3Fy+rdfs%3Al abel+%3Flabel+.%0D%0A+++FILTER%28%3Flabel+%21%3D+%22%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD%22%29%0D %0A%7D%0D%0A&output=htmltab Hideaki Takeda / National Institute of Informatics Hideaki Takeda / National Institute of Informatics Hideaki Takeda / National Institute of Informatics LOD.AC Museum 日本の美術館・博物館の情報をLinked Data化 めざせ 3000館 館 !? 手法 オントロジー: オ ジ Lightweight Ontotology Japeana!? (日本版 Europeana) 情報収集: Crawling & Scripting ミーニク!? (美術館版カーリル) 目下がんばっています Hideaki Takeda / National Institute of Informatics Hideaki Takeda / National Institute of Informatics オントロジー・セマンティックウェブ・セマンティックウェブ オントロジー研究 論理 Semantic Web OWL 形式オントロジー 領域オントロジー 知識表現 記述論理 semantic web microformats RDFS LinkedData 軽量オントロジー 軽量オントロジ tags 集合知 Wikipedia WebはAIの新しいプレイグランド Semantic WebはWebとAIを結ぶコンセプト 社会につながった研究 http://www.flickr.com/photos/breebailey/470692148/ 未来をつくる研究 Hideaki Takeda / National Institute of Informatics