Comments
Description
Transcript
報 告 書 - 一般財団法人ニューメディア開発協会
知的コンピューティング基盤技術の普及支援に関する 調査研究(人間・人工物システム融合 Web サービス) 報 告 書 平成22年3月 財団法人 ニューメディア開発協会 この事業は、競輪の補助金を受けて 実施したものです。 http://ringring-keirin.jp 序 わが国経済の安定成長への推進にあたり、情報・機械産業をめぐる経済的、 社会的諸条件は急速な変化を見せており、社会生活における環境、都市、防災、 住宅、福祉、教育等、直面する問題の解決を図るためには技術開発力の強化に 加えて、多様化、高度化する社会的ニーズに適応する情報・機械システムの研 究開発が必要であります。 このような社会情勢の変化に対応するため、財団法人ニューメディア開発協 会では、財団法人JKAから自転車等機械工業振興事業に関する補助金の交付 を受けて、ニューメディアを開発・普及する補助事業を実施しております。 本「知的コンピューティング基盤技術の普及支援に関する調査研究(人間・ 人工物システム融合 Web サービス)」は、ニューメディアを基礎とした調査・研 究事業の一環として、当協会が株式会社アライヴ及び特定非営利活動法人セマ ンティック・コンピューティング研究開発機構に委託し、実施した成果をまと めたもので、関係諸分野の皆様方にお役に立てれば幸いであります。 平成22年3月 財団法人 ニューメディア開発協会 知的コンピューティング基盤技術の普及支援に関する調査研究 (人間・人工物システム融合 Web サービス) 目 次 1. はじめに ........................................................................................................................ 1 2. 動向 ................................................................................................................................ 3 2.1 国内外の関連する動き ............................................................................................. 3 2.2 Web技術の変遷とロードマップ................................................................................. 5 2.3 政府の次期IT関連施策 ............................................................................................. 7 3. 産業版Global Creative Platform................................................................................... 9 3.1 産業版GCPの目的と役割............................................................................................ 9 3.1.1 背景と戦略的目標の必要性 ............................................................................... 9 3.1.2 国のIT分野研究開発の視点と戦略 .................................................................. 10 3.2 SCL(Simplified Common Language) .................................................................... 11 3.2.1 テーマ設定の前提 ........................................................................................... 11 3.2.2 3.3 SCL(Simplified Common Language)の概要 .................................................. 12 CWL(Common Web Language)技術.......................................................................... 27 3.4 オントロジー.......................................................................................................... 31 3.4.1 背景................................................................................................................. 31 3.4.2 オントロジーについて .................................................................................... 32 3.4.3 オントロジー・リポジトリないしレジストリについて .................................. 33 3.4.4 事例および提案 ............................................................................................... 35 3.5 検索推論エンジン................................................................................................... 36 3.5.1 はじめに.......................................................................................................... 36 3.5.2 関係の検索 ...................................................................................................... 37 3.5.3 検索とオントロジー........................................................................................ 38 3.5.4 検索と推論 ...................................................................................................... 39 3.5.5 検索対象.......................................................................................................... 39 3.5.6 自然言語テキストの構造化 ............................................................................. 40 3.6 4. Linked Open Data................................................................................................... 41 3.6.1 Linked Open Data (LOD)の現状 ...................................................................... 41 3.6.2 Linked Open Dataに関する提案 ...................................................................... 42 産業版GCPの活用技 .................................................................................................... 44 4.1 総合学術オントロジー ............................................................................................. 44 4.1.1 はじめに ........................................................................................................... 44 4.1.2 オントロジーの設計とコンテンツの制作 ......................................................... 45 4.1.3 学術知の循環におけるオントロジー................................................................. 50 4.1.4 実社会との相互作用.......................................................................................... 52 4.1.5 おわりに ........................................................................................................... 53 参考文献 ...................................................................................................................... 53 4.2 人工物システム 事例研究 .................................................................................... 54 4.2.1 人間・人工物システム融合Webサービスシステム階層...................................... 55 4.2.2 メッセージの交換 ............................................................................................. 55 4.2.3 具体例 ............................................................................................................... 56 4.2.4 ユーザインタフェース ...................................................................................... 58 4.2.5 言語交換サーバシステムの有効性 .................................................................... 58 4.2.6 人工物システム適用事例 .................................................................................. 59 5. 社会経済への波及効果 ................................................................................................... 63 5.1 経済的効果 ............................................................................................................. 63 5.1.1 クラウド・コンピューティングの市場規模 .................................................... 63 5.1.2 産業版GCPサービスの市場規模........................................................................ 64 5.1.3 開発支援プラットフォームによる技術者の雇用促進...................................... 64 5.2 社会的効果 ............................................................................................................. 64 6. 提言 .............................................................................................................................. 66 【産業版グローバルクリエイティブプラットフォームの開発プロジェクトの提案】 ....... 66 6.1 基本的考え方 .......................................................................................................... 66 6.2 技術的背景.............................................................................................................. 67 6.3 グローバルクリエイティブプラットフォームの効果 ............................................. 69 6.4 プラットフォームの意味づけ ................................................................................. 71 6.5 プラットフォームの構成とその開発 ...................................................................... 72 1. はじめに 21 世紀に入り、情報化の発展は衰えることなく加速しており、IT 化、デジタル化の波は グローバル化して地球全体へと拡散している。その結果、情報爆発という言葉も生まれて Web 上に溢れるデータをどのように管理するかが問われ始めた。また、現実世界における ユビキタス・コンピューティングの普及も活発であり、1兆個を超える機器がインターネ ットにつながり、あらゆる家電にマイクロプロセッサーが入り、車には 100 個近いコンピ ュータが埋め込まれるようになった。現在は人工物システムも含めた情報システムがデジ タル社会において爆発を始めた時代であると見ることが出来る。 そもそも Web の出発点は、研究室に分散して管理されていた電子データや論文を誰でも がアクセスしてダウンロード(閲覧)できるようにすることであった。そのためにインタ ーネットでデータを送るための言語(HTTP)とデータを表現する言語(HTML)が開発さ れた。その基本概念は、 「ハイパーテキスト」である。 しかし、Web が成長するにつれ、人間が閲覧するためのテキスト情報から、Web サービ スに代表されるようにシステムサービスのための情報へ広がっていった。しかし、ハイパ ーテキストの概念だけでは、自立的かつ知的なサービスを提供することは出来ない。そこ で求められる概念は「ハイパー知識」である。サーバ上の知識を誰でもが利用できるため には、Web にハイパー知識を導入する必要がある。この動きの出発点が、セマンティック Web といえる。しかし、知識をコンピュータが処理できるようにするには、知識を構造的 に表現し、意味を記述する仕組みが必要であるが、現状、未だ成功したとはいえない。 知識は自然言語に近い形で表現するのが人間にとって最も理解し易いものである。他方、 コンピュータと知を共有するためにはある種の形式化が必要である。形式化とは、自然言 語の曖昧性を解消し、単語の概念を一義にして、語彙の関係を記述することが出発点とな る。このような形式化は、日本語処理で長らく続けられている。この技術をハイパー知識 の実現に向ければ Web 上で知のコンテンツが流通する情報基盤が構築できることが期待で きる。 人間・人工物システム融合 Web サービスは、 「産業版 Global Creative Platform」をその 情報基盤とし、独自の言語系とアーキテクチャ、及び事例研究を実現することを想定して 検討した。産業版 Global Creative Platform は、これまでの Web サービスの共通的な基盤 である HTML、XML、RDF、OWL といった Web 標準言語をメタテキストレベルに高度 化することで、Web サービスを内容的に高度化するとともに、今後予想される、少子高齢 化社会や安心・安全な社会、エネルギー問題・地球環境問題等へも情報技術から支援する ことを可能にするものである。更に、メタテキスト交換技術は、従来の Web では主体的、 自立的でなかったロボットや車、家電等のデジタルシステム一般も統一的な方式で人間と コミュニケーションができる情報場を提供することを目指している。Web の変革として、 セマンティック Web や Web n.0 が話題になっているが、産業版 Global Creative Platform -1- は、より革新的な Web サービス、セマンティック・コンピューティング、クラウド・コン ピューティングを総合的に捉えることを目指している。 産業版 Global Creative Platform は、新時代の ICT の幕開けとなる知識型情報社会の基 盤である。これは、Web サービスの知的進化の試みである。人間や人工物システムが知識 を共有し、人間社会の様々な課題や要求を解釈し、そのソリューションを支援してくれる。 またこれは、人工知能の新しい世紀にも繋がる。個別の単体システムのための AI からコミ ュニティーの AI、さらにインターネットを介した分散ネット社会の AI、ユビキタス社会と 共存するデジタル社会のための AI へ進もうとしている。Web サービスのハイパー知識化は、 人々の生活水準を高め、豊かな社会基盤を築くための必須の技術である。日本が産業版 Global Creative Platform の技術を世界に先駆けて実用化し、国際社会の課題解決に応用す ることで、産業界にとってはグローバル化への強い支援ツールになり、日本の国際貢献に 寄与するものであるといえる。 -2- 2. 動向 産業版 Global Creative Platform は、Web を利用した情報基盤である。それに関連する 国内外の注目すべき動きを調査した。 2.1 国内外の関連する動き まず我が国についての最近の概観を記すと、IT 戦略本部は 2001 年に「e-Japan 戦略」を 策定した。これは情報通信基盤(ブロードバンド・インターネット)の整備を主眼とした。 次に、その利活用方向への進化を目処に「e-Japan 戦略Ⅱ」が策定され、次いで 2006 年1 月に「IT 新改革戦略」が策定された。これは構造改革による飛躍、利用者・生活者重視、 国際貢献・国際競争力強化などを主眼とした。そして 2009 年 6 月に「i-Japan 戦略 2015」 がまとめられた。なお、2004 年 7 月に総務省が発表した「u-Japan」もあるが、これは IT 戦略でなく ICT 戦略としてまとめられた政策である(’u’は ubiquitous、 universal、 user-oriented、 unique を意味するとされている)。 「i-Japan 戦略 2015」の概要を記すと以下のようになる。まず IT ニーズ領域の観点から、 三大重点分野を以下のように設定している。 ①電子政府・電子自治体分野:行政窓口改革、行政オフィス改革、行政見える化改革、 国民電子私書箱、ワンストップ行政サービス、政府 CIO、法制度整備 ②医療・健康分野:遠隔医療、日本版 HER(Electronic Health Record)、医療機関 SaaS、電子カルテシステム、医療情報システム標準化、オンラインレセプト、救急 医療連絡支援システム ③教育・人財分野:教員のデジタル活用指導力向上、教育用コンピュータ・デジタル機 器、教育コンテンツ、情報教育、校務情報化、高度デジタル人材育成、大学の情報 教育・デジタル基盤・遠隔教育 産業・地域の活性化及び新産業の育成の観点では、次の項目が重要としている。 中小企業の事業基盤整備、産業の競争力強化、情報システム産業の改革促進、テレワ ーク就労人口の拡大、グリーン IT・ITS の推進、クリエイティブ新市場創出、地域の 活性化、デジタルグローバルビジョンの策定 デジタル基盤の整備に関しては、次の項目が重要としている。 ブロードバンド基盤整備、使いやすい機器の普及、情報セキュリティ対策の確立、 デジタル情報流通・活用基盤整備、デジタル基盤技術開発促進 このように、 「i-Japan 戦略 2015」は IT ニーズや産業政策を中心に考慮したものになっ ており、グローバルな観点を考慮した技術面での戦略が欠けていることは前項で指摘した ところである。 コンピューティング分野あるいは IT 分野の現状に注目すると、ネットワークインフラの 普及があり、その上で Web のような情報流通、共有の第一期ともいうべき枠組みが定着し、 -3- 次期情報インフラへ向けての動きが国際的に模索され始めた段階と言えよう。コンピュー ティング分野は、超高速・並列コンピューティングや分散コンピューティングといった性 能・信頼性向上を目指すいわゆる Figure of Merit を追求する課題と、そういった性能向上 あるいは信頼性向上したインフラを利用し、新しい生活や社会の機能を実現する課題とに 大きく分けることができる。コンピューティングの性能向上や信頼性向上、ユーザビリテ ィ向上を目指す取り組みについては、ハードウェアやシステム構成上の観点から集中と分 散を繰り返してきている。現在はクラウドコンピューティングという、ある意味で巨大デ ータセンターへの集中、他面では分散コンピューティングという新パラダイムとなり、大 きな潮流になりつつある。利用面では、ネットワークを介して利用可能になりつつある大 規模巨大データや情報知識の利活用による、新しい生活、社会機能が今後の重要な方向と 考えられる。グローバルな視点でこの方向性を捉え、日本の情報技術開発戦略を定めてい く必要がある。 関係する米国の学術領域のプロジェクトとしては、NSF が 2006 年からかなり広範囲に 実施している「Cyber-Physical System(CPS)」がある。これはサイバー空間と実空間の融 合を狙いとし、実世界のデータを大規模に得るセンサシステムに結び付いた自律的な社会 システムの幾つかの研究開発を推進している。具体例としては、多数の無数ノードセンサ による環境計測と中央ノードによる環境制御システム、自律的交流システム、自動航法シ ステム、医療監視システム、分散ロボティックスなどが含まれている。米国におけるより 大きな動きとしては、オバマ政権が推進している「グリーン・ニューディール」政策があ り、その下での「スマート・グリッド」がある。これは次世代電力配電網に関するもので あり、不安定で分散的なグリーンエネルギー(太陽光発電)の電力網への取り込み、今後 急伸が期待される電気自動車のバッテリを電力網中の蓄電要素とするなどを含み、センサ データに基づく大規模社会システムを目指している。ここから新しいネットワーク技術、 大規模実時間データ処理技術、予測・制御技術などが生まれることが予見されるようにな ってきている。 米国政府とは別に IBM は、今後の情報技術のビジョンを「Smarter Planet」として 2009 年 2 月に発表している。これは’e-business’以来のビジョン設定であり、地球をより賢く、 よりスマートにをキャッチフレーズに、デジタル・インフラと物理的インフラが一体化し た世界を目指す。即ち、サイバー空間と実空間の融合によるスマートな社会、地球を目指 すとしている。基本コンセプトは 3 つの’i’であり、Instrumented(機能化)、Interconnected (相互接続)、Intelligent(インテリジェント化)の’i’としている。このビジョンが目指す スマートな具体的なソリューションとして、以下が挙げられている。 ・持続可能な社会の実現:エネルギー効率化テクノロジー、サステイナブルなビジネス、 先進的な社会基盤 ・スマートなビルディング ・グローバル基準で考えるスマートなモノ作り -4- ・スマートな金融サービス ・スマートな都市:行政サービス、教育、医療、公共安全、交通、エネルギーというユ ーティリティーの 6 つの都市機能のスマート化 ・スマートなITインフラ:Managed Cloud Computing Service ・スマートな水資源管理 ・スマートな意思決定:New Intelligence ・スマートな医療:スマートな医療システムと世界中の善意をスマートに集める仕組み ・スマートな交通と物流:特に、スマートな食品流通システム ・スマートな電力網 これらはビジョンであり、具体的な形としてまだ現れている訳ではないが、今後の情報 技術の重要で戦略的な方向性を示していると考えられる。 日本の経済産業省による 2007 年開始の「情報大航海」プロジェクトは次世代情報検索・ 解析技術を中心目標にしているが、この中で広範囲からのデータ収集に基づく新情報サー ビス実現に関係する研究開発項目としては、以下のシステムが具体的に取り挙げられてい る。 ・ 携帯電話、IC カード等からのパーソナル情報収集に基づく情報サービス ・ 個人の健康管理情報(血圧、心拍数等)収集に基づくパーソナルな健康サービス 2.2 Web 技術の変遷とロードマップ Web サービスは、2000 年前後から、Yahoo、Amazon といったグローバルスケールの IT サービス会社によって、コンテンツサービスや e-コマースをビジネスモデルとして拡大し てきた。更に、Google 検索技術は巨大な Web 世界を容易にアクセスできるようにしてユー ザを引き込んだ。これが新たな収益モデルとなり、Google MAP、Google メール、Google 翻訳等といわれる Web サービスが生まれている。 米国内で検索市場の 65%を占める Google は世界中の Web 情報を収集してシステム化す ることを社業としている。そのために、データセンターを設置して数十万台のコンピュー タを用いて世界中の電子図書、映像コンテンツ、電子地図から個人のブログまで蓄えてい る。また、Web サービスのクラウド化の先頭を走っていて、情報コンテンツに張り巡らし た独自の検索情報を軸に次々と新しいアプリケーションを展開している。Web サービスに おいては、情報を制するものが最も優位なことは明らかで、サービスの土台となる OS(ス マートフォン用の Android、Web 用の Chrome)、ミドルウェア、トップレベルのサービス まで幅広く構築しており、Web プラットフォームのリーダとして君臨している。最近では インターネットと TV を繋ぐ「Google TV」の話が出ている。 Web 技術は、アカデミックな領域でも研究が行われ、世代的には、ユーザライタブル(ソ ーシャルネット)、双方向、非同期、ロングテール、集合知等をキーワードとする Web2.0 に続き、最近は Web3.0 が注目されている。Web3.0 とは、W3C でのセマンティック Web -5- 技術と WikiPedia をはじめとする Web から抽出された 1 兆規模の大量の RDF トリプル (LOD(Linked Open Data)と呼ばれることが多い。)を統合したもので、内容検索や推論 機能を特徴とした新興の Web である。Web3.0 については、James Hendler の IEEE Computer の 2008 年 1 月号(Web 3.0: Chicken Farms on the Semantic Web)、2009 年 1 月号(Web 3.0 Emerging)、2010 年 1 月号(Web 3.0: The Dawn of Semantic Search)の 記事が参考になる。 Web の動向を捉えることで、次の方向を予想してみた。これ以外の方向(例えば HTML5) もあるだろうが、少なくともセマンティック Web から始まった知の Web を構築する動きは、 間違いなく継続するであろう。 Web 世界でユニークな ID(URL)を与えられたコンテンツをサーバに置き、クライ アントが当該 URL を閲覧する。 2000 年 Web2.0 クライアントがアップロード可能な Web(ライタブル Web) Semantic Web 言語 Flickr(写真), YouTube(動画),にこにこ動画(映像にコメン の標準化/W3C ト付与), WikiPedia(百科事典)、SNS(Twitter) 個人情報を利用したお勧めガイダンス(Amazon) Web3.0 SemanticWeb 技術(RDF, RDFS, OWL, SPARQL)+LinkedOpenData(大規 模トリプルデータセット) 意味検索、推論機能 クラウド・コンピ 2010 年 ューティングの幕 開け Web3.5(仮称) メッセージ解釈判断機能;安心・安全社会の必須機能 人工物システムへの Web ID 付与 目指とすべき次の 10 年間 のゴール: Web4.0(仮称) コンピュータが理解できる自然言語情報の流通 自然言語と人工言語の一体となったサービス (人間・人工物システム統合 Web サービス) 2020 年 -6- 「産業版 Global Creative Platform」 次世代クラウド 高信頼、高即応 2.3 政府の次期 IT 関連施策 平成 21 年度に、政府管轄の委員会で、次世代の ICT 関連の調査報告書や中間報告が発表 された。この動きは、2015 年から 2020 年頃を対象に、国の ICT 政策を定めることを目指 にしている。そこでは、スマートクラウド(次世代クラウド)やスマートグリッドが中心 課題となっている。これは、国際的にもその動向が注目される環境やエネルギー問題に対 する情報技術の適用であり、我国の ICT 政策を表明していると捉えることができる。IT 戦 略会議も新たな情報通信技術基本戦略の策定を急いでいる。 名称及び成果物 期間 所轄 備考 ICTビジョン懇談会報告書 H20.10~ -スマート・ユビキタスネット H21.6 (~2015)、「効率化」、「付加価値の創 社会実現戦略-*1 5回 出」、「環境負荷軽減」 スマート・クラウド研究会 *2 (上記懇談会を受けたもの) 総務省 H21.7~ 総務省 完全デジタル時代 2011 年以降を展望 情報通信分野におけるパラダイムシ H22.6 フト 7 回予定 ・地球環境問題、自然災害、食料問題な クラウド技術の活用方策 ど地球的規模の課題解決 ・電子行政クラウドなど公共分野におけ るクラウド技術活用方策 情報家電の高度利活用技術の H18°~ 研究開発※2 H20° 総務省 世界を魅了するユビキタスネット社会 の実現(u-Japan)の一環 委託 6 億円 NTT 自動認証型マルチデバイス連携・最適化 Com, 技術 三菱電機 スケーラブル対応型ソフトウェア制御 技術 スマートハウス実証プロジェ H21 年度 経産省 未来開拓戦略(J リカバリー・プラン) クト 委託 7 億円 住宅メ (平成 21 年 4 月 17 日) (内閣府・経済 ーカ中 産業省 第 1 次補正事業) 心 最適制御された住宅(スマートハウス) 経産省 IT による低炭素型 経済・産業・社会 スマートコミュニティプロジ H22 年 度 ェクト 概算要求 モデルの構築 (次世代エネルギー・社会システ 40 億円 スマートグリッド、スマートハウスを ム協議会中間報告 1/19) 統合 次世代電子行政サービス基盤 H19.10 発足 等検討プロジェクトチーム H21.10 様々な行政手続を基本的にワンスト 第9回 ップで簡便に行える次世代の電子行 中間報告書 H21.12 *3 -7- 内閣官房 電子行政窓口サービスの展開 政サービス基盤の標準モデルについ て 2010 年度を目途として構築 高度情報通信ネットワーク社 H22.3 内閣官房 新たな情報通信技術基本戦略を 4 月 その 3 本柱は、①国民 会実現推進戦略本部(IT戦略本 を目途に策定 部)の体制見直し*4 本位の電子行政の実現、②地域の絆の 再生、③新市場の創出と国際展開 *1 http://www.soumu.go.jp/main_sosiki/joho_tsusin/policyreports/chousa/ict_vision/index.html *2 http://www.soumu.go.jp/main_content/000033432.pdf 今後の進め方案(H21.7) http://www.soumu.go.jp/main_content/000053919.pdf 中間取りまとめ *3 http://www.kantei.go.jp/jp/singi/it2/nextg/index.html *4 http://www.kantei.go.jp/jp/singi/it2/ -8- スマートクラウド戦略 (2010.2) 3. 産業版 Global Creative Platform 3.1 産業版 GCP の目的と役割 3.1.1 背景と戦略的目標の必要性 情報は今後とも社会や個人活動の様式を左右する重要な要素であり,それらを変革して いく原動力である.インターネット,Web により情報及び知識の流通,グローバルな共有, 更には集合知のような共創の形態は大きく変化した.流通,蓄積される情報量は今後とも 増大することは確実であり,その利活用法が個人,社会,そして国の活力,創造力,競争 力に反映することになる.電子情報関連産業は現状では日本の基幹となっている産業とな っているが,グローバル化する経済,社会の中でこの競争力を保持,発展させていくかは, 日本の将来にとって重要な課題である. その情報産業だが,国内に大きなマーケットが存在することから規模は大きいものの, 1990 年代以降,グローバルレベルでのイノベーション・新技術創出力が低下してきている. ハードウェアが関係する機器や部品レベルでは,依然として健闘していると言えるが,IT サービスの共通的,基盤的プラットフォームやグローバルに支配的なソフトウェア等の点 で,見るべきものを生み出せない状況といえる. 政府系の研究開発投資も行われてきているが,グローバルレベルでインパクトのある新 技術創出の点で成功していない.大きな流れを俯瞰した上で研究開発のシナリオ力が不足 している. 社会において必要度が高いシステム目標を設定し,その開発を通して新規情報技術を開 発し,日本の IT の国際競争力を高めるという方策は決して悪くはない.何故なら,強い IT は実社会における実用と,それを改良,向上させる開発とのスパイラル展開によって育つ ことになるからである.一方で,必要度が高いシステムを目標にして技術開発を行っても, グローバルに通用する競争力のある情報技術が育つとは限らないことも事実である. 昨年6月に IT 戦略本部から出された「i-Japan 計画」を見ると,各省庁から関係する IT ニーズを収集し,整理したといった感が強く,目先のことに囚われすぎており,内向きで あり,グローバル性を持ち骨太の日本としての新技術開発の目標,戦略が欠如している. 「こ の取り組みを通じて「国」としての競争力を高める」,「世界的な共通課題を克服すること は通じて世界的なリーダーシップを取っていくことが可能になる」,「新興国も含めて幅広 く受け入れられるようにする努力が必要」といった文面が見られ,意識としては良いと思 うが,それを可能にする具体性のある戦略が示されていない.民主党政権に変わり,この 「i-Japan 計画」も見直しが計られるようであるが,民主党政権もエコ技術の他は成長戦略 を見定めていない状態のようである. IT 分野で何もかも日本がトップに立つことはできないので,グローバルな動向を把握し た上で,日本が先導すべきかつ勝算のある技術領域を定め,骨太の目標を立て,グローバ ルスタンダードになる技術を育成する必要がある.グローバル化している IT 分野では,グ -9- ローバルスタンダードにならなければ決して強くはならない.またミッションクリティカ ルで,かつ発展していく研究開発目標である必要がある.そこでグローバルな流れを俯瞰 した上で,では何を日本の IT 開発の背骨になる技術戦略にすべきかが課題になる. 3.1.2 国の IT 分野研究開発の視点と戦略 情報は今後とも社会や個人活動の様式を左右する重要な要素であり、それらを変革して いく原動力である。インターネット、Web により情報及び知識の流通、グローバルな共有、 更には集合知のような共創の形態は大きく変化した。流通、蓄積される情報量は今後とも 増大することは確実であり、その利活用法が個人、社会、そして国の活力、創造力、競争 力に反映することになる。電子情報関連産業は現状では日本の基幹となっている産業とな っているが、グローバル化する経済、社会の中でこの競争力を保持、発展させていくかは、 日本の将来にとって重要な課題である。 その情報産業だが、国内に大きなマーケットが存在することから規模は大きいものの、 1990 年代以降、グローバルレベルでのイノベーション・新技術創出力が低下してきている。 ハードウェアが関係する機器や部品レベルでは、依然として健闘していると言えるが、IT サービスの共通的、基盤的プラットフォームやグローバルに支配的なソフトウェア等の点 で、見るべきものを生み出せない状況といえる。 政府系の研究開発投資も行われてきているが、グローバルレベルでインパクトのある新 技術創出の点で成功していない。大きな流れを俯瞰した上で研究開発のシナリオ力が不足 している。 社会において必要度が高いシステム目標を設定し、その開発を通して新規情報技術を開 発し、日本の IT の国際競争力を高めるという方策は決して悪くはない。何故なら、強い IT は実社会における実用と、それを改良、向上させる開発とのスパイラル展開によって育つ ことになるからである。一方で、必要度が高いシステムを目標にして技術開発を行っても、 グローバルに通用する競争力のある情報技術が育つとは限らないことも事実である。 昨年6月に IT 戦略本部から出された「i-Japan 計画」を見ると、各省庁から関係する IT ニーズを収集し、整理したといった感が強く、目先のことに囚われすぎており、内向きで あり、グローバル性を持ち骨太の日本としての新技術開発の目標、戦略が欠如している。 「こ の取り組みを通じて「国」としての競争力を高める」、「世界的な共通課題を克服すること は通じて世界的なリーダーシップを取っていくことが可能になる」、「新興国も含めて幅広 く受け入れられるようにする努力が必要」といった文面が見られ、意識としては良いと思 うが、それを可能にする具体性のある戦略が示されていない。民主党政権に変わり、この 「i-Japan 計画」も見直しが計られるようであるが、民主党政権もエコ技術の他は成長戦略 を見定めていない状態のようである。 IT 分野で何もかも日本がトップに立つことはできないので、グローバルな動向を把握し た上で、日本が先導すべきかつ勝算のある技術領域を定め、骨太の目標を立て、グローバ -10- ルスタンダードになる技術を育成する必要がある。グローバル化している IT 分野では、グ ローバルスタンダードにならなければ決して強くはならない。またミッションクリティカ ルで、かつ発展していく研究開発目標である必要がある。そこでグローバルな流れを俯瞰 した上で、では何を日本の IT 開発の背骨になる技術戦略にすべきかが課題になる。 3.2 SCL(Simplified Common Language) 3.2.1 テーマ設定の前提 テーマを設定するに際して、以下の事項を前提とする。 ① ターゲットを明確にした発信力のあるテーマ設定であること ② セマンティック Web やセマンティック技術の現状を正確に分析し、利用すべきも の発展させるべきものを適切に見極めること CDL(Concept Description Language)や CWL(Common Web Language)に ③ 関する蓄積を適切に活用すること これからの Web 技術の展開に沿い、発展に寄与できること ④ さらに、テーマの設定に際しては、重要なキーワードである「セマンティックス」に関し ての考え方を明確に定めておかねばならない。本テーマにおける考え方は以下である。 セマンティックス(意味)とは、実在物や表現に対峙し、情報を実体として構成す るものである。異なる表現が同じセマンティックスに対応付けられ、ひとつの表現が コンテクスト(文脈)に応じて異なるセマンティックスに対応付けられる。これは、 情報に発展性と安定性を同時に保証するための本質的な仕組である。 ところが、従来の情報処理技術は、極力、セマンティックスを排除することによっ て、処理効率と安定性を確保してきた。すなわち、コンピュータはセマンティックス を扱わず表層表現の同一性に基づいて処理し、得られた出力にセマンティックスを加 味するのは人間であるとしてきた。 しかし、Web という情報環境は、従来の情報システムと異なり、オープン性とダイ ナミック性を本質として内包する情報システムである。したがって、Web のさらなる 発展のためには、セマンティック情報処理が不可欠となる。セマンティック Web の本 来の設定もそこにあったはずである。 だが、セマンティック Web は、セマンティックスというには中途半端である。Google や Yahoo など、Web 上で成功したサービスは、何らかのセマンティックス、あるいは、 プラグマティックスを効果的に利用している。例えば、 ① 表記のゆれの処理:通常は、セマンティックスには入れないが、実際には、 非常に重要である。 ② コンテクスト処理:通常は、プラグマティックスに入るが、利用履歴や Web -11- ページのリンク情報を用いて情報の意味づけをダイナミックに行う。 ③ 3.2.2 ビングやウルフラム・アルファなどが提供する新機能 SCL(Simplified Common Language)の概要 (1) SCL とは SCL(Simplified Common Language)は、コンピュータ用世界共通語である。従来、 エスペラントをはじめとする色々な世界共通語(国際補助語)が工夫され、普及が試みら れてきた。しかし、どれも芳しい結果とはならなかった。これらの世界共通語は、人間用 世界共通語である。人間は、それぞれに生まれ育った環境に応じた母語を持つ。この母語 に替わって、世界共通語という設定は、本質的な無理を伴う。 SCL は、コンピュータ用世界共通語である。コンピュータは母語を持たない。SCL は、 自身としての表層表現を持たない意味的な深層表現だけの言語である。SCL は、プログラ ム言語のようなコンピュータ言語ではなく、(簡易化)自然言語としてのコンピュータ言語 である。 図 3.2.1 に示すように、人間とコンピュータとのコミュニケーションは、SCL を使ってな されるのではない。コミュニケーションには、それぞれの母語を使う。ただし、簡易化さ れた母語(SJ、SE、SC 等)である。簡易化することによって、母語と SCL との相互翻訳 や相互通訳をほぼ自動化することができる。ただし、コンピュータは、簡易化された自然 言語に対応する SCL を完全に理解できるわけではない。SCL は、プログラム言語のような 通常のコンピュータ言語に比べれば、相当に複雑である。それぞれの利用目的ごとにコン ピュータの理解度合いが定まり、その理解度合いに応じた目的向きの SCL の仕様が定まる ことになる。理解度合いを定める確かな方法は、コンピュータが理解できるコンピュータ 用人工言語(CAL)を定める方法である。知識表現言語(KRL)、Prolog、各種論理系(1 階述語論理、共通論理、記述論理等々)などの内でどれを使うのかを定めるという方法で ある。 Simplified Japanese Simplified English Simplified Chinese SCL ・ ・ ・ ・ Computer Artificial Languages ‐‐‐‐‐ KRL, CommonLogic, DescriptionLogic etc. 図 3.2.1 SCL を介するコミュニケーション -12- ・ ・ SCL と簡易化母語との間の相互変換システム(Translator)、SCL と各種 CAL との間 の相互変換システム(Translator)、これらを明示した構成を図 3.2.2 に示す。それぞれの 相互変換システムには、相互の対訳辞書が用意される。実際のシステムの実装形式として は、クラウドコンピューティングを土台とする SCL クラウドなどを検討することになる。 Simplified Japanese SJ⇔SCL Translator IE&KB Simplified English SE⇔SCL Translator IE&KB Simplified Chinese SC⇔SCL Translator SCL ・ ・ ・ ・ ・ ・ ・ ・ Computer Artificial Languages IE&KB 図 3.2.2 簡易化母語、各種 CAL と SCL との相互変換 (2) IE&KB SCL⇔CALs Translator IE&KB= Inference Engine and Knowledge Base その役割 SCL がどのように使われ、どのような役割を果たすのかである。役割は、大きく以下の 2 つである。 (ⅰ)メタドキュメント記述言語 メタドキュメントとは、すべてのリソース(人工物、コンテンツ、サービス、ソフ トウェア等)について、その定義、注釈、説明、要約、評価、仕様、指示、操作等を 表現し、リソースに添付されるドキュメントのことである。メタドキュメントは、メ タデータに比べ、高い記述力と高い可読性をもつ。そして、一般のドキュメントに比 べ、感覚的・感情的な表現が少なく、情報を客観的・集約的に表現する。 セマンティック Web が提供する貧弱なメタデータ記述と比較して、SCL は、適切に 簡略化され制限された自然言語機能ではあるが、自然言語がもつ表現機能の基本的な 部分をメタデータ記述に使えるようにするものである。 また、オントロジー定義記述という観点でみると、SCL は、オントロジーの定義記 -13- 述を通常の用語定義記述と同様の柔軟さで行えるようにする。現在、オントロジーの 共有化や相互運用が大きな課題となっているが、この課題をオントロジー階層のトッ プレベルオントロジーの標準化で解決しようとするのは、本来、無理である。オント ロジーの定義記述言語を標準化し、しかも、より表現能力の高いものにすることによ って解決すべきである。 (ⅱ)共通コミュニケーション言語 SCL は、サイバー空間とリアル空間を含めてすべてのエージェント(人や人工物) がコミュニケーションするための共通の媒介言語となる。それぞれのエージェントは、 それぞれの固有のコミュニケーション言語を持つため、それらの個別コミュニケーシ ョン言語との間の相互翻訳の機能が用意される。 3.2.3 SCL の仕様設計 CDL.nl(ISeC:自然言語の意味記述のための概念記述言語 CDL.nl 仕様書第 1 版、ISeC 技術資料:2007-3-30、p.139、2007 年 3 月)をベースに言語仕様を設計する。CDL.nl は、 自然言語の共通的意味記述のための概念記述言語であるが、これをコンピュータエスペラ ントである SCL に設計し直す。形態的仕様、構文的仕様、意味的仕様に分け、SCL の基本 仕様を説明する。 (1) 形態的仕様 語(word)は、具象的、抽象的を含め実体的内容を表す内容語(content word)と内容 語間の関係を表す機能語(function word)に分けられる。そして、内容語をノードとし、 機能語をアークとするネットワーク構造が SCL の言語としての形態である。通常の自然言 語は、話す・聞くや読み・書きという入出力への対応から、線状性という制約を形態の基 本とする。しかし、コンピュータは、入出力に対応する必要はない。そこで、線状性とい う制約から離れ、本来の情報の表現構造を直接反映したネットワーク構造をとることにな る。なお、このネットワーク構造は、次に説明する構文構造等への対応のため入れ子構造 となる。 通常の自然言語では、入出力への対応から音声音や文字という表層表現の規定が重要な 要件となる。しかし、コンピュータは、入出力に対応する必要はない。そこで、SCL には、 表層表現に関する規定は一切必要がない。ただし、SCL システムの開発や運用のためには、 SCL を可視化する必要がある。これに関しては、CDL(Concept Description Language) の仕組を利用することになる。RDF 実装の CDL を用いるのがよいであろう。そして、す べての内容語や機能語には、URI が割り振られ、この URI によって一意に同定されること になる。 A. CDL とは -14- 様々な表現メディアや多様なコンテンツ、これらの意味の概念化を共通的な形式で記述 するための言語が概念記述言語(CDL: Concept Description Language)である。CDL は、 XML の基本的な考え方を素直に発展させたもので、XML でタグ付けされたデータの蓄積 を素直に引き継ぐことができる。XML がコンテンツの文書構造(構文的な構造)を注記 (markup、annotation)するのに対して、CDL はコンテンツの概念構造(意味的な構造) を記述(description)する。まず、XML に対比させて CDL の特徴を説明する。 まず、XML の仕様設計の要点である。 ① タグ(文書タグ)をコンテンツの中に埋め込み文書構造を注記する。タグは基本的 には 1 種類である。 ② 文書構造のモデルは入れ子のツリー構造である。 ③ タグの定義部分は、注記されるコンテンツに付随し、名前空間機能で相互参照され る。 ④ タグ付けされた文書構造を人間に理解しやすいコンテンツに変換するスタイルシー トの仕組みが用意される。 対する CDL の仕様設計の要点である。 1) ラベル(概念ラベル)を用いてコンテンツから独立したものとして概念構造を記述 する。ラベルに大きく実体概念ラベルと関係概念ラベルの 2 種類を設ける。 2) 概念構造のモデルは入れ子(ハイパー)のネットワーク構造である。 3) ラベルの定義部分は、記述対象となるすべてのコンテンツから独立した概念定義辞 書(CDD: Concept Definition Dictionary)にまとめられる。ラベル同士の、すなわ ち、ラベルが表す概念同士の意味関係や概念の内部構造が概念定義辞書に定義され る。概念のオントロジーである。 4) 記述された概念構造を人間に理解しやすいコンテンツに変換するグラウンディング の仕組みが用意される。 XML にも、CDL に準じる仕組みを部分的に設けることができる。その仕組みを実現し たのがセマンティック Web における RDF/OWL である。RDF/OWL の仕様設計の要点で ある。 ① 特性を記述する。 ② リソース(コンテンツを含む)の特性(メタデータ)を記述する。記述形式は、対 象(リソース)、特性、特性値の 3 つ組によるフレーム型の入れ子形式である。 ③ 記述するための語彙は、オントロジーとしてまとめられる。オントロジーを記述す る枠組みが RDFSchema であり、定義を記述する言語が OWL である。 -15- 対する CDL の仕様設計の要点である。 a) 構造を記述する。 b) コンテンツ全体の概念構造を記述する。実体概念と関係概念(その縮退形の属性と 属性値)、それぞれをノードとアークとするネットワーク形式、さらに、それぞれに 複合概念タイプ(ハイパーノード、ハイパーアーク)と要素概念タイプを設ける。 c) 記述するための語彙は、それぞれの概念定義辞書にまとめられる。語彙の定義(オ ントロジー)を記述する枠組みや記述するメタ語彙が CDL.core の概念定義辞書にア プリオリに定義されている。概念定義辞書は、実体(Entity)、関係(Relation)、属 性(Attribute)を最上位概念とする概念オントロジーであり、概念定義辞書自身も 論理的にはひとつの複合実体概念である。 RDF/OWL がメタデータ記述を目的に、XML からボトムアップ的に設計されたのに対し て、CDL はコンテンツの概念記述を目的に、本来の概念構造のあり方からトップダウン的 に設計された。このため、CDL は一貫した簡明な仕様となっている。なお、CDL の実装 に関しては、RDF/OWL 実装仕様と XML 実装仕様を用意する。 (2) 構文的仕様 一番大きな構成成分(ノード)が‘テキスト’であり、一番小さな構成成分(ノード) が‘語’である。テキストノードから語ノードの間にいくつかの構成成分(ノード)の階 層が設けられ、以下のような構文的な構造が作り上げられる。 テキスト(text)ノード: 一つ以上のパラグラフノードからなり、パラグラフノードは談話関係アーク(談 話関係でラベル付けされたアーク)で結ばれている。 パラグラフ(paragraph)ノード: 一つ以上のセンテンスノードからなり、センテンスノードは談話関係アークで結 ばれている。 センテンス(sentence)ノード: 一つ以上の事象ノードからなり、事象ノードは談話関係アークで結ばれている。 事象ノードの内のひとつが、主事象ノードと呼ばれる。 事象(event)ノード: ひとつの事象基ノードと一つ以上の事物ノードからなる。事象基ノードと格関係 で結ばれる事物ノードが、表現上の重要な成分となる。事象基ノードは、述語と なる語によるノードが対応し、事物ノードは、名詞語によるノードが対応する。 さらに、事物ノードは、名詞語によるノードに色々な修飾成分が関係付けられ複 雑な事物表現がなされることになる。 -16- (3) 意味的仕様 SCL には、表層と深層という二層構造はなく、深層だけの言語である。したがって、内 容語にも機能語にも多義性はなく、すべての単語は、ひとつの概念だけに対応する単義語 である。SCL 辞書では、カテゴリ階層が設けられ、そのカテゴリ階層に沿ってすべての単 語が分類されている。そして、各単語には、どのような単語ノードとどのような関係アー クで結ばれるのかを規定する情報が付記されている。この規定情報が、SCL の第一段階の 意味的な仕様を定める。 次に、SCL と各種簡易自然言語との相互変換に用いられる変換辞書と変換ルール、そし て、SCL と各種コンピュータ人工言語との相互変換に用いられる変換辞書と変換ルール、 これらが、SCL の最終的な意味的仕様を定める。 3.2.4 SCL による記述例 SCL の記述機能を示すために、多様な記述パターンに対する記述例を挙げる。記述例に は、簡易日本語への変換例が付記されている。ここで用いる SCL の記述形式は、CDL.core で定められたテキスト形式に準じたものである。 (例 1)主事象のみの文 SCL {#A 文 {#a 事象 tempolarity =’past’; {#1 昨日;} {#2 太郎 realization=’prop’;} {#3 コンピュータ realization=’spec’;} {#4 購入する;} [#4-tim→#1] [#4-agt→#2] [#4-obj→#3]}} ↓ 簡易日本語 「昨日、太郎がコンピュータを購入した。」 主事象のみからなる SCL 文である。主事象は、3 つの事物ノード(#1、#2、#3)と事象 基ノード(#4)からなる。購入する、昨日、太郎、コンピュータは、SCL 辞書に登録され ている語である。本来は、語は URI であるが、ここでは、理解し易さのために日本語単語 を斜体字にすることで語を表す。#A は、文という複合ノードの具現化(realization)であ る。#a は、事象という複合ノードの具現化である。#1、#2、#3、#4 は、それぞれ、昨日、 -17- 太郎、コンピュータ、購入するという要素ノードの具現化であるとする。そして、辞書の 単語定義からの具現化モードは、#2 は固有のもの(proper)であり、#3 は特定のもの (specific)である。事象ノードの tempolarity 属性 は、発話時点(テキストノードの date 属性の値)を基準に’present’か’past’か’future’か’permanent’かの値をとる。 (例 2)事象(連体節)で修飾された事物 SCL {#A 文 {#a 事象 temporality=’past’; {#b 事象 tempolarity =’past’; {#1 昨日;} {#2 太郎 realization=’prop’;} {#3 コンピュータ realization=’spec’;} {#4 購入する;} [#4-tim→#1] [#4-agt→#2] [#4-obj→#3]} {#5 今朝;} {#6 故障する;} [#6-tim→#5][#6-obj→#3][#a-seq→#b]}} ↓ 簡易日本語 「今朝、昨日太郎が購入したコンピュータが故障した。」 事物ノード{#3 コンピュータ;}は、事象#b によって修飾された事物である。時制性は、2 つの事象共に発話時点を基準にする。そのため、両者の相対的な時間差を記述するために、 [#a-seq→#b]が必要である。 (例 3)事象(内容節)で修飾された事物 SCL {#A 文 {#a 事象 temporality=’past’; {#b 事象 tempolarity =’past’; {#1 コンピュータ;} {#2 故障する;} [#2-obj→#1]} {#3 太郎;} {#4 報告;} -18- {#5 受取る;} [#5-agt→#3][#5-obj→#4][#4-cnt→#b]}} ↓ 簡易日本語 「太郎は、コンピュータが故障したという報告を受取った。」 事象(内容節)ノード#b が修飾対象の事物ノード#4 の内容となっている。 (例 4)事象(名詞節)自身が事物 SCL {#A 文 {#a 事象 temporality=’past’; {#b 事象 tempolarity =’past’; {#1 コンピュータ;} {#2 故障する;} [#2-obj→#1]} {#3 太郎;} {#4 報告する;} [#4-agt→#3][#4-obj→#b]}} ↓ 簡易日本語 「太郎は、コンピュータが故障したことを報告した。」 事象(名詞節)ノード#b 自身が事物ノードとなっている。 (例 5)数量修飾された事物 SCL {#A 文 {#a 事象 temporality=’past’; {#1 今朝;} {#2 多い;} {#3 コンピュータ;} {#4 故障する;} [#4-tim→#1]}[#4-obj→#3][#3-qua→#2]}} ↓ 簡易日本語 -19- 「今朝、多くのコンピュータが故障した。」 事物ノード#3 が数量詞(事物)ノード#2 によって、数量修飾(qua)されている。 (例 6)事物どうしの論理表現(and 関係) SCL {#A 文 {#a 事象 tempolarity =’past’; {#1 太郎 realization=’prop’;} {#2 複合; {#21 コンピュータ realization=’spec’;} {#22 プリンタ realization=’spec’;} [#21-and→#22]} {#3 購入する;} [#3-agt→#1] [#3-obj→#2]}} ↓ 簡易日本語 「太郎がコンピュータとプリンタを購入した。 」 事物ノード#21 と事物ノード#22 が And 関係で結ばれ複合ノードを構成する。 -20- (例 7)事物どうしの論理表現(or 関係) SCL {#A 文 {#a 事象 tempolarity =’future’; {#1 太郎 realization=’prop’;} {#2 複合; {#21 コンピュータ realization=’spec’;} {#22 プリンタ realization=’spec’;} [#21-or→#22]} {#3 購入する;} [#3-agt→#1] [#3-obj→#2]}} ↓ 簡易日本語 「太郎がコンピュータかプリンタを購入する。 」 事物ノード#21 と事物ノード#22 が Or 関係で結ばれ複合ノードを構成する。 (例 8)事物間の論理表現(not 関係) SCL {#A 文 {#a 事象 tempolarity =’future’; {#1 太郎 realization=’prop’;} {#2 複合; {#21 コンピュータ realization=’spec’;} {#22 電気製品 realization=’spec’;} [#21-not→#22]} {#3 購入する;} [#3-agt→#1] [#3-obj→#2]}} ↓ 簡易日本語 「太郎がコンピュータではない電気製品を購入する。」 事物ノード#21 と事物ノード#22 が Not 関係(差集合関係)で結ばれ複合ノードを構成す る。 (例 9)事象基どうしの論理表現(or 関係) -21- SCL {#A 文 {#a 事象 tempolarity =’future’; {#1 太郎 realization=’prop’;} {#2 コンピュータ;} {#3 複合; {#31 購入する;} {#32 借用する;} [#31-or→#32]} [#3-agt→#1] [#3-obj→#2]}} ↓ 簡易日本語 「太郎がコンピュータを購入するか借用する。 」 事象基ノード#31 と事象基ノード#32 が Or 関係で結ばれ複合ノードを構成する。 (例 10)事象どうしの論理表現(or 関係) SCL {#A 文 {#a 事象 tempolarity =’future’; {#1 太郎 realization=’prop’;} {#2 コンピュータ realization=’spec’;} {#3 購入する;} [#3-agt→#1] [#3-obj→#2]}} {#b 事象 tempolarity =’future’; {#4 プリンタ realization=’spec’;} {#5 借用する;} [#5-agt→#1] [#5-obj→#4]}} [#a-or→#b]} ↓ 簡易日本語 「太郎は、コンピュータを購入するか、プリンタを借用する。」 2 つの事象からなる文である。論理関係は談話関係としても用いられる。 (例 11)文間の談話関係と参照関係 -22- SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 多い;} {#3 コンピュータ;} {#4 故障する;} [#4-tim→#1][#4-obj→#3][#3-qua→#2]}} {#B 文 {#b 事象 temporality=’past’; {#5 今朝;} {#6 太郎;} {#7 報告する;} [#7-tim→#5][#7-agt→#6][#7-obj→#a]}} [#A-seq→#B]} ↓ 簡易日本語 「昨日、多くのコンピュータが故障した。今朝、太郎はそのことを報告した。」 文#A と文#B が時間的順序(seq)という談話関係にあること、事象#b の事象基ノード#7 の対格成分(obj 関係)が事象#a であることが表現されている。この 2 つの文は、パラグ ラフを構成しているといえないので、単なる複合ノードとした。 (例 12)文間の談話関係と参照関係 SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 temporality=’past’; {#4 今朝;} -23- {#5 太郎;} {#6 修理する;} [#6-tim→#4][#6-agt→#5][#6-obj→#2]}} [#A-seq→#B]} ↓ 簡易日本語 「昨日、コンピュータが故障した。今朝、太郎はそのコンピュータを修理した。 」 文#A と文#B が時間的順序(seq)という談話関係にあること、事象#b の事象基ノード#6 の対格成分(obj 関係)が事象#a の事物#2 であることが表現されている。 (例 13)文間の談話関係と参照関係 SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 temporality=’past’; {#4 今朝;} {#5 太郎;} {#6 調査する;} [#6-tim→#4][#6-agt→#5][#6-obj→#3]}} [#A-seq→#B]} ↓ 簡易日本語 「昨日、コンピュータが故障した。今朝、太郎はその故障を調査した。」 文#A と文#B が時間的順序(seq)という談話関係にあること、事象#b の事象基ノード#6 の対格成分(obj 関係)が事象#a の事象基#3 であることが表現されている。 (例 14)文間の談話関係と参照関係 SCL -24- 複合; {#P {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 temporality=’past’; {#4 今朝;} {#5 コンピュータ realization=’spec’;} {#6 故障する;} [#6-tim→#4][#6-obj→#5][#5-neq→#2]}} [#A-seq→#B]} ↓ 簡易日本語 「昨日、コンピュータが故障した。そして、今朝、別のコンピュータが故障した。」 文#A と文#B が時間的順序(seq)という談話関係にあること、事象#a の事象基ノード#3 の対格成分(obj 関係)#2 と事象#b の事象基ノード#6 の対格成分(obj 関係)#5 とが異な るものである(neq 関係)にあることが表現されている。 (例 15)文間の談話関係(因果関係) SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 tmp=‘past’ pol=‘not’; {#4 太郎;} {#5 レポート;} {#6 書く mdl=‘ability’;} -25- [#6-agt→#4][#6-obj→#5]}} [#A-rsn→#B]} ↓ 簡易日本語 「昨日、コンピュータが故障した。それで、太郎はレポートを書けなかった。」 文#A と文#B が原因結果(rsn 関係)という談話関係にあることが表現されている。 (例 16)文間の談話関係(逆接関係) SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 tmp=‘past’; {#4 太郎;} {#5 レポート;} {#6 書く asp=‘complete’;} [#6-agt→#4][#6-obj→#5]}} [#A-adv→#B]} ↓ 簡易日本語 「昨日、コンピュータが故障した。にもかかわらず、太郎はレポートを書き上げた。」 文#A と文#B が逆接(adv:adversative 関係)という談話関係にあることが表現されてい る。 (例 17)3 つの文による連携表現(談話関係と参照関係) SCL {#P 複合; {#A 文 {#a 事象 temporality=’past’; -26- {#1 昨日;} {#2 コンピュータ realization=’spec’;} {#3 故障する;} [#3-tim→#1][#3-obj→#2]}} {#B 文 {#b 事象 temporality=’past’; {#4 今朝;} {#5 コンピュータ realization=’spec’;} {#6 故障する;} [#6-tim→#4][#6-obj→#5][#5-neq→#2]}} {#C 文 {#c 事象 temporality=’past’; {#7 太郎;} {#8 複合; [#6-and→#3]} {#9 報告する;} [#9-agt→#7][#9-obj→#8]}} [#A-seq→#B] [#B-seq→#C]} ↓ 簡易日本語 「昨日、コンピュータが故障した。そして、今朝、別のコンピュータが故障した。太郎は それらの故障を報告した。」 文#A と文#B と文#C とが時間的順序(seq)という談話関係にあること、事象#c の事象 基ノード#9 の対格成分(obj 関係)が事象#a の事象基#3 と事象#b の事象基#6 の AND で あることが表現されている。 3.3 CWL(Common Web Language)技術 SCL を核言語とする産業版 GCP においては、自然言語(日本語、英語、中国語、韓国語 等)は簡易化母語に Simplified されるが、その言語的なモデルは使用する概念がサブセット になり、ネットワーク構造が限定されるということがあるとしても自然言語のモデル化と 統一化可能であると考えている。受託者らのグループは、Semantic Web とは異なる側面を 持つ(対極的面と相補的面を持つ)Web コンテンツ概念記述言語 CWL(Common Web Language)の国際標準化活動と連動して研究開発を実施してきた。 -27- CWL はハイパーノードを持つ意味ネットワーク言語であり、世界中の自然言語の共通的 な中間言語を技術的起源に持つことにより、特定言語に依存しない言語ニュートラルな基 本的性格を有している。これは言語の壁を超えた、また英語だけに拘束されないグローバ ルな情報・知識の交流基盤となり得るものであり、SCL とコミュニケーションする簡易化 母語のためのモデルを与える。 Semantic Web は Web コンテンツを人間に対する提示に加えてコンピュータにも理解で きる記述形式とし、Web を分散知識・データベースに変化させることを目指し、コンテン ツのメタデータ記述形式として RDF、その記述に用いる語彙のオントロジー記述形式とし て RDF Schema、OWL を定めている。(今後の標準化課題としては Logic 層や Trust 層な どもある。)Web ソースコンテンツから抽出したメタデータの記述、利用が中心であり、自 然言語テキストのソースコンテンツの意味内容まで利用することは視野に入っていない。 これにより、Semantic Web は最近ではむしろ Data Web と称するのが適切との見解が見ら れるようになってきている。これに対し、CWL では自然言語テキスト文の意味内容を記述 する多国語共通の標準形式を与え、これを利用した意味処理にも立ち入る意味計算機能を 可能にする基盤を与える。CWL は単に記述形式を与えるだけでなく、自然言語表現の基本 語彙、オントロジーも与えていることが大きな特徴である。自然言語で記述された情報は CWL が用意するオントロジー(語彙知識と概念知識)によりコンピュータに理解され、そ れに基づいて検索および検索されたものを集めた知識合成がなされ、ユーザの欲している 情報あるいは知識のみをユーザに提供できる仕組みを実現する。(この場合、ユーザは人間 であってもコンピュータであってもよい。)これらの情報のすべてがコンピュータに理解可 能な形で与えられるため、それらの情報および検索、合成、統合された情報は母国語で人 間に提供される。 米国でも Web 分野でセマンティック技術あるいはセマンティック・コンピューティング (意味計算)が注目されるようになってきている。 そして、意味計算の基盤技術として自 然言語テキストが表す意味概念のコンピュータ可読で操作可能な意味記述表現の重要性が 認識されるようになってきている。しかしながら、米国では対象は英語あるいはインドヨ ーロッパ語族に限られ、CWL に見られるような多言語に対応するユニバーサリティへの配 慮や関心は見られない。 Web 技術は、グローバルスタンダードとしての要求仕様を満たす必要がある。上述した ように言語障壁の解消は最も共通となる要件である。それを解決することで多言語間の利 用条件が統一されるが、Web そのもののインテリジェンスを高めてユーザビリティを高め るには知識障壁を解消することが求められる。つまりブラウザーとしての Web だけではな く、セマンティック・コンピューティングのためにはコンピュータがテキストを中心とす る Web コンテンツの表す意味を理解できる表現形式であることが求められている。これは、 Semantic Web だけでは解決不十分であることは述べた。CWL(Common Web Language) -28- を、多言語対応の UNL、、セマンティック Web 対応の RDF、セマンティック・コンピュー ティング対応の CDL を統合する。UNL(Universal Networking Language)とは、国連 大学と UNDL 財団で 1996 年以降開発が継続されている言語独立な概念レベルの多言語テ キスト表現言語である。それらを CWL.unl、CWL.rdf、CWL.cdl と呼ぶ。(図 3.3.1) 図 3.3.1 Web 共通言語 CWL とその構成言語 例文 `I purchased a computer yesterday.'.を、CWL.unl,CWL.cdl,CWL.rdf で表現す ると図 3.3.2 に示すようなコードになる。 CWL.unl expression {unl} //Table Form of UNL expression agt(purchase(icl>buy(agt>person,obj>thing)).@entry.@past), I) obj(purchase(icl>buy(agt>person,obj>thing)).@entry.@past) ,computer(icl>machine)) tim(purchase(icl>buy(agt>person,obj>thing)).@entry.@pst), yesterday(icl>day)) {/unl} CWL.cdl expression {#S Situation; {#A Event tmp='past'; {#A1 purchase (icl>buy(agt>person,obj>thing) ;} {#A2 I ral='def';} {#A3 computer(icl>machine) ral='def';} {#A4 yesterday(icl>day) ral='def';} [#A1 cdd.nl#agt #A2] [#A1 cdd.nl#obj #A3] [#A1 cdd.nl#tim #A4] -29- } } CWL.rdf expression RDF// N-Triples representation: Subject Property Object"." #S rdf:type Situation. #A rdf:type Event. #S hasComplexEntity #A. #A hasElementalEntity #A1. #A hasElementalEntity #A2. #A hasElementalEntity #A3. #A hasElementalEntity #A4. #A1 rdf:type purchase(icl>buy(agt>person,obj>thing). #A2 I rdf:type I. #A2 I ral 'def'. #A3 rdf:type computer(icl>machine). #A3 ral 'def'. #A4 rdf:type yesterday(icl>day). #A4 ral 'def'. #A1 agt #A2. #A1 obj #A3. #A1 tim #A4. #A tmp 'past'. 図 3.3.2 CWL の等価な 3 つの表現例 我が国発の技術である CWL は、2007 年に Web 統括機関である W3C に提案し、インキ ュベータグループの活動を実施し、CWL 言語仕様のドラフトを提案した。しかし、国際標 準に至るには関連ツールを含めた実証システムが重要であり、さらにその効果を多数のユ ーザに実証的に示すことが求められている。これまでの実績を産業版 GCP 上に移して実験 することは、CWL にとっては応用面からのユーザ評価を得る場となり、他方、産業版 GCP にとっては、研究開発を加速させることになる。 参考文献 石塚満,内田裕士,横井俊夫:自然言語テキスト意味概念の共通的記述による次世代 Web 基盤,知能と情報(日本知能情報ファジィ学会誌),Vol.21, No.4, pp519-526, 2009 -30- 3.4 オントロジー 3.4.1 背景 Web の普及は普通の人々の情報へのアクセス力を飛躍的に向上させた。それは、Web に より、普通の人々にとっても広く社会に対し情報発信することが身近となり、膨大な情報 が Web 上の発信・蓄積されるようになると共に、それが Google 等による検索エンジンに より、誰からも容易に検索できるようになったことによることは疑いないが、一方で、そ の問題点もあきらかになりつつある。 問題点の一つは言うまでもなく言語の問題である。多くの情報に容易にアクセスできる ようになったとはいえ、自動翻訳の実用化までの道は平坦ではなく、言語の壁を越えるこ とは、現在なお、現実的には人間に委ねられている。 また、もっと実際的な問題としては情報の孤立化の問題がある。Web 上の膨大な情報を、 関連する情報と結びつけて利用することがもっと容易になれば、その価値は飛躍的に高ま るが、全文検索を主体とする情報発見の枠組みでは、これはなかなか難しい。例えば、「婦 人が元アイドルである政治家を兄弟に持つ日本の首相」という記述から、Google を用いて、 鳩山由紀夫首相にたどり着くのは、必ずしも用意ではない。 最近情報の充実著しい Wikipedia では、解説記述の中で使用されている用語が、 Wikipedia のエントリーとなっている場合リンクが張られていることが多い。これだけでも、 利用者から見た Wikipedia の情報の価値は飛躍的に高まっている。例えば、Wikipedia の 中では、高見エミリー、鳩山郁夫、鳩山由紀夫は相互に関連づけられている。ただし、関 連に対する意味づけはおこなわれていないので、検索言語によりこれを検索することまで はできない。 このような問題を解決するため、現在、大きな動きが2つある。一つは LOD(Linked Open Data)整備の動きである。LOD に関しては別項を参照して頂きたいが、例えば、上の家系 情報も RDF のプロパティにより関連づけられた LOD として公開されていれば、RDF の検 索言語である SPARQL によって検索することも理論的には可能である。また、もう一つの 動きが、2008 年 10 月に W3C の勧告となった RDFa による Web ページへの RDF 情報の 埋め込みである。LOD の中核となっている DBpedia は Wikipedia の中での標準的な情報 の記述様式である Infobox の情報を RDF に変換したものであるが、RDFa により、 Wikipedia 内に、Infobox に留まらずに、その記述と同等に近い情報が RDF として埋め込 まれれば、Wikipedia 情報そのものが LOD になり、理論的には検索も可能になる。 ただし、そのようなことが実現されるためには、もう一つ、大きな問題がある。それは、 古くて新しい問題であるが、用語の統一である。LOD では各インスタンスのアイデンティ ティが大きな問題となっているが、それ以前の問題として、例えば、Wikipedia のように非 常に広範な情報のそれなりの部分が RDF 化されるとした場合、そこで用いられるプロパテ ィや、あるいは、付加されるクラスの情報に関して、その名称や意味が統一されているこ -31- とが必要である。そのために、プロパティやクラスに関する広範なオントロジーの整備が、 今、改めて求められている。 3.4.2 オントロジーについて そ の よ う な オ ン ト ロ ジ ー を 記 述 す る 言 語 と し て は 、 W3C の 勧 告 と な っ て い る OWL/RDF(S)が最も中心となるのは間違いないだろう。ただし、プロパティやクラスを どこまで深く特徴付けるかは、そのプロパティやクラスをどのように活用したいかに依 存するため、OWL/RDF(S)に統一すべきであるとまでは言い切れないであろうし、また、 現実的にもそのようはならないであろう。例えば、オントロジーを記述する言語には、 以下のように、他にもいくつかあり、それらは、皆、Web を意識して、XML シンタック スを持っている。 Common Logic (ISO/IEC 24707) ・ オントロジー記述言語として歴史のある KIF(Knowledge Interchange Format)と 概念グラフ(Conceptual Graph)の統合プロジェクトに端を発するもの。 ・ 実質的には 2 階論理相当の KIF であるが、解釈条件のみを定める非常に抽象的な仕 様となっている。 ・ シンタックスは、この解釈条件に従えば、どのようなものでも構わないが、一つの方 言(dialect)として、XML シンタックスである XCL が定められている。 ・2007 年 9 月に ISO/IEC 24707 として国際標準になった。 Topic Maps ・ 任意の情報リソースを、トピック(主題, Topic)に対する出現(Occurrence)として 体系化すると共に、トピック間の意味的関係を関連(Association)として体系化するも の。RDFS のサブセットに近い。 ・ 主に、トピックおよびその関連がオントロジーとされる。特に、トピックに関しては、 公開主題(Published Subject)として公開し、同定・共有化を図ろうとしている。 ・ もともとは、SGML の1アプリケーションとして標準化されたが、現在は、以下の国 際標準から構成され、Part3 は XML シンタックスを定めている。 ¾ ISO/IEC 13250:2003 Topic maps Edition 2 ¾ ISO/IEC 13250:2006 Topic maps – Part2:Data model ¾ ISO/IEC 13250:2007 Topic maps – Part3:XML syntax ¾ ISO/IEC 13250:2009 Topic maps – Part4:Canonocalization オントロジーによっては、OWL/RDF(S)によらなくとも、Topic Maps での特徴づけで十 分な場合もあるかもしれないし、また、逆に、OWL/RDF(S)では十分でなく、Common Logic -32- が必要になる場合もあるだろう。実際、製造業における製造プロセスを記述するためのオ ントロジーとして ISO 18629 PSL (Process Specification Language) があるが、これは、 製造プロセスを管理する情報システム間の相互運用性の実現を狙ったものであり、各用語 は KIF によりかなり厳密に特徴付けられている。このオントロジーは、 今後、Common Logic により書き換えられることはあっても、OWL/RDF(S)によって書き換えられることはない だろう。 3.4.3 オントロジー・リポジトリないしレジストリについて オントロジーによって、用語およびその意味の統一を図っていくためには、オントロジ ー間の重複・不整合を極力排除できるよう、適切に管理していく必要があり、そのために は、オントロジー・リポジトリやオントロジー・レジストリが重要である。 ただし、上に述べたように、必ずしも、オントロジーを記述する言語は統一されないと いう前提で考える必要があり、その場合、様々な言語で書かれたオントロジーを管理する 方法として、大きく、最小公倍数的アプローチと最大公約数的アプローチの2つがある。 最小公倍数的アプローチの典型は、 2009 年 5 月に OMG から発行された仕様である ODM (Ontology Definition Metamodel)である。ODM では、OWL/RDF(S), Common Logic, Topic Maps それぞれのメタモデルを持ち、また、それらの間のマッピングも定義している。 OWL/RDF(S), Common Logic, Topic maps で記述されたオントロジーは、このメタモデル に従って、ODM に準拠したリポジトリに完全に登録されうる。オントロジーが完全に登録 されるという意味において、これは通常オントロジー・リポジトリと呼ばれる。 オントロジー・リポジトリは、その言語のメタモデルが規定されている範囲においては オントロジーを完全に保持できる反面、メタモデルが規定されていない場合無力になって しまい、言語仕様とそのメタモデルが常に整合していることが不可欠である。そのため、 例えば、ODM の Common Logic のメタモデルは、ISO/IEC 24707 Common Logic の策定 と整合をとりながら開発され、ODM の Common Logic のメタモデルは ISO/IEC 24707 Common Logic の仕様の中にもそのまま取り入れられている。一方で、ODM の OWL メタ モデルは、現状、OWL2 に追随できていないのも現実である。 このような最小公倍数的アプローチの持つ難しさも踏まえた、より実際的なアプローチ が最大公約数的アプローチである。最大公約数的アプローチでは、各言語に対応した複数 のメタモデルを持つのではなく、各言語に共通する汎用的なひとつのメタモデルを持つ。 この最大公約数的アプローチの典型は、日本が主導して国際標準化した ISO/IEC 19763-3 MFI Ontology registration である。MFI Ontology registration では、言語に依存しない オントロジーの汎用的な構造として図 3.4.1 に示す構造を仮定している。記述論理系のオン トロジーの場合、各用語とその定義は 1 対1に対応する場合も多いが、Common Logic や KIF 等 1 階述語論理系のオントロジーの場合、各用語は複数の公理により特徴づけられる ことも多い。MFI Ontology registration ではオントロジーと用語の間に文という概念を導 -33- 入しているが、これは Common Logic 等で記述されたオントロジーへの適用性を考慮した ものである。ただし、いずれにしても、オントロジー、文、用語の構成関係のみを持つ汎 用的構造で、実際にはオントロジーのセマンティックスをほとんど保持できず、単に、管 理上の登録簿に近いものである。その意味で、オントロジー・リポジトリではなく、オン トロジー・レジスリと呼ばれる。実際にオントロジーのセマンティックスが必要となる場 合は、その言語に対応したオントロジー・リポジトリが必要になる。そのため、MFI Ontology registration は、当初から前述の ODM と相補的な関係を築き、OMG の ODM の仕様検討 グループと密接な協調関係の下に、規格開発がなされた。 なお、ISO/IEC 19763-3 MFI Ontology registration は、日本の主導の下で 2007 年 3 月 に第1版が国際標準として発行されているが、オントロジーの管理的側面からの拡張を施 した第 2 版が最終投票段階にあり、 順調に行けば、2010 年上期には発行される予定である。 ISO/IEC 19763-3 MFI Ontology registration 第 2 版のメタモデルの骨格部分を図 3.4.2 に 示す。 オントロジー zオントロジーは文から成っている。 例:単位の例(mtere) (KernelUnit metre) (Dimensionality length) (dimensionality metre length) ・・・ 文 z文は用語からなっている。 用語 例:(KernelUnit metre) は以下の用語から成っている。 KernelUnit metre 図 3.4.1 言語に依存しないオントロジーの汎用的な構造 -34- 図-3.4.2 ISO/IEC 197863-3 MFI Ontology registration 第 2 版のメタモデルの骨格部分(案) 3.4.4 事例および提案 オントロジー・リポジトリないしレジストリとし有名なものに、Swoogle がある。Swoogle は、実際に登録をするのはオントロジーの URL のみで、そこから一定の情報を Swoogle 側に持ってくるという意味で、MFI Ontology registration とよく似ているが、MFI Ontology registration がオントロジー、文、用語という3階層構造により汎用性を持たせ ているのに対し、Swoogle は対象をセマンティック Web ドキュメントに限定し、ontology ないし document と term という2階層構造になっている。残念ながら、Swoogle は現在 ほとんど活動休止状態にあるが、セマンティック Web 系に特化した似たようなものとして、 watson 等がある。 必ずしも、セマンティック Web に限定されないものとしては、BioPortal が有名である。 BioPortal には NCI(米国・国立癌研究所) Thesaurus をはじめとして生物医学関係の 200 近いオントロジーが登録されている。記述言語は OWL の他に、OBO (Open Biological and Biomedical Ontologies) Format 等、いくつかのものが含まれる。ただし、あくまで、生物 医学領域に特化したドメイン・オントロジーに限定される。 このようにドメインに特化したものとしては、国連 CEFACT で定めている電子商取引の XML メッセージを構成する基本要素である UN/CCL (Core Component Library, EDI 基本 辞書)等も電子商取引というドメインに特化したオントロジーと見ることができる。 このように言語別、ドメイン別にはオントロジー・レジストリないしリポジトリの整備が 進む中で、より幅広い情報の共有・活用を推進するために、これらのオントロジー・レジ -35- ストリないしリポジトリと連携をとりつつ、言語やドメインに依存しないオントロジー・ レジストリとして ISO/IEC 19763-3 MFI Ontology registration に準拠したオントロジ ー・レジストリを構築していくべき時期に来ている。(図 3.4.3 参照) セマンティックWeb関係 セマンティックWeb以外 ODM リポジトリ http://watson.kmi.open.ac.uk/ UN/CCL Swoogle Swoogle MFI Ontology registration レジストリ http://swoogle.umbc.edu/ http://www.unece.org /cefact/codesfortrade/ unccl/CCL_index.htm ・・・ ・・・ ISO 18629 PSL のリポジトリ(未) URLで識別されRDF/XML 形式のオントロジー BioPortal (OBO format) http://bioportal. bioontology.org/ (OWL) 図 3.4.3 MFI Ontology registration レジストリの位置づけ 3.5 検索推論エンジン 3.5.1 はじめに この章では主に、知的コンピューティングに必要と思われる、関係性(関係)の検索あ るいは意味的な検索について記述と提案を試みる。情報システム内で表現される関係は意 味的な表現として解釈することができるため、関係の検索と意味的な検索をここでは同様 のものとして扱う。 この章で述べることを要約すると以下のようになる。II と III は提言的な意味合いがある。 I) 関係の表現をリポジトリ化し、検索する技術は実用化されている(3.5.2〜4 節)。 II) 意味的な検索が広く使われるためには、対象となる関係性のデータ公開を進めなけれ ばならない。その際には相互運用性と信頼度の問題に取り組む必要がある(3.5.5 節)。 -36- III)自然言語テキストからの情報抽出技術の進展により関係性のデータを大量に作り出す ことができる(3.5.6 節)。 関係は、情報システム内ではいわゆる構造化データの形で表現されることが多い。構造 化データには、(関係)データベース、XML、表計算ソフトの文書、さまざまなデータに付 与されたアノテーションなどがある。一方、非構造化データには、テキストや画像や音声 などがある。構造化データでは意味的な関係を明示することができるため、意味的な検索 に向いている。以下、本論に入る前に、現在 Web 検索などで多く用いられている(非構造 化データである)テキストの検索について触れておく。 Google で代表される通常の Web 検索は、全文検索の一種であり、テキスト中の文字列や 単語などに索引付けをして検索を行うものである。こうした検索は、多くの場合十分実用 的であるものの、検索精度において課題が残る。すなわち、一つの意味を表す言い回しが 複数あるためにテキスト中の表現が検索キーワードに合致せず、求める文書が見つからな かったり(再現率の問題)、ことばの多義性の問題から不要な文書が検索されてしまう(適 合率の問題)といったことがある。また、単に文書内のタームを検索するのではなく、文 書内で表現される関係を検索したい場合も、ターム集合をクエリに用いる検索では対処が できない。関係の検索には(非構造化)文書内の関係を発見するアルゴリズムと関係を指 定するクエリの機構が必要になる。 文書中の表現が持つ意味を指定して検索することができれば、検索の精度は上昇すると 考えられる。連想検索と呼ばれる検索手法(例えばGETA 1 )では、タームの集合をクエリと して用いることにより統計的に多義性の問題を低減するものの、ピンポイントで意味を指 定できるわけではない。文書およびクエリ内の単語の意味の特定を自動的に行う技術は現 在のところ存在せず、検索対象内の単語に人手で意味の特定を行うにはそれなりのコスト が必要になる。 3.5.2 関係の検索 関係は一般的に n-タプル(n-組)で表現される。現在の情報システムで広く用いられて いる関係データベースでは、関係は n-タプルを要素(レコード)とするテーブルで表現さ れる。関係データベースの検索には、通常 SQL という言語が用いられ、索引付けさえ適切 に行われれば大量のデータを効率よく検索することができる。しかし、関係データベース では事前にテーブルを設計する必要があり、さらにデータベースそのものにはテーブルそ のものやのカラム(タプル)の意味を記述する仕組みがないため、そのままでは利用者が データの意味付けを知って検索を行うことが難しいという問題がある。 1 http://geta.ex.nii.ac.jp/geta.html -37- n-タプルベースのデータベース(リポジトリ)としては、述語論理に基づくProlog また はそのサブセットである Datalog という言語をクエリ言語とするものが存在する。これら のデータベースでは事前にテーブルを設計するという手順は必要ではない。 2 近年W3Cにより提唱されているRDFはトリプル(=3-タプル)の集合からなるデータモデ ルである。任意の関係(n-タプル)の集合はトリプルの集合に書き直すことができるので、 RDFは普遍性のある関係記述の仕組みであるといえる 3 。RDFに関しては大規模の実用リポジ トリシステムが存在している。RDFリポジトリでも関係の定義のために事前にテーブルの設 計を行う必要はない。検索言語に関しては、W3Cの規格であるSPARQLをはじめとするいくつ かの言語が実用に供されている。(RDFのデータモデルは2項グラフでもあるので、RDFの 検索はグラフマッチングであるともいえる。) 関係の検索は、上述の連想検索の手法によることもできる。通常の連想検索は単語など のタームを索引付けと出現頻度計算の基本単位として用いるが、代わりに関係の表現(RDF グラフのフラグメントなど)を基本単位に用いることにより、関係の表現とそれらが出現 した文書を検索することができる。この手法は関係をある程度曖昧に検索したい用途に向 いている。 構造化データの検索システムとしては、上記の他にオブジェクト指向データベースや XML データベースなどが実用化されており、用途に応じて関係の検索に用いることができる。 3.5.3 検索とオントロジー 先に、関係データベースでは意味を記述する仕組みがないため利用者がデータの意味付 けを知って検索を行うことが難しいと述べた。データ要素の意味付けを記述するデータを メタデータと呼ぶが、データ要素が表現するもののクラス(カテゴリ)とプロパティ(属 性)を体系づけて記述したメタデータはオントロジーと呼ばれる。データリポジトリに対 し、オントロジーを含むメタデータを整備してユーザーに提供することにより、ユーザー は意味を指定することにより欲しいデータを検索・取得することができる。これがオント ロジーを用いたセマンティックサーチ(意味的な検索)である。RDF では、オントロジー記 述言語の規格(OWL)が定められており、標準的なやり方でオントロジーを記述し、オント ロジーを参照しながらデータリポジトリに検索を行うことができる(OWL も RDF で記述され ており、SPARQL で扱うことができる)。オントロジーは上記の Prolog や、Common Logic、 F-Logic などの言語を用いても記述することができる。 2 Prologは任意の実行ロジックを実装することができるので、データベースのクエリ言語として は強力すぎるきらいがある。その点、Datalogは関係データ検索言語として適していると考えら れるが、歴史的な事情からかそれほど普及していない。類似する記述体系としてF-Logicや Common Logicがあり、実用システムも存在する。 3 n-タプル支持者(Common Logicユーザなど)は実用上の見地からトリプルへの分解をよしとし ない。 -38- なお、オントロジーを利用しつつ構造化データへのクエリを構成するには高度なスキル を要することが多いため、意味的な検索の普及のためには検索ウィザードなどで半自動的 にクエリを生成する機構の充実が必要になると思われる。 3.5.4 検索と推論 オントロジーを利用する際には、しばしば推論が必要になる。例えば、多くの場合、ク ラスは階層を持って定義されており、上位クラスで定義された性質は下位クラスのインス タンスに伝播(継承)される。あるデータ要素があるクラスのインスタンスである場合、 その要素がある性質を持っているかどうかは、上位クラスにさかのぼって調べてみる必要 があるが、これは一種の推論といえる。 大規模なリポジトリで検索を行う場合、リアルタイムで推論を行うことは非現実的であ ることが多い。例えば、動物園のデータリポジトリで魚をさがす際に、個々の動物にはそ の「種」しか記載されていないとすると、魚を取り出すためにすべての動物個体について 推論を行わなければならなくなる。一方、あらかじめ個体について推論を行い、魚である という結果を索引付けしておけば、魚の一覧をほぼ瞬時に取り出すことが可能になる。 現在、RDF は普及段階にあるが、OWL を利用した推論検索は必ずしも普及していない。そ の1つの原因として考えられることは、汎用的な推論器は冗長な(不要な)推論まで行っ てしまうということがある。例えば、すべてのクラスは owl:Nothing(空集合)の上位クラ スだが、この推論はトリビアルだといえる。不要な推論はシステムのパフォーマンスも損 なう。実用システムでは、領域ごとに推論ルールをカスタマイズし、必要なだけの推論を 行わせるという工夫をしているものと思われる(実用に供されている汎用的な推論エンジ ンは複数存在する)。 3.5.5 検索対象 この節では、関係の検索あるいは意味的な検索について、実用的な対象をどのように設 定するかという課題を取り上げる。関係の検索の対象となる構造化データについては、従 来組織内での直接的な検索や(アマゾンなど)特定サイトの API を介しての検索が行われ てきた。近年では「オープンデータ」と称して Web 上のテキストと同様にインターネット 上にデータを公開する動きも出てきた。公開される構造化データは、CSV や XML などの構造 化テキストの形をしていたり、関係データベースだったりする。さまざまなフォーマット が混在していると、一様な検索が困難になるため、共通のデータモデルとして RDF を用い る Linked Open Data (LOD) が提案されている。 LOD のような Web 規模のオープンデータが(通常の Web 検索がそうであるように)ほとん どすべてのトピックを網羅しようとするなら、当然ながら元となる構造化データをほとん どすべてのトピックにおいて公開する必要がある。関係の検索あるいは意味的な検索が広 く用いられるためには、公開されるデータのトピックの網羅性が重要な課題となる。 LOD を含むオープンデータにおける別の問題は、複数の異なる表現が実は同じことを表現 しているかもしれないということである。オントロジー的な用語を使うと、インスタンス -39- データの「名寄せ」、さらにはクラス名やプロパティ名の名寄せが問題になる。RDF では各 人が勝手にクラス名やプロパティ名を定義できるため、データ間の相互運用性が問題にな る。複数の RDF 体系間を接続するためのオントロジーを作成すればよいが、体系の数が多 くなると組み合わせ的爆発を起こし、対処が困難になる。(実際的問題および理論的問題 として)標準的なオントロジーを用意できるかどうかが Web 規模でのオープンデータ検索 の鍵となると思われる。また、同一の関係をいかなるクラスとプロパティで表現するかと いうことも問題になる。例えば「食べる」という関係を2項関係で表現することもあれば、 イベントクラス「食べる」のインスタンスとして表現することもある。ここでも標準的な 方法の確立が課題となる。 オープンデータ一般の問題としてデータの信頼度の問題を挙げることができる。検索し て取り出したデータは虚偽のデータかもしれない。そうでないとしても、推測に基づいて いたり、古いデータであったりするかもしれない。テキスト検索の場合、人間が検索結果 を読んで信頼性を判断することがある程度可能であるが、データ検索の場合、データのみ から信頼性を判断することは難しい。データの信頼性を判断するためにデータの出自を示 すメタデータ付与の標準化が必要になる。 3.5.6 自然言語テキストの構造化 通常、テキストは非構造化データと見なされ、今まで述べてきた関係の検索あるいは意 味的な検索の対象とはならないが、テキストの持つ意味を構造化データに変換できれば意 味的な検索の対象を大量に生成することができる(これは他の非構造化データについても いえる)。しかし、日本語などの自然言語の意味を自動的に解釈し、多義性を除去した構 造化データに変換することは現状困難である(機械翻訳の歴史および現状を参照されたい)。 人間とコンピュータの共同作業により、多義性を除去することはある程度可能であるが、 人的コストがかかるため、すべてのテキストに対して多義性解消作業を行うことは現実的 ではない(一部の論文や記事の要約文などに対して作業を行うことは可能であろうし、有 意義だと思われる)。ただし、自動的な意味解析の結果である精度の低い多義性解消結果 または多義性の表示そのものを、その旨のメタデータを付与した上で公開してしまうとい う方法も考え方としてはありうる(テキスト検索と比べて検索精度向上には資さないかも しれないが、他の構造化データの意味的検索と統合した検索が行えるようになるという利 点がある)。 自然言語の意味がはらむ本質的な問題についてはレイコフらの認知言語学者が議論を行っ ている 4 。彼らによれば、自然言語において用いられるカテゴリは記号論理的な枠組みでは 捉えることができない。これが正しければ、一般的な自然言語のオントロジーを作成する ことや、それに基づく意味表現を構築することは不可能となる。ただし、これは自然言語 に関する人工知能研究が絶望的であることを意味しない。人間は自然言語を使った判断を 行っており、人間が行う程度の判断を行うような人工知能の開発には(人間という実例が 4 ジョージ・レイコフ「認知意味論―言語から見た人間の心」紀伊国屋書店 1993. -40- あることからして)可能性がある。こうした人工知能が内部に言語の「正しい意味表現」 を持つ必要はない。この章のトピックに戻るならば、テキストから(人間が行える程度に) 関係性を判別、抽出して検索の対象とするような人工知能は(レイコフらの議論にかかわら ず)実現の可能性があり、実現をめざす対象となりうる。 3.6 3.6.1 Linked Open Data Linked Open Data (LOD)の現状 現在、Web のコミュニティにおいて注目を集めている Linked Open Data (LOD)は、セ マンティック Web の基礎となるメタデータ記述言語の RDF を用いて、さまざまなコミュ ニティがインスタンスレベルの Fact 主体のデータセットをオープンに提供し、世界中で活 用しようという新しい試みである。これまでのセマンティック Web に関連した取り組みが、 オントロジーを用いた概念レベルの関係や制約に関する知識表現に力を入れ、推論などに よる高度な情報処理を目指していたのに対して、原始的な意味記述レベルの枠組みながら、 まずは大量のデータセットを実際にリンクして活用するところに主眼を置いている。 欧米を中心に,W3C や各分野のコミュニティにより,データの公開と利用が進められて いる。英語版 Wikipedia の中の約 2.9 億件(2010/3 時点)を RDF 化した DBpedia、地理 データの Wikipedia と呼ばれる GeoNames の情報中、約 9,300 万件を RDF 化した Geo Semantic Web、2003 年 7 月より開始された大規模な SNS である MySpace のユーザを RDF で表現するデータセットなどが有名である。 医療生命科学の分野においても、LOD を活用する動きがあり、Linking Open Drug Data (LODD)がある。この試みはテーラメード医療の促進による副作用/医療費削減に向けて、 遺伝子、たんぱく質、代謝、病気、薬剤、患者のそれぞれに関する膨大なデータを組み合 わせ、その中から新たな知識の発見や情報の分析をしたいというこの分野のニーズがこれ らを後押ししている。 また、政府の LOD の活用は、政府の情報公開の動きと連動して進んでいる。2009 年 5 月に、オバマ政権の開かれた政府(Open Government)の実現手段の一つとして、米国連 邦政府のさまざまな機関が扱う情報を入手できるサイト data.gov 開設され、注目を集めた。 すぐにセマンティック Web のコミュニティによって、上記 data.gov のデータセットを RDF 化して公開するサイト The Data-gov Wiki が開設され、統計情報の可視化や地図上での各 種データのマッシュアップ表示などのデータ活用が模索されている。 さらに 2010 年 1 月に英国政府が data.gov.uk を開設した。これは、Tim Berners-Lee 卿、 W3C の eGovernment の取り組みを進める John Sheridan 氏のアドバイスを取り入れ、デ -41- ータ公開・再利用に向けて、セマンティック Web および LOD を意識したサイトとなって いる。単なるデータ公開だけでなく、LOD の仕組みを用いて、Open Government の「透 明性」「国民参加型」「協業的」といった理念を実現できるかがカギと考えられる。データ の商用利用も奨励しており、data.gov.uk の公開情報に基づいて、ケアハウスを比較して選 べるサイト(Best Care Home)が立ち上がった。ケアハウス側からも有料で掲載して欲し い情報を提供できるようにすることも検討されている。今後、こうした試みが LOD ベース で進み、政府データを活用した民間の活性化を進むことも期待される。 3.6.2 Linked Open Data に関する提案 日本は残念ながら上記の LOD の流れに乗り遅れている。まずは、提供と第三者による活 用、そしてフィードバックのサイクルをまわすために、政府も含めたデータの発信が急務 である。しかし、データの発信には言語の壁が存在する。国立情報学研究所(NII)の武田 英明教授は日本語の言葉に URI を与えてハブとし、日本国内および世界中の言葉をリンク できるようにする「ことはぶ/KotoHub」の試みを進めている。このような取り組みは、 日本から発信された情報の標準の確立も含めてさらなる加速が必要だろう。 さらに、日本の国内での活用促進に向けて重要なのはデータの ID の確立である。分野を 横断して知識を集約する基盤の要素の1つとして、 「ことはぶ/KotoHub」のような辞書的 な言葉だけでなく、情報の「揺らぎないハブ」となる情報が必要である。LOD の世界では、 Wikipedia の情報をベースとした DBpedia や WordNet の語彙が「ハブ」となっている。 これは一見うまくいっているようにも見えるが、現実との対応においては正確性を欠く。 ハブとなる情報は単なる語彙ではなく、人や人工物の誰やどこから見ても拠り所となる情 報であることが必要である。 「場所に関する知識、モノに関する知識は、この ID(Identifier)に対するメタデータと して記述しなければならない」といった約束事はいろいろな IT サービスで統一されていな い。すでに地理情報、時間に関するメタデータの記述仕様はある。Amazon の商品識別コ ード ASIN などもある。また、ある時間に、ある場所にいたときに、GPS 情報などに基づ きケータイの画面上でその周辺の情報を教えてくれるサービスは既にある。しかし、それ はサービス毎に閉じた情報を専用のアプリから閲覧できる状態であり、その場所やモノに 関して誰もがストレスなく、どんな端末・サービスからも情報を登録できたり、参照でき たりする状態ではない。また時間や IT リテラシのない利用者の知識はまったく表出するこ とはない。 このような、Identifier の共通化は既存サービス提供者からの抵抗があることが予想される。 商品の口コミ情報など既に自社が獲得した情報は囲い込んでおき、サービスの差異化のた めに他の事業者に使われないようにしたいだろう。しかし、従来の各サービス提供者が保 -42- 有する Identifier はそのままに、それらをつなぐメタな Identifier を整備する方法を取るこ とで、自社の情報を LOD の仕組みを用いて、オープンにするかしないかは各社の判断で新 しいビジネスが展開できることになる。また、共通化により、Identifier のメンテナンスが 不要、簡単に正確に情報・知識が統合できることによって自社単独の取り組み以上にサー ビスがリッチになるといったメリットが、上述のデメリットを上回ることがある。 人や人工物の知的コンピューティング基盤を支える要素技術として、このようなデータの ID 基盤を国や業界横断で整備していくことが求められている。 参考: 武田英明: Linked Data の現状と日本の課題,セマンティック Web コンファレンス 2010 予稿集 長野伸一,清水昇,高島周二,細見格,佐藤宏之,飯塚京士,津田宏,乙守信行: Linked Open Data 調査報告,セマンティック Web コンファレンス 2010 予稿集 -43- 4. 産業版GCPの活用技術 4.1 総合学術オントロジー 4.1.1 はじめに 複雑化し多様化する諸問題に対処し,社会の持続可能性を担保するには,科学的根拠に 基づく社会(evidence-based society)を構築し,科学的な知識創造に社会が総力を挙げる必 要があるのではないか.これは,相互に連携する社会の諸機能(広義のサービス)を通じて定 常的にデータを蓄積・分析しながらそれらの機能に関連する仮説を構築・反証・改良し続 ける,つまり仮説検証サイクルとしての科学を社会全体に普及させるということである. それは,データの共有・蓄積・分析やそれに関連する社会的な協働など,社会の諸機能 の高度化を要請し,情報技術による支援を必要とする.このように情報技術によって実社 会と融合した持続可能な研究開発という科学の方法論をソーシャル e サイエンス(social e-science)と呼ぼう.e サイエンスとは知識やデータや人材や装置などの研究資源を情報ネ ットワークで共有して協働することによる科学研究のことだが,これまでの e サイエンス は一般の人々の日常の生活や業務との関係が希薄であった.ソーシャル e サイエンスとは, 研究資源を広く社会と共有することによって社会全体に拡張された e サイエンスである. 新たな科学的知識への需要がますます増大しているにも関わらず,研究分野の細分化や 学術的知識の高度化・複雑化により,各研究分野に外部からアクセスするのに要するコス トが増し,研究成果の社会への適用や多分野を横断する新しい研究分野の開拓が困難にな っている.学術をフィールドとするソーシャル e サイエンスによる学術研究の方法の改良・ 革新が必要と考えられる. つまり,学術研究の方法そのものに関する仮説検証により知識創造の生産性を高める進 化的な方法を明らかにしたい.それには,従来の学術用語辞典や論文に代わる学術コンテ ンツの形式と利用法に関する仮説をオントロジーで定式化することによって仮説検証を迅 速化するためのメタ研究が必要である.メタ研究とは研究に関する研究という意味だが, それは従来の科学哲学のようなことではなく,より良い研究の方法を解明するための社会 工学的な研究である. 情報処理学会の創立 50 周年記念事業の一環として,オントロジーに基づいて構造化した 学術用語辞典である「次世代情報処理ハンドブック」の制作を進めている.また,日本認 知科学会でも同じ情報インフラを共有して「認知科学オントロジー」を制作したいと考え ている.さらにこれらを核として,他の学会とも情報インフラを広く共有することにより, 多数の学問分野にわたる学術用語辞典として総合学術辞典 (comprehensive academic dictionary)を構築し一般公開することを計画している. この総合学術辞典を基点として論文や解説記事など学会のさまざまなコンテンツを相互 に連携させたものを総合学術オントロジー(comprehensive academic ontology)と呼ぶ.こ れは,オントロジーに基づく構造化を用いて学術コンテンツの更新・拡張・再生産と知識 -44- 循環を加速することにより仮説検証を迅速にし,またそのコンテンツを一般市民に開放す ることによって学術コミュニティと実社会との相互作用を促進するという意味において, ソーシャル e サイエンスの重要なツールである.以下では,総合学術辞典の一環としての 次世代情報処理ハンドブックの作成作業の実際と総合学術オントロジーの可能性について 論ずる. 4.1.2 オントロジーの設計とコンテンツの制作 ここでは,総合学術辞典におけるオントロジーの設計とそれに基づくコンテンツの制作 に関して,2010 年 11 月の一般公開に向けて目下制作を進めている「次世代情報処理ハン ドブック」を題材として論ずる. 「次世代情報処理ハンドブック」を含む「総合学術辞典」は,小項目主義の辞典のよう なものであり,ノードの多くが短いテキストや画像などのコンテンツ素材を含み,リンク がそれらの間の 2 項関係を表わすような RDF グラフである.各項目はハイパーノード(グ ラフを含むノード,つまり名前付グラフ named graph)であり,その内部のグラフが当該項 目のコンテンツである. この RDF グラフはあるオントロジー(これをメタレベルオントロジーと呼ぼう)のインス タンスである.メタレベルオントロジーにおいては, 「行為のクラス」, 「現象のクラス」, 「物 体のクラス」,「特定の人」,「特定の組織」,「特定の情報システム」,「特定のコンテンツ」, 「特定のプロジェクト」などのクラスが定義されている. 「~のクラス」の形のクラスのイ ンスタンスであるノードはクラスを表わし,「特定の~」の形のクラスのインスタンスであ るノードは特定物(particular)を表わす. 通常はクラスのラベルとして「特定の情報システム」等ではなく単に「情報システム」 等が用いられるが,ここでわざわざ「特定の」を含むラベルを用いているのは,単に「情 報システム」等のラベルだと,たとえば「在庫管理システム」という項目ノードのタイプ として間違って使われてしまう恐れが大きいからである. 「在庫管理システム」はクラスな ので,「~のクラス」の形のクラスをタイプとするのが正しい.一方,「セカンドライフ」 等は特定の情報システムなので,そのタイプは「特定の情報システム」である. ちなみに、「X のクラス」に対して必ずしも「特定の X」というクラスがあるわけではな く、また「特定の X」に対して必ずしも「X のクラス」があるわけでもない。これは、「人 のクラス」や「組織のクラス」のインスタンスが「次世代情報処理ハンドブック」にはほ とんど現われず、それらを設けると作業のコストが余分にかかると思われるからである。 総合学術辞典は辞典なので,自然言語の使用の実態に即した設計が必要である.ここで は,用語の意味の多型(polymorphism)ないしは換喩(metonymy)の扱いについて考えよう. たとえば「表現」や「契約」や「解釈」などの用語は,行為を意味するとともにその行 為の成果や手段をも意味する.これらの意味の定義は「何らかの対象を表わすこと,もし くは表わすため(または表わした結果)のコンテンツ」や「合意の内容を法的拘束力のある文 -45- 書にまとめること,またはその文書」のようなものになるだろう.このような選言的な意 味は,「行為のクラス」とその手段や結果である「X のクラス」の和集合として定式化でき ると考えられる.上の例では X はコンテンツだけだが,たとえば「インスタレーション」 や「ゲートアレイ」のように X が物理的実体である場合等もある. 「仕事」などの場合には さらに多様な意味を持ちうる.したがって,「行為のクラス」と「X のクラス」の和集合に 当たるクラスを定義して「表現」や「インスタレーション」をそのインスタンスとして捉 えようと思うと,多くのクラスを新たに定義する必要があろう.それよりも,「行為のクラ ス」と「物体のクラス」等を組み合わせて使った方が良いのではないかと考えられる. 一方,ある種の情報コンテンツを意味する用語には,そのコンテンツ以外にもその外延 的意味を指す用法がある.たとえば「クイックソート」は,特定のアルゴリズム(コンテン ツ)を意味するとともに, 「クイックソートする」のような場合にはプロセス(行為)のクラス をも意味する. 「プリウス」も特定の設計仕様(コンテンツ)という(固有名詞としての)意味に 加えて,その仕様に基づいて作られる車のクラスという(普通名詞としての)意味も持つ.こ のような現象に対しても,各用語の意味の多型性を一挙にとらえるようなクラスを用意す るよりも,上記と同じく基本的なクラスを組み合わせてこれらの意味を表現する方法[溝口 05]を用いるのが良いと思われる. 総合学術辞典が含むノードにはクラスを表わすものと特定物(particular)を表わすものが あるが,それに応じてリンクにもクラス同士の関係や特定物同士の間係を表わすものがあ る.たとえば「部分」プロパティのインスタンスであるリンクは,クラス同士を結ぶ場合(「脳」 が「部分」リンクによって「小脳」を指す場合など)には,終点(目的語)のインスタンスが 始点(主語)のインスタンスの部分であることを意味し,特定物同士を結ぶ場合(「MIT」が 「部分 part」リンクで「メディアラボ」を指す場合など)には,終点が始点の部分であるこ とを意味する.また,「派生 derives」プロパティのインスタンスであるリンクは常に始点 から終点が派生したことを意味すると考えられる.たとえば,「恐竜」が「派生」リンクに よって「鳥」を指している場合,それは個々の恐竜が鳥になったということではなく,恐 竜という種から進化して鳥という種ができたということである.これらのプロパティは, 「情報科学辞典」等に関する先行研究[黒橋他 92, 長尾 92]を参考にして設計している. このようなメタレベルオントロジーによる構造化の目的は,コンテンツを人間にとって わかりやすく扱いやすくするとともに,機械にとっても処理しやすくすることである.人 間にとってわかりやすいためには,クラスやプロパティの意味がわかりやすいことに加え て,構造化の粒度が適度であることが必要だろう.単語ほどの短いテキストを含むノード からなるグラフは,機械処理に都合が良いかも知れないが,人間にとってわかりやすいも のではない.各ノードを単文(simple sentence)ほどの粒度にするのが人間のわかりやすさ と検索や翻訳などの機械処理の便宜を両立させる上で好都合と考えられる. 本稿の執筆時には,メタレベルオントロジーの設計と構造化作業の方針がまだ十分に明 確化できていないため,通常のテキストとして項目のコンテンツが書かれることも多い. -46- しかし,そのテキストとそれをメタレベルオントロジーで構造化した結果とを比較するこ とにより,従来の小項目辞典の内容をメタレベルオントロジーによって適当な粒度で構造 化できることが示せる.以下で項目の具体的をいくつか挙げて説明しよう. 図 4.1.1 に「情報指向検索」という項目を示す.背景がグレーの各テキストが RDF グラ フのノード(リソース),黒い 3 角形と黒丸およびそれらに挟まれたテキストの組がノード間 のリンク(関係)であり,黒い 3 角形の向きが関係の向きを表わす.つまり,黒丸が関係の始 点(第 1 項)を指し,黒い 3 角形が関係の終点(第 2 項)を指す.たとえば,「情報指向検索」 の定義は「情報の発見・取得を目的とする情報検索」であり,「情報指向検索」は「「何々 についての情報が欲しい」といった情報要求に対応した,文書の内容に基づく検索」や「Web 検索における情報指向検索」の上位概念である.また,「状況」リンクは始点が終点におい て生起するまたは用いられるという意味である.このグラフはこの項目の著者(大山敬三氏) による下記のテキストをメタレベルオントロジーに従って構造化したものである. 情報の発見・取得を目的とした情報検索.「何々についての情報が欲しい」といった情報要求に 対応した,文書の内容に基づく検索が該当する.問い合わせと内容との類似度や関連度に応じた ランキングを行うことが多い.新聞,特許,論文などを対象とした従来からある情報検索の多く はこれに含まれる.Web検索における情報指向検索の場合は,類似度や関連度以外にも,情報の 有用性や信頼性に応じたランキングが重要となる. 図 4.1.1 「情報指向検索」の内容 図 4.1.2 は「仮想共有環境」の項目である.「SIMNET」や「インタースペース」等の太 字体のノードはハイパーノードであり,それ自身が項目である.図 4.1.2 のコンテンツは「仮 想共有環境」の著者(井上雅之氏)による下記のテキストを構造化して得られる. ネットワーク上のサーバにCGにより描画された三次元仮想空間を構築し,ネットワークを介し て複数クライアントからログインすることで,同一の三次元仮想空間を共有し,協調作業や会話 などを行うことができる環境のこと.代表的なものに,米陸軍と米国防総省高等研究局とが 1980 年代に共同開発したSIMNETや (中略) などがある.教育,軍事,エンターテイメントなど様々 な用途での利用が進んでいる.(後略) この構造化により,「仮想共有環境」以外にも,そこから直接的または間接的に参照される 他の項目が生まれる.そのひとつである「SIMNET」を図 4.1.3 に示す.このように,メタ -47- レベルオントロジーによる厳密な構造化によって,通常の小項目辞典よりも多くの細かい 項目が作られることになる.ここで「項目」とは,辞典(ハンドブック)において解説(定義 またはそれに相当する叙述)が与えられる用語のノードである. 「定義」リンクも「叙述」リ ンクも,終点が始点を記述していることを意味するが,始点のテキストを X,終点のテキス トを Y とすると, 「定義」の場合には「X とは Y という意味である」が正しい文であり, 「叙 述」の場合には X が Y の意味上の目的語でなければならない. 図 4.1.2 「仮想共有環境」の内容 図 4.1.3 「SIMNET」の内容 図 4.1.4 に「互いに独立」の項目を示す.これは, 「2 つの確率事象 X と Y が互いに独立」 であることの定義が「X と Y が同時に起こる結合確率 P(X, Y)が X と Y の個別の生起確率 P(X)と P(Y)の積であらわされる」ことだという意味であり,下記のテキスト(佐藤彰洋氏に よる「互いに独立」の定義)を構造化したものである. 二つの確率事象XとYが同時に起こる結合確率P(X,Y)が事象XとYの個別の生起確率P(X)とP(Y) の積であらわされる場合 一般に,「パラメタ込」リンクがあるとき,その終点の意味は「定義」リンクの終点で与え られる.「パラメタ込」リンクがなければ,項目ノードの定義が「定義」リンクの終点であ る.関係概念等の定義はこのように「パラメタ込」リンクが必要であることが多い. 図 4.1.5 に図を使った説明の例を示す.リストの図における各要素の下の値がリストの要 素のランクの例になっており, 「各要素の下の値」が集合を表わすと考えると,その上位(そ れを部分集合として含む集合)に「リストの要素のランク」がある.また, 「値 7 を格納して いる要素のランク 4」は「各要素の下の値」の具体例(instance)である. -48- 図 4.1.4 「互いに独立」の内容 図 4.1.5 「リストの要素のランク」の内容 やや大きめの項目の例として,図 4.1.6 に「疑似乱数」を示す.「参照」リンクは始点の テキストが終点のテキストを含み,始点が終点を意味的に参照していることを意味する. 図 4.1.6 「疑似乱数」の内容 「定義」や「因果」や「状況」と違って,「参照」リンクは始点と終点との意味的な関係 -49- を限定しないが,その分だけ適用可能範囲が広い.これらを組み合わせて使うことにより, 図 4.1.6 のように大きなコンテンツでもかなり細かいテキストノードに分割してグラフ表現 することができる. このような粒度の構造化によって,検索や翻訳や要約などの情報サービスの品質が大幅 に向上することはほぼ明らかだろう.たとえば,上記のようなコンテンツを翻訳するには 各ノードのテキストを翻訳すれば良く,それは人間にとっても機械にとっても通常のテキ ストの翻訳よりもはるかに楽な作業である.通常の翻訳では原文と訳文の間で語順が異な るので,その対応関係を管理するコストが大きいが,上で示したような構造化によってそ の管理の範囲が各ノードの中に限定されることで,そのコストが劇的に下がる.要約に際 しては,コンテンツにおける意味的な関係がリンクによって明示されているため,内容の 骨格を抽出するのが容易である.この議論は,翻訳についても要約についても人間と機械 の両方に妥当することに注意されたい. また,以上のような構造化の方法を敷衍することにより,小項目辞典の項目のようなコ ンテンツだけでなく,論文や書籍のようなコンテンツも同程度の粒度の RDF グラフによっ て表現することができるだろう.論文等を上記と同様の粒度で構造化するには,小項目の 構造化にはあまり使われないようなプロパティ(たとえば「逆接」や「譲歩」などの談話関 係)が必要になると考えられるが, 「次世代情報処理ハンドブック」用に策定している現在の メタレベルオントロジーを具体的にどのように拡張すべきかは今後の課題である. また,メタレベルオントロジーに基づくコンテンツ作成・共有・利用の基盤を多数の学 会の間で共有し,総合学術辞典を中核として多数の学会のコンテンツやサービスを相互に 連携させることが総合学術オントロジーの構想に含まれるが,そのためにはプロパティよ りもむしろクラスの体系を拡張する必要が生ずるだろう.たとえば「次世代情報処理ハン ドブック」では,「特定の情報システム」のように情報技術の領域オントロジーにやや踏み 込んだクラスを用いているが,他の研究分野でも同様に当該分野の領域オントロジーの一 部をメタレベルオントロジーに取り入れることになるだろう. 4.1.3 学術知の循環におけるオントロジー 世界中の学術論文の総量はほとんど指数関数的に増大しているかに思われる.しかし, 論文の量;が単調に増え続けている一方で,われわれ研究者ひとりひとりが単位時間内に読 む論文の量はさほど増えていないのではないか? すると,1 論文当たりの読者の数は着実に 減り続けており,2 (つまり著者と査読者)に漸近しつつあるのではあるまいか.これに加え て,研究分野の細分化や学術的知識の高度化・複雑化も進んでいる.こうして,多分野の 知を統合するような大きな研究の展開が生じにくくなっていると考えられる. オントロジーによって学術的な知を相互連携させる意義は大きい.その連携を通じて学 術コンテンツ全体の分量を圧縮することができれば,その価値は計り知れない.論文の量 は増えているが,新たに生み出される有用な知識がそれ相応に増えているかどうかは大い -50- に疑わしい.論文の量の増大のほとんどは既存の知識のコピーや再発見によるものなので はないだろうか.オントロジーの媒介によって同義のコンテンツを統合することができれ ば,学術コンテンツの総量が圧縮されるとともに,知識の間の相互関係が明示的に共有さ れ,それが研究者や研究分野の間の相互作用を活性化し,知識の創造を促すことになる. われわれ研究者がなすべきは,山のように論文を書くことではなく,コンテンツの再利 用性を高めることではないか? 既存のコンテンツを再生産したり複製したりするのではな く,同義のコンテンツを検索・同定して参照すること.それによりコンテンツの分量当た りの制作コストは高くなって当然だが,より大きく再利用性が高まるので,社会全体での 知的生産性は大幅に向上するだろう. 第 2 節で述べたようなグラフの形で辞典などのコンテンツを作ることは,従来のような テキストを書く作業に比べてあまり楽ではない.しかし,既存のコンテンツを再生産した り要約したりする無駄が回避できることに加えて,再利用性の高いコンテンツができれば, 長い目で見た場合の生産性は確実に上がっているはずである.この生産性の向上は,単に コンテンツの利用頻度が増すということではなく,相互参照による知識循環という意味で のネットワーク外部性の効果を含む.また,既存のコンテンツの検索も構造化によって従 来よりも容易になる. 同一の意味内容が多数の文書等にわたって分散しているのではなく,総合学術オントロジ ーにおいてさまざまなコンテンツがグラフで表現されて意味内容が等価なコンテンツが 1 個のノードに集約されるような集合知の仕組の構築がわれわれの目指すところであろう. 同義のコンテンツを集約する(つまり,コンテンツを意味内容でインデクシングする)という ことは,要素命題に近いものをノードとする巨大なグラフがコンテンツの全体になるとい うことである.同義のコンテンツの集約に完璧を期することはもちろん不可能だが,その ような集約の力が常に働いているような環境を構築することはできるだろう.それによっ て諸知識の相互関係が明確化された環境に埋め込まれた形で,新たな仮説やそれに関連す る議論をオントロジーに基づくグラフとして表現し,同じく明示的に共有することにより, 仮説検証サイクルが迅速化され,知識創造が活性化するものと期待される. そのような環境では,論文等は従来の姿を失う.仮説や観測データを表現するグラフを 修正・拡張することが,学術コンテンツの生産であり,従来のような論文の発表に代わる 学術的業績となる.言うなれば,発表の単位は論文ではなく文である.新しいノードを作 って既存のノードとリンクしたり,既存のリンクを張り換えたりする作業が,労力におい ても業績においても論文の執筆に匹敵するだろう.ネットワークを修正・拡張する作業は, 既存の同義のコンテンツの検索を要求されるゆえに,従来のような論文の執筆よりもコン テンツの単位分量当たりのコストが大きいだろう.しかし全体としては,単位時間に作ら れるコンテンツの見かけの量が減少するものの,新情報の実質的な量は増すだろう.それ に加えて前述のような再利用性の向上による生産性の増大も生ずる. -51- 4.1.4 実社会との相互作用 総合学術オントロジーが研究者の間や研究分野の間での相互作用を活性化し得るならば, それはまた研究コミュニティと一般市民との相互作用にも貢献するだろう.たとえば,オ ントロジーに基づく構造化を利用して,専門的な知識を初等的に表現して提示することが できれば,それはアカデミアの中での交流だけでなく,アカデミアと一般社会との交流に も資するはずである.検索や要約などのサービスに関しても同様のことが言える. Wikipedia は集合知の仕組みに基づくコンテンツの迅速な修正・拡張によってコンテンツ の質と量を向上させてきているが,それでもやはり質に関する問題があることは否めない. Wikipedia との比較における総合学術オントロジーの重要な特徴は,学会が品質管理をする ことによって信頼性を担保することと,2 次コンテンツ(既存の文献等の引用や要約)だけで なく 1 次コンテンツ(著者による独自の研究の成果など)も含みうるということである.特に 後者は Wikipedia との決定的な違いと言えよう.つまり,総合学術オントロジーが単なる 2 次情報の集約だけでなく研究のプラットフォームでもあることが,他のコンテンツの追随 を許さない競争力の源泉であり,また他のコンテンツとの連携を有意義なものとする根拠 である.Wikipedia の他にもさまざまな蓄積型の共有コンテンツがあり,総合学術オントロ ジーとそれらとの同様の連携を図ることは,それぞれの領域で研究コミュニティと一般社 会とを融合するというソーシャル e サイエンスの実践に当たる. 蓄積型でないコンテンツとの連携も考えられる.たとえば,総合学術オントロジーを Twitter と相互運用することにより,Twitter から日常的に得られる情報の分析に基づく何 らかのソーシャル e サイエンスが可能であろう.一方,Twitter をストック化することも考 えられる. Twitter はリアルタイムの「実況中継」によるテキストベースのセンサとしてきわめて有 用と考えられる.しかし,Twitter に参加している人々がそこで費やしている全体として膨 大な人的コストに見合うだけの知的な生産が Twitter の中で生じているようには思えない. 有用な知識を創出するには広い意味での科学(つまり仮説検証サイクル)が必要であり,それ はたとえば複数の参加者の間で仮説を出し合ったりそれを検証し合ったりする相互作用に よって実現されるわけだが,Twitter では議論の連鎖を辿りにくいためにそれが難しい.い や,もとより Twitter はそんなことをサポートするようには設計されていない.しかし,あ れだけ多くの人々が Twitter にかける時間は総じて莫大な量になるはずであり,それがほと んど知的生産に貢献していない(少なくとも,大いに貢献できる可能性が生かされていない) というのはいかにももったいない. Twitter に足りないのは,社会的に共有された形で議論を積み重ねるためのサポートであ る.そこで,オントロジーに基づいて Twitter のつぶやきの間を意味的な関係で結び,その 関係も含めて共有する,というようなことが考えられる.たとえば,140 文字以内の各つぶ やきの中に他のつぶやきとの関係(「賛同」, 「反論」, 「たとえば」, 「なぜなら」など)の情報 -52- をエンコードできるような Twitter のクライアントがあれば良かろう.それによって総合学 術オントロジーの中のグラフの形のコンテンツと連携させながら Twitter の中でもさまざ まな議論をグラフの形で明示的に共有することができるだろう.そうすれば,現在の Twitter の機能を損なうことなく,その上で多数の一般利用者を持続的な知識創造に参画さ せることができるのではないだろうか.おそらく Wikipedia との連携の場合よりもキメ細 かく,研究コミュニティと一般社会との相互作用の持続的な発展が期待される. 4.1.5 おわりに 学術研究を対象としてソーシャル e サイエンスを実践することにより,分野細分(タコツ ボ)型から分野横断・創発型の研究に転換して研究の生産性を高める進化的な方法を開発し たい.その一環として,多数の研究分野の間で情報基盤を共有することにより総合学術オ ントロジーを構築し,学術論文や解説記事のみならず,Wikipedia や Twitter などのコンテ ンツと相互連携させる.こうして分野間および学術と一般社会との連携・融合に関する仮 説をオントロジーに基づいて表現することにより,仮説検証サイクルを迅速に回す進化的 方法を実践する. 以上が総合学術オントロジーの構想の概要である.これまでのところはまだその第 1 歩 を記したに過ぎないが、少しずつ着実に進めて行きたい. 参考文献 [黒橋他 92] 黒橋禎夫,長尾眞,佐藤理史,村上雅彦:専門用語の自動的ハイパーテキスト化の 方法,人工知能学会誌, Vol.7, No.2,pp.336-345 (1992). [溝口 05] 溝口理一郎:オントロジー工学. オーム社. [長尾 92] 長尾 眞:辞書形式での専門分野の知識の体系的構成法, 人工知能学会誌, Vol.7, No.2, pp.320-328 (1992). -53- 4.2 人工物システム 事例研究 人工物システムとは、人工物にコンピュータシステム(デジタルシステム)が埋め込ま れたものと考える。データベースのようなソフトウェア中心のシステムもその中に含める。 このような定義に基づくと、ほとんどのモノは人工物システムに分類できる。家電は既に デジタル化している。車もマイクロプロセッサーで制御されている。ロボットも同様であ るである。電子行政サービスにおける各種書類も 1 つの人工物と見なすことが出来る。 2020 年頃を想定すると、クラウド・コンピューティング、ユビキタス・コンピューティ ング環境が整い、人工物システムも人間同様にデジタル社会の構成員として、人間とのコ ミュニケーションが必須の機能となる。勿論人工物システム間でのコミュニケーションも サブとして必要になる。コミュニケーションのためには、人工物システムが人間と情報交 換できるための言語知識を埋め込無必要がある。これが実現できると、新しい Web サービ スが出現する条件が整うことになる。例えば、ホームネットを考えると、そこには、情報 家電、PC、モバイル機器、ロボット、車等が相互に繋がる。また、ホームネットはホーム サーバ経由で外部とインターネットで繋がる。つまり、クラウド環境とホームネットが一 体となるシステムが出来上がる。このような状況で、産業版 GCP を開発すると、これらは ハイパー知識の情報交換が可能となり、これまでは、機械的な操作が中心であった機器と のやり取りが、自然言語に近い方で自然に行えることになる。図 4.2.1 に構成例を示す。 クラウド・コンピューティング 解析エンジン 変換エンジン クライアント ソーシャルネット 生成エンジン 言語交換サーバ ホームネット PC TV ホームサーバ エアコン Car 図 4.2.1 人工物システムのサービス構成例 -54- ロボット エコ制御 4.2.1 人間・人工物システム融合 Web サービスシステム階層 システムは、以下のような論理階層とし、産業版 GDP のサブセットとなる。 ① 言語交換サービスレイヤ ② UML レイヤ ③ SCL レイヤ ④ Ajax レイヤ ① 言語交換サービスレイヤ:サービス群のレイヤに位置し、今回は言語交換サービス を実行する。中心となるのは言語クラウドに基づく Web サービスである。 ② UML レイヤ:論理的なレイヤであり、Web サービスの設計図に相当する。これに 基づいて、具体的なサービスが設計・実装される。 ③ SCL レイヤ:スキーマとセマンティクスを記述する。ここには、スタティックな KB アーカイブ(コモンナレッジ、ドメインナレッジ)とセマンティック・コンピ ューティングのツールが蓄積される。Web4.0 のエッセンスとなるものである。 ④ Ajax レイヤ:Web サービスコンピューティング、クラウド・コンピューティング 環境のプラットフォーム。独自開発もあるが、既存の環境でもよい。アプリケーシ ョンのオープン度で異なる。Ajax のさらに下には、http や TCP/IP といった Web 共通の階層がある。 4.2.2 メッセージの交換 人間と人工物システムの情報交換のモデルを考えてみる。人間(クライアント)と人工物シ ステムは、双方向なコミュニケーションを行う。インターネットの上位プロトコルとして 設定されているとする。 クライアントから言語交換サーバに流れる情報は、 ① 送信者のアドレス(ID) ② 受信者のアドレス(ID) ③ メッセージの種別 ④ メッセージ本文 からなるとする。 ①、②のアドレスは URL やメールアドレス相当である。 ③のメッセージ種別は、a. 質問(相手から答えを求める)、b. 指示・命令(相手にある種 の作業・処理を要求する)、c. 伝達(相手に情報を伝える)に分類する。 -55- ④は自然言語に近いものである。 言語交換サーバは図 4.2.2 に示すように④を解析して受信側の人工物言語に変換する。解 析結果確認モードかオンかオフかによって、オンのときは解析した内容を送信者に戻し、 送信者からの了解が得られるまで受信者への送信は待ち状態となる。オフのときは、解析 結果が正しければ受信者に送信する。この時点では人工物言語が流れる。受信側では、そ の人工物言語を解釈してプログラミング言語レベルの機械語に変換して、内部処理を行う。 同様に受信側からクライアントにもメッセージが流れる。 クライアント 人工物システム 言語交換サーバ 自然言語相当 人工物言語相当 図 4.2.2 言語交換サーバの役割 4.2.3 具体例 メッセージ交換を開発するときの一般的な手順を示すために、テレビを例題に説明する。 先ず、テレビに対して図 4.2.3 に示すようにユースケースを作成する。これはテレビがサポ ートする機能に依存するが、概ね以下のような機能(サービス)を実行することが出来るとす る。それをより具体化するために、図 4.2.4 のようにこれらの機能をクラスと見なして、そ の属性及びメソッドを作成する。各クラスは、サブクラスに分割される。 例えば「PC と繋ぐ」機能では、PC のファイルの中のビデオ映像を TV で再生すること、 PC のテキストファイルやメールを TV で表示すること、PC 画面を TV に映すこと、逆に TV の映像を PC で表示すること、TV で録画したものを PC のディスクに保存すること等 からなる。 具体的な作業は、これらの機能に相当する人工物システム言語(TV のオントロジー)を定 義することになる。人工物システム言語で記述された語彙から TV の機械言語への変換は、 そのオントロジーに記載されメソッド相当を利用することになる。機械言語はプログラミ ング言語相当とする。 処理プログラムは、③メッセージの種別に依存する。質問であれば、データベースへの 問い合わせになり、指示・命令であれば機械語を実行する。伝達は、伝達内容によって必 要なところにデータをセットする。例えば、番組検索であれば、番組表 DB を開き、それ に対して、意味的な検索 SQL を発行する。 処理プログラムの結果は、クライアントに返答する必要があるが、テレビ側は、応答メ ッセージに相当する人工物言語のテンプレートに該当するデータを書き込んで、言語交換 サーバに戻すことになる。 -56- 図 4.2.3 人間と TV のユースケース 図 4.2.4 TV オントロジーのためのクラス図 -57- 4.2.4 ユーザインタフェース クライアントが人間の場合は、PC やモバイル端末が Web サービスインタフェースを分 担する。そのため、ブラウザーが代行することも可能である。そのときは、ブラウザーの プラグインとして実装する。iPhone のようなモバイルでは、独自のインタフェースを設定 する。 具体的には、図 4.2.5 のような画面になるであろう。メッセージの宛先と差出人、メッセ ージタイプ、メッセージ電文である。メッセージでよく使われるもの(例えばテレビ番組検 索等)はシステム側からガイドするようにすると全文を入力する必要はない。 宛先 URI、メールアドレス的なもの 差出人 メッセージタイプ 伝達の意図を明記する。質問、命令、伝言等 メッセージ:(例) 日本語の文章で、余り長くないもの。この 20 時の、8 チャンネルの洋 文章の複雑性や使用する語彙については、 画を録画して、B の HD に 相手の知識レベルに対応したものを使う。 格納しておくこと。 相手が理解できない概念を使用すると、意 味不明で戻ってくる。 結果の表示画面は、別レイアウトになる。 解析 送信 削除 図 4.2.5 モバイル端末からの利用イメージ 4.2.5 言語交換サーバシステムの有効性 大量のリンク付データとセマンティック Web 技術が実装された Web3.0 と呼ばれるもの を含めて、現状の Web サービスと比較してその特長を明確にすることで、このシステムは Web3.0 には存在しない機能、サービスを提供することが可能になる。 先ずコンテンツを構成するデータ表現を比較すると、RDF ベースのリンク付トリプルデ ータに対して、CDL は概念ベースの意味ネットワーク構造を持ったコンテンツであること。 これは、そのサブセットとしてリンク付データを含んでいる。また、セマンティック Web 言語 RDF、RDFS、OWL に比較して、CDL は同等以上の言語記述能力を持っている。CDL はメタな言語であるためそれは XML レベルと同等であるが、CDL.nl や CDL.il 等は RDF や OWL にはない自然言語指向の表現形式である。これは、デジタル社会を実現するための 基本課題である一般のユーザ(国民)にとって使いやすいという必須の条件を満たすのに -58- 適している。但し、図表を用いて分かり易くするという方法も考えられるが、図表だけで は意図を十分表現することは困難である。日常的な言語により、自由度のある表現方法は 自然言語及びそれに類似の言語がベストであろう。RDF や OWL で CDL.nl も CDL.il も記 述できるが、CDL のメリットはそれが構文的に全く同じ構文であることである。 CDL 表現された言語は、Web3.0 のセマンティックサーチや推論といったこと以上に、 文意を解釈する機能を持っている。これは、セタバイト問題(大量に溢れたデータ群から 所望のデータを如何に発見するのか)、スマートフォン問題(画面に入りきらない大量のア プリケーションメニュー)を解消してくれる切り札となる。他方、CDL の持つセマンティ ック表現技術による人工物システムとの会話といった新しいコミュニティをもたらすこと で、高齢化社会にとって重要な技術となる。 以上のような言語的な優位性を前提にしてどのような効果的な応用が可能であるのかを 以下に幾つか示そう。 4.2.6 人工物システム適用事例 言語クラウド下の人間・人工物システム融合のアプリケーションの幾つかを図 4.2.5~ 4.2.7 に示す。それぞれが大小さまざまな開発となり得るので、詳細は今後の検討課題であ る。各図の右側の箱は人工物システムのコンポーネントである。 (1) ホームネット言語交換サービス 情報家電の延長線上のシステムであるが、SCL を情報交換の基盤としているため、従 来の情報家電のコミュニケーションに比較して、高次なアプリケーションが構築できる。 このサービスでは、スマートグリッド、スマートロボット、スマートカーも含めて一体 となる。これは国が進めるスマートハウスの言語コミュニケーションとして有効である。 (2) パブリック言語交換サービス:電子行政サービスの高度化、ワンストップ化 今後のデジタル社会において必須となる電子政府支援システムを当面のターゲットと する。これを仮に「パブリックサービス」と呼ぶ。狭義に電子政府や電子行政ではなく 自治体の公共サービス(健康、教育、文化、スポーツ等)等も含んだ広いものである。 日常的な言語をコミュニケーションとして利用できるため、一般国民に適したインタフ ェースとなる。 (3) Enterprise 版言語交換サービス 企業内クラウドと連携したもので、企業内ネットワークをフルに活用してオフィスの生 産性向上を図る。オフィス機器、社内デジタルシステムの有機的なセマンティック・コ ンピューティングを容易に実現できる仕組み。 -59- (4) 中小企業向け言語交換サービス構築支援プラットフォーム 中小企業においては、独自にデジタル化を新規開発することはコスト的に難しいことで ある。しかし、グローバル化の状況において、Web サービスを利用できない企業は経 営的に競争力を弱める。クラウド・コンピューティングはそのようなハンディを解消で きるシステムであるが、あくまでもサービス環境であり、具体的なサービスは独自に設 計しなければいけない。これをアウトソーシングすることでは、やはり同じようなハン ディがある。ここで提案する言語交換サービス構築支援プラットフォームは、従来の開 発に比較して共通に利用できるライブラリが豊富に提供されること、設計開発が上位レ ベルでマクロ的に行えること等で開発期間の圧縮等のメリットがある。 (5) 言語交換サービス開発支援プラットフォームの開発 開発支援ツールとしての応用である。現在のシステム設計において UML という言語モ デルが広く利用されているが、これを CDL と連携して記述することを行う。そうする ことで、CDL ベースの Web サービス開発が UML ベースのシステム開発と同じように 記述できる。UML は開発の文書化としての役割が中心であり、実装するときの開発言 語としては利用不十分である。CDL は開発まで含めてセマンティック・コンピューテ ィングの機能を維持することが可能である。これによりシステムの再利用やシステムの ロバストな設計、開発が可能になる。これを言語交換サービス開発プラットフォームの 基盤システムとする。この開発プラットフォーム上で、具体的な人間・人工物システム 融合 Web サービスの開発と実験を行う。 -60- [コンポーネント] ユーザ ユーザ ユーザ ユーザ 認証 言語交換サービス 電子行政、電子私書箱 電子診断、電子ハローワーク 電子納税、 電子自治体、 図 4.3.5 パブリック言語交換サービス ・ ・ ・ [コンポーネント] ユーザ ユーザ ユーザ ユーザ 認証 言語交換サービス 総務・経理 営業 製造 研究開発 図 4.3.6 Enterprise バージョン言語交換サービス -61- ・ ・ ・ [コンポーネント] ユーザ ユーザ ユーザ ユーザ 認証 言語交換サービス 中小企業向け ICT 基盤、 e-ビジネス、SaaS 海外投資、企業連携 イノベーション・人材育成 ・ ・ ・ 図 4.3.7 中小企業向け言語交換サービス構築支援プラットフォーム -62- 5. 社会経済への波及効果 5.1 経済的効果 産業版 GCP が社会経済にどのような波及効果を与えるのか。2009 年 12 月に発表された 政府の「新成長戦略」によると図 5.1.1 のように 4 つの柱が掲げられており、そこから第 3 の成長の道として、100 兆円の「需要創出」による成長目標を掲げている。産業版 GCP は プラットフォームであると共にアジアをはじめとする産業のグローバル化に貢献するサー ビス群を提供することで、新たな需要を創造し、社会経済の活性化を目指している。 産業版 GCP 図 5.1.1 政府の新成長戦略と産業版 GCP の位置づけ 市場規模の議論は、最近政府の次世代クラウド(スマート・クラウド戦略)や次世代エネル ギー・社会システム(スマート・グリッドやスマート・ハウスと関連する)の議論と連携 したものである。特に産業版 GCP は、「スマート」に相当するところを「情報のセマンテ ィクス化」で分担する。スマートグリッド等では「情報の見える化」という表現が使用さ れているが、 「情報のセマンティクス化」、「情報の知識化」は「情報の見える化」ための情 報源を担うものである。これにより、システム及び人間は高次な意味情報に基づくサービ スを利用できるようになる。従って、産業版 GCP はクラウド・コンピューティングやスマ ートグリッドの知的情報ネットワークの基盤となるものと考える。 4.2.6 では、産業版 GCP に関連する 5 つの事例を上げた。そのいずれもクラウド・コン ピューティング基盤や次世代ネットワーク基盤が前提となっているため、波及効果を考え るとき、国内市場だけではなく、国際的な観点で考える必要がある。特にアジア地域との 連携は重要な課題である。 5.1.1 クラウド・コンピューティングの市場規模 クラウド・コンピューティングの市場規模は、スマート・クラウド研究会の中間取り まとめ(案)では、SaaS、PaaS、IaaS に分けて表示しているが、2009 年で 3900 億円(SaaS が 64%)、2015 年では、現在の 4 倍となる 1 兆 8100 億円と予想している。更に、新規開 -63- 発のスマート・クラウドサービスの普及や基盤整備により、4000 億円から 5000 億円の市 場の拡大を予想している。 5.1.2 産業版 GCP サービスの市場規模 産業版 GCP サービスは、種々のサービスが開発されるため、現状で市場予測を総括する ことは難しいが、考え方として、以下のような式になる。 Σi(Si サーバ市場+Si サービス市場) ここで、Si は国内だけではなく産業版 GCP サービスに参加する国毎の市場を加算したも のである。 参考として、AdMob 社が 2009 年 8 月に発表したアップルの App Store と Google の Android Market の市場は月当たり、2 億ドル対 200 万ドルである。 http://metrics.admob.com/wp-content/uploads/2009/08/AdMob-Mobile-Metrics-July-09 .pdf 年間では、2,000 億円になる。また、任天堂の 2009 年 3 月期の連結売上高は 1 兆 8,386 億円であり、海外売上高比率は 87.5%である。 以上の市場規模から推測すると、産業版 GCP サービスを全て加えればこれを上回ること は可能であろう。人工物システムの事例は、生活ロボット、デジタルスマートカー、スマ ートホームサーバ等があり、今後も新しいグローバルビジネスが次々と創出される。 5.1.3 開発支援プラットフォームによる技術者の雇用促進 産業版 GCP サービス開発支援プラットフォームは、産業版 GCP サービスの開発のため のプラットフォームであり、共通基盤的な要素とサービス固有の要素がある。共通基盤は、 オープンソースソフトウエア OSS とすることを考えている。その理由は、産業版 GCP は 元々グローバルな性格を持っており、国際的な規格の統一が必要になる。従って、各国の 技術者が協力できる環境にすることで国際標準を目指すことがその後の事業推進に効果的 だと考える。OSS 下の開発は、参加する若手技術者の育成に貢献する。 サービス固有のオントロジーやロジックは、それぞれのサービス提供会社が開発するも のとする。これは、プラットフォーム上で開発することが可能にする。 5.2 社会的効果 産業版 GCP は Web の知識革命を惹き起す。この意味は、Web コンテンツとして知識情 報・言語情報が流通するということと、コンピュータがその知識を理解するということで ある。これは、これまでのコンピュータよりの Web コンテンツとは質的に異なるもので Web4.0 といえる新世代の Web に分類することになろう。(2.5 参照) Web4.0 時代は、Web コンテンツが人間にとって自然言語という日常言語でアクセス、処 理できることを意味する。それまでの Web では受け付けられないインタフェースであった。 -64- Web4.0 の開発が完了すると、人工物言語や機械的な操作を不得手とするコンピュータリテ ラシーを持たない多くの社会構成員にとってエポックといえるものになり、クラウド・コ ンピューティングやユビキタス・コンピューティングが、日常の社会生活に溶け込む基盤 を与える。以下、その幾つかを例示する。 (1) Web コンテンツの安心安全の確保 コンピュータが情報内容を理解判断することで危険・有害な情報をシャットアウトす る技術に利用できる。例えば、電子メールにおいても、単にキーワードで排除するの ではなく、記述内容を理解判断することでそのような内容のメールを分類、排除する ことが可能となる。 (2) 教育の質の向上 総合学術オントロジーの項でも記述しているように、科学技術の知識が従来の平坦な テキストの蓄積ではなく、オントロジーという人工知能時代の語彙セットで記述され るもので、単に、科学技術の理解促進に効果があるだけではなく、仮説検証の仕組み による科学研究そのものを質的に変革させ、新しい科学の誕生を促進させる。また、 オントロジー記述の科学研究は外国人とのコミュニケーションも加速させる。 (3) 産業活動の生産性向上 産業活動におけるドキュメントの重要性は、契約書、仕様書、マニュアル、特許文書 等において顕著である。特にグローバル経済の下では、迅速で正確なドキュメント処 理が求められる。そのような目的のために、 「産業日本語」の推進が叫ばれているが、 産業版 GCP はそのためのプラットフォームとなる。 (4) 世界最高の ICT リテラシー国家を目指して e-Japan 計画では、我国を世界最高のブロードバンドネットワークの大国にするとい う目標を掲げて、計画通り目標が達成された。次なる重要な課題は、様々に張り巡ら されたインターネットで通信するコンテンツの水準を世界最高のオントロジーに基 づく言語基盤づくりである。これにより、我国の抱える少子高齢化や教育医療等の社 会問題をスマートに解決することが可能となる。また、電子政府等にも必須のヒュー マンインタフェースである。この成果は国際貢献に直結する。 -65- 6. 提言 【産業版グローバルクリエイティブプラットフォームの開発プロジェクトの提案】 6.1 基本的考え方 情報技術の進展に伴い、その利用環境は多種多様な要素、要求、社会への適用を迫られ ている。そこでは、人間の持つ高度な情報処理能力に倣った機能をある程度備え、多様な 処理能力を持った情報基盤を設計し、実現し、運用していくことが必要となる。その中核 となる技術は、Web技術と自然言語技術を融合させたものであり、それに基づいた次世 代情報技術を支える情報基盤を作り、世界をリードする。これは、究極的なWebOSに なる。 知的、創造的なセマンティック処理技術を駆使して情報基盤を実現し、次世代情報社会 の様々な側面に対応していく。 既にみられる多様なサービスへの要求、機器、メディア、 文化 などの多様性に十分対応できる情報基盤にもなる事を目指す。 これは、自然言語処理技術とWeb技術が中心であり、その融合化が重要な課題となる。 Global Creative Platform (Web OS) Web 技術 自然言語技術 -66- そこで、情報処理システムの基盤となる共通言語 SCL(Simplified Common Language) を中心に置き、そこから導出する自然言語系(たとえば Simplified Japanese)と、情報シ ステムへの指示を記述する各種人工言語系(たとえば、各種マークアップ言語)を実現し、 従来不足していたセマンティック処理能力を大幅に向上させた情報基盤を構築したい。こ れは、Web OS というにふさわしい構造と機能を持つ。Web OS は、これからの情報環境の 傾向となるユーザ側の小型化(例えば、センサー、携帯、ICカードなど)と、バックエ ンドの大型化(クラウド、グリッドなど)を仲介する基盤として重要になり、必須のもの となる。 6.2 技術的背景 これに関する技術的背景は、次の通りである。 一つは、自然言語技術の蓄積が日本にあり、それは世界でもトップレベルであり、日本 の優位性を示しながらその利用を強化する事が出来る。具体的な例として以下のものがあ る。 ISeC (Institute of Semantic Computing)のメンバによる以下の研究 ○CDL,UNL,CWL など ○CDLをベースとしたSCL(Simplified Common Language)を中心にし、そこか ら自然言語系と人工言語系を導出する。 ○産業日本語研究会-総務省系 – もう一つは、Web 技術の進展が徐々に進んでおり、そこに寄与することである。 4.0 へのアプローチ ○Web ○Webの生成とその操作を、統一的言語体系の中で行う。 ○メタデータの自動抽出-SCLから導出した Simplified Japanese により可能と なる。 ○LOD(Linking Open Data)も大幅に利用出来る。 ●メタデータの補強が可能。 ●オープンな知識ベースを大幅に充実する事が可能となる。 -67- Web 操作 Web 生成 Intelligent Communication LOD (Linking Open Data) Search Engine Simplified English Simplified Japanese Inference Engine Meta Data 自動抽出 Universal Ontology SCL (CDL) -68- Artificial Language (HTML) XML XBRL BML etc. 6.3 グローバルクリエイティブプラットフォームの効果 このような知的なセマンティック処理を備えた情報基盤により、以下のようなアプリケ ーションが強力に展開出来る。 ① 多種多様なフィルタリング機能を備えた安心、安全なネットコミュニティの構築 ② 多レベルのユーザ能力に対応出来る情報サービスの提供(例えば高齢者などへの優しい 情報環境の提供) ③ 多様な機器(センサー、家電、ICカード、携帯、電子ブックなど)の取り込みが容易 な情報環境(ユビキタス環境)の構築が容易 ④ 多メディア(音声、画像、映像、3Dメディアなど)への対応が容易な情報環境の実現 ⑤ 多言語(グローバル展開に必須)が混在する情報環境の実現 このような情報基盤は、現在利用されている Windows 系、Unix系、Apple 系の 個別OSでは実現できない。 多レベル ユーザ 多種 フィルタ リング 多種類 機器 Global Creative Platform (WebOS) 多種 メディア 多言語 -69- この情報環境における具体的な事例を幾つか示す。 適用事例(1) 各種フィルタリングによるの安心、安全なネットコミュニティの実現 ●Spam mail の最適な遮断 ●有害情報の最適な遮断ー子供の保護 ●Privacy の保護 ○SNS,Twitter,YouTube,UStreamなどの有用な コミュニケーションツールの安全化 ○安全なネットコミュニティの構築 ●安全なネットビジネスの支援 ●詐欺行為の防御、金融取引の安全化など 適用事例(2) Creative な検索 ●知的な検索の実現 知りたい事を過不足なく探し出す ●多言語環境での検索 多種類の言語空間での適切な検索 表面形式でなく概念形式での検索 適用事例(3) 電子政府支援 ●多種類の電子政府サービスの融合化支援 ●多機関、多組織間のスムーズなコミュニケーション 中央と地方の間のコミュニケション ●国民(ユーザ)へのサービス向上 ○分かり易い使用方法 ○分かり易いユーザインタフェース ○種々の機器の融合的サービス 適用事例(4) 企業情報、産業情報 ●企業コミュニケーションの支援 ○企業内SNS,Twitter などの効果的使用 ○異種業界間のコミュニケーションの支援 -70- ○グローバル企業のコミュニケーション支援 ●ビジネス戦略の設計、評価の支援 ●知的ベースの支援 適用事例(5) 多種の機器の処理環境 ●センサーネットの利用、センサー探索 ○Health service、Medical service ○Ecological measurement ○Agricultural Service ●RFID の効率的利用 ○決済支援 ●携帯機器の効率的利用 ●電子ブック 適用事例(6) 画像、映像などへのメタデータ ●3Dメディアへの対応 ●多種メディアへの対応 6.4 プラットフォームの意味づけ グローバルクリエイティブプラットフォームは、将来の情報環境の中で以下のような意味 を持っている。 高度な情報技術を実際に効果ある適用を進めていくためには、総合的なプラットフォー ムの構築と、そのオープンな利用促進が鍵となる。 プラットフォームの背景には、以下のような課題がある。 ●WebOSを目指す。 ●エンドユーザ側の簡易化、バックエンド側の強力化の傾向に沿っている。 ●ネットワークとの強力な連携と一層の融合化が必要になる。 ●ネットワーク時代、大量の情報時代、情報技術のエンドレスな拡散の時代 におけるエンドユーザの負担の軽減が必要になる。 このような課題を解決するためには、新たなプラットフォームの設計、実現、普及が必 要となる。例えば、そのようなプラットフォームを仮にWeb -71- OSと呼ぼう。 WebOSの意味づけは、以下の通りとなる。 ●エンドユーザ側の簡易化、バックエンド側の強力化の傾向に沿っている。 ●ユーザの持つ機器に搭載するOSは、なるべく軽くし簡易化し、重要な機能は Webを介したバックエンドの機能を利用する。 ●ユーザへのサービスを強化する大容量の情報は、Web上のものを利用出来るの で、知的な管理、制御などが可能となる。 ●Web上の機能は、いつでも強化、追加出来る。 ●現在の個々のOSでは実現できない。 Web 空間 個別ユーザ Web OS 6.5 プラットフォームの構成とその開発 目指すべきグローバルクリエイティブプラットフォームは、以下のような構成となる。 ●各種エンジン ○検索エンジン ○推論エンジン ○メタデータ抽出エンジン ○フィルタリングエンジン ○コミュニケーションエンジン ○翻訳エンジン ○高速ネットワークエンジン ●知識ベース ○各種のLODの整備 ●ユーザサービス ○ユーザインタフェース -72- ○オーサリングツール ○インテリジェントフィルタリング ○多言語支援 全体の開発計画は、以下の通りとなる。 -73- 以上のグローバルクリエイティブプラットフォームの開発プロジェクトにより、以下のよ うな効果がもたらされる。 ●現在のクラウドコンピューティングは個別対応となっているが、WebOS的アプ ローチにより、誰でも利用可能な強力な情報環境を提供出来る。 ●セマンティック処理による知的、厳格な処理、サービスが可能となる。 多言語環境 への対応が柔軟に出来るので、グローバル化社会に適した情報環境を提供出来る。 ●多種、多様な要求に柔軟に応えられるの、ユーザにとっては、優しく安全な情報環 境が実現出来る。 -74- -禁無断転載- 知的コンピューティング基盤技術の普及支援に関する調査研究 (人間・人工物システム融合 Web サービス) 平成 22 年 3 月 作 成 財団法人 ニューメディア開発協会 東京都文京区関口一丁目43番5号 委託先名 株式会社アライヴ 東京都港区麻布十番二丁目5番2号 特定非営利活動法人セマンティック・コン ピューティング研究開発機構 東京都渋谷区神宮前五丁目53番70号