Comments
Description
Transcript
pdf
平成25年度大学院 Webインテリジェンス論 やまぐち たかひら 山口 高平 居室:慶應義塾大学矢上キャンパス 24-619A (14-506) 内線:42673 電話:045-566-1614 FAX; 045-566-1617 メール:[email protected] Web: www.yamaguti.comp.ae.keio.ac.jp 1 授業内容と授業計画,講義資料,成績評価 授業内容 人工知能(AI)に関する基礎を学んだ後、AIとインターネットを融合した 「セマンティックWebとオントロジー、リンクドデータ」について学ぶ。 また、ゲストスピーカを招いて、AIの研究開発とビジネスについて学ぶ。 授業計画 ①4/09 ガイダンス,人工知能の歴史 ②4/16 エキスパートシステム ③4/23 知識獲得 (※次週の4/30は月曜代替日) ④5/07 知識モデリング ⑤5/14 セマンティックWeb概論 ⑥5/21 RDF/RDFS/OWL ⑦5/28 オントロジー開発プロセス 6/04 休講(人工知能学会全国大会出張のため) ⑧6/11 オントロジーエディター Protege ⑨6/18 LOD&LOD演習Ⅰ ⑩6/25 LOD演習Ⅱ ⑪7/02 ゲストスピーカ(エージェント) ⑫7/09 ゲストスピーカ(GoogleとAI) ⑬7/16 まとめ 講義資料:pptやpdf資料をWebに掲載 www.yamaguti.comp.ae.keio.ac.jp 成績:レポート3回程度で評価 2 人工知能(AI)の歴史 3 AI研究とAIサービス 知識型AI 計算型AI 1997 AIチェス 2012 AI将棋 Deep Blue ボンクラーズ コンシェル ジュAI 2011 SIRI by Apple 2013/4/8 2012 AI囲碁 Zen 2011 クイズAI ワトソン by IBM 意味検索AI 2012 Knowledge Graph by Google.com 2012 東大入試AI by 情報学研究所 業務支援AI Cognitive Computing by IBM 4 入試AI 小説AI (日経新聞2012/11/11) 2013/4/8 5 AI(Artificial Intelligence,人工知能)? 認知科学的 アプローチ 工学的 アプローチ 人の知能を内部構造 (振る舞い、機能、(情報)構造) から理解する 内部構造はnot care 振る舞い中心 Like or Over human beings 1956年 ダートマス会議 ↑ • • • • • • • John McCarthy (LISP) Marvin Minskey (フレーム理論) Shannon (情報理論,チェス) オートマトン≠人工知能(AI) AI:人間のような知的な動作を機械にさせるには? GPS (General Problem Solver) 探索の研究 A*アルゴリズム 7 1965年~ AIの3大エポック 推論 導出原理:拡張三段論法 J.A.Robinson 1972:Prolog処理系 1982~1994:第5世代コンピュータ(日本、通産省) 知識 DENDRAL:スペクトラム分析→分子構造 ファイゲンバウム(スタンフォード大学) 一つのアプリケーションにしかすぎない,汎用性 対話 人工無能 ELIZA パターン照合で結構対話できる 推論の時代→ Toy Problems AI冬の時代へ ELIZA • 入力された文章にあるパターンが含まれているか調べ反応 • 会話を理解しているように見せかける,はぐらかす – ELIZAとの対話における「意味」は,人間から与えられるか用意され た限られた数の反応のどちらか • 事前に用意された定型的な表現の中から応答 • 俺にはみんなが俺を笑っていることはわかっていたんだ → 特に誰のことを考えていますか? • キーワードが見つからない場合 → なぜそう思うのですか? • これらの対話は非常に限定された局面でしか通用しない – 精神病の治療面接 • 対話において、話し手の一方が、実際の世界について 殆ど何も知らないというポーズをとっても構わない数少ない例の1つ 人工無能デモ http://www.simsimi.com/talk.htm 2011 SIRI by Apple 1970年代:冬の時代 ↓ 1980年代→知識工学 ↑ • HPP:Heuristics Programming Project 完全ではないがたいていの場合うまくいく知識や方法 • MYCINプロジェクト(1973~1976) • • • • MYCIN,TEIRESIAS,GUIDN,EMYCIN 知識表現、知識利用、知識獲得→知識工学 There is power in the knowledge ! (1977) by Feigenbaum 1980年代→知識の時代へ エキスパートシステム,自然言語・画像・音声理 解システム,知的教育支援システム,... 国家プロジェクト,AIハード・ソフトベンダー 10 Machine Intelligence 1956年:ダートマス会議(汎用知能,探索,チェス,定理証明) 1965年:推論(演繹)→Toy Problem 1970年代:AI冬の時代へ 1980年代 : Knowledge is Power! (ファイゲンバウム教授,スタンフォード大) 知識工学,エキスパートシステム知識表現、知識獲得,知識の利用(推論) 説明 機能 知識 ベース 推論 エンジン 知識 獲得 作業 領域 (専門家) ユーザ 対話 I/F デモ1:対話デモ(Eliza, 人工無能) デモ2:献立支援ES 11 ナレッジナビゲータ (アップル社の唯一のコンセプトビデオ.1987年) 英語 http://www.youtube.com/watch?v=dyFpu0P4Wek 英語(日本語字幕) http://pantani.cocolognifty.com/wannabe/2008/08/iphone_6_knowle_9799 .html 日本語吹替 http://www.youtube.com/ watch?v=yc8omdv-tBU&feature=related 12 1990年代:知識獲得ボトルネック 知識(ルール) →ESが専門家代行という過大な期待. 知識ベース開発のための知識獲得は大変だ! 通産省:第5世代コンピュータ(1982-1994)の失敗? →推論マシンに特化しすぎ.知識が余りにも不十分. 1990年代: 大規模知識ベース,大規模辞書プロジェクト CYC, EDR, WordNet(フリーなので現在も広く使われる) でも,あまり変化しない静的知識だけ.現実には動的知識が 多い.使えないなぁ.AIブームは完全にさめて下火へ 1997年:Deep Blueがチェス世界チャンピオンに勝利. でもゲームだよね.閉じた問題,整構造問題だからできるんだ. 13 2000以降 CPUの高性能化 • コンピュータのH/W=中央演算処理装置(CPU) +主記憶装置(メインメモリ)+補助記憶装置+入力装置+出力装置 • CPU: Central Processing Unit 1990年代前半: 300MHz →スーパーコンピュータ(数千万円) 現在:10万円程度のデスクトップパソコン インテルCore i7(6コア)3GHz ムーアの法則 2年間でトランジスタ数が1.5倍 (2倍という解釈もあり) 1971年: 4040プロセッサー トランジスタ数 2300個 2011年: 210×210×210=10億個 CPU開発の歴史:インテルミュージアム http://www.intel.com/jp/intel/museum/index.htm もうすぐムーアの法則が成立 しなくなる?なぜ? 2000以降 HDDの普及と利用拡大 ※HDDベンダーのシェア: Western Digital 31.3%,Seagate 30.3%,HGST 17.2%, 東芝 10.9%,Samsung 10.3% ※昔は大企業しかDBを持てなかったが,中小企業, 個人レベルでTB単位のデータを蓄積・分析可能 ※データマイニング(大量データから規則性の発見) ①米国ウォールマートが購入された商品分析 日曜日,既婚若者男性,購入商品組合せ 缶ビール-(?) ②10年前,日本のスーパーマーケットで, 右図の商品配置は非常識? 2000以降 情報大爆発の時代 Z(zeta:ゼタ)=10の21乗 E(exa:エクサ)=10の18乗 P(peta:ペタ)=10の15乗 T(tera:テラ)=10の12乗 G(giga:ギガ)=10の9乗 M(mega:メガ)=10の6乗 K(kilo:キロ)=10の3乗 インターネットに保存されているデータ量は? 2011年:1ZB 2012年:1.7ZB http://japan.emc.com/leadership/programs/digital-universe.htm 2009年度 流通情報量 7.6 ZB(7600EB) 消費情報量 0.29 EB (0.004%のみ利用。99.996%はスルー) 総務省「情報流通インデックス研究会」報告書の公表(平成21年7月13日) http://www.soumu.go.jp/menu_news/s-news/16188.html 2003年 QA Challenge !(1) IBM PIQUANT • 2003~ IBM,PIQUANT(Practical Intelligent Question Answering Technology)プロジェクト ★チェスのような閉じた問題ではなく、事前に分からないクイズ に解答するという開いた悪構造問題に挑戦することがポイント 深い論理形式分析と浅い機械翻訳ベースのアプローチを統合 でも、この難しい問題にチェレンジするには、AI技術が未熟で、 マシンパワーも不足して、大きな成果はあげられずに終わる。 17 2011年 QA Challenge ! (2) IBM Watson ・IBM Deep Question Answering Project (ジョパディで,ワトソンがチャンピオンに挑戦して勝利) Open-Domain Question Answering PIQUANTから時代が進み,技術が成熟、マシンパワーが拡大 18 IBM Watsonの概要 ★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。 自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成, 仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど, 100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。 ★展開性: 医療、金融、行政、マーケティングにも適用可能 19 人工知能+インターネット 20 Big Picture for Semantic Web (2001) 21 http://www.semanticweb.org/about.html#bigpicture 22 RDFモデルによるLinked Open Data(LOD) • LOD規模:5億トリプル(2007) ⇒2011年9月時点で310億トリプルに増加 メディア DBpedia Wikipediaから構造化されたデー タを抽出、RDF形式で提供 行政 地理 ・データ自体がリンクしている ・情報の公開、共有が容易になる 出版 生命科学 ・第三者によるサービス開発の促進に繋がる 情報流通基盤として期待が集まる 23 RDB vs RDF RDBの場合 id 企業名 住所 EDINET コード 1 ソニー株式 会社 東京都港 区港南1 丁目7番1 号 E01777 RDFの場合 会社マスタ 緯度・経度のカラムを追加 id 企業名 住所 EDINET コード 緯度 経度 1 ソニー株 式会社 東京都港 区港南1 丁目7番1 号 E01777 null null 緯度・経度のデータを挿入 id 企業名 住所 EDINET コード 緯度 経度 1 ソニー株 式会社 東京都港 区港南1 丁目7番1 号 E01777 35.63120 7 139.7435 2 スキーマ変更の手間が少ない 24 →LOD自体の拡張も容易 オントロジー 歴史 上の 身分 神 建築 物 分け方 ①言葉(概念) 分類階層木 農民 武士 ②言葉(=固有表現、 具体物)ネットワーク 日本 の城 本蓮 寺 建立 主君 妻 織田 信長 墓所 生誕 濃姫 創建年 宗派 本能 寺 天文3年5月12日 2013/4/8 日本 の 寺院 岐阜 城 豊臣 秀吉 人・もの・ こと分析 日本 の神 宗派 創建年 1347年 法華 宗本 門流 1415年 25 WordNet 26 Wikipediaを人から人工物へ 人間には,ウィキペディアの内容 (意味)が判るけど人工物 (コンピュータ,携帯,ロボット...) には判らない Wikipediaからオントロジー(言葉階層木, 言葉のネットワーク)に自動変換して,人 工物に言葉の意味(Sense)を理解させる →日本語Wikipediaオントロジー 27 クラス-インスタンス関係 プロパティ定義域 プロパティ値域 トリプル 日本の映 画作品 鼻 Is-a関係・プロパティ上位下位関係 日本 蜘蛛の糸 小説家 羅生門 日本 クラス 国籍 人物 文化 作家 文学 明治大学 の人物 配偶者 日本史 の人物 日本出身 の人物 存命人物 プロパティ 著作 文庫本 子供 インスタンス 塚本文 親族 東京都出 身の人物 時代小説・ 歴史小説 作家 小説家 職業 家族 死没 俳人 津田青楓 芥川龍之介 門下生 文化活動 夏目漱石 最終学歴 日本の 小説家 芥川貴之志 こゝろ 誕生 職業 短編小説 小説 坊っちゃん 日本の 小説 ジャンル 日本の 大学 作曲家 芥川也寸志 代表作 明治の 人物 オペラ 作曲家 28 東京帝国 大学英文科 日本のクラ シック音楽 の作曲家 知能ロボット SHRDLU (Winograd ‘70) • 代名詞や名詞群の意味を会話の文脈によって決定で きる • ELIZAは特定の単語を記憶しているにすぎないのに対し、 SHRDLUは文章全体を保存 • 積み木という非常に限られた世界において, 対話と動作の融合を実現 – 照応解析,過去の行動に関する情報,仮想的な世界 における動作へ展開 • Pick up a big red block • Find a block which is taller than the one you are holding and put it into the box • What does the box contain? • How many blocks are not in the box? SHRDLUの積み木の世界 インテリジェンス・ダイナミクス • 作りこまない知能 – ロボットが環境とのインタラクションを通して自己を発達さ せる • 認知・発達機能をロボットで実現することで,人間の知能を 解明しようとする【認知発達ロボティクス】と共通したアプローチ – 動作を作りこむのではなく,発達することによって人間を 惹きつける • 人型ロボットQRIOによる実験 • RNNPB (Recurrent Neural Network with Parametric Bias) – 人間が教示したベルとボールの取り扱いを学習 – 実世界のノイズや不安定性にも関わらず,安定してベル を鳴らしたり,ボールを動かせるようになる – 明に示した動作だけでなく,中間的な動作の発現 知能ロボットの分類 アシモ Bigdog (移動型ロボット:運動能力) アイボ パロ (ペット型ロボット:癒し) http://paro.jp/?page_id=247 http://www.youtube.com/watch?v=W1czBcnX1Ww パペロ 石黒教授 ジェミニ (アンドロイドロボット:見た目) http://www.youtube.com/watch?v=QMEXBWJDUMk ifbot ワカマル コミュニケーションロボット NAO 最近のセマンティクサービス コンシェル (商品化) QA (研究) ゲーム (研究、 商品化) 33