...

pdf

by user

on
Category: Documents
11

views

Report

Comments

Description

Transcript

pdf
平成25年度大学院
Webインテリジェンス論
やまぐち たかひら
山口 高平
居室:慶應義塾大学矢上キャンパス 24-619A (14-506)
内線:42673
電話:045-566-1614
FAX; 045-566-1617
メール:[email protected]
Web: www.yamaguti.comp.ae.keio.ac.jp
1
授業内容と授業計画,講義資料,成績評価
授業内容
人工知能(AI)に関する基礎を学んだ後、AIとインターネットを融合した
「セマンティックWebとオントロジー、リンクドデータ」について学ぶ。
また、ゲストスピーカを招いて、AIの研究開発とビジネスについて学ぶ。
授業計画
①4/09 ガイダンス,人工知能の歴史
②4/16 エキスパートシステム
③4/23 知識獲得 (※次週の4/30は月曜代替日)
④5/07 知識モデリング
⑤5/14 セマンティックWeb概論
⑥5/21 RDF/RDFS/OWL
⑦5/28 オントロジー開発プロセス
6/04 休講(人工知能学会全国大会出張のため)
⑧6/11 オントロジーエディター Protege
⑨6/18 LOD&LOD演習Ⅰ
⑩6/25 LOD演習Ⅱ
⑪7/02 ゲストスピーカ(エージェント)
⑫7/09 ゲストスピーカ(GoogleとAI)
⑬7/16 まとめ
講義資料:pptやpdf資料をWebに掲載 www.yamaguti.comp.ae.keio.ac.jp
成績:レポート3回程度で評価
2
人工知能(AI)の歴史
3
AI研究とAIサービス
知識型AI
計算型AI
1997 AIチェス 2012 AI将棋
Deep Blue
ボンクラーズ
コンシェル
ジュAI
2011 SIRI by Apple
2013/4/8
2012 AI囲碁
Zen
2011 クイズAI
ワトソン by IBM
意味検索AI
2012 Knowledge Graph
by Google.com
2012 東大入試AI
by 情報学研究所
業務支援AI
Cognitive Computing
by IBM
4
入試AI 小説AI (日経新聞2012/11/11)
2013/4/8
5
AI(Artificial Intelligence,人工知能)?
認知科学的
アプローチ
工学的
アプローチ
人の知能を内部構造
(振る舞い、機能、(情報)構造)
から理解する
内部構造はnot care
振る舞い中心
Like or Over human beings
1956年 ダートマス会議 ↑
•
•
•
•
•
•
•
John McCarthy (LISP)
Marvin Minskey (フレーム理論)
Shannon (情報理論,チェス)
オートマトン≠人工知能(AI)
AI:人間のような知的な動作を機械にさせるには?
GPS (General Problem Solver)
探索の研究 A*アルゴリズム
7
1965年~ AIの3大エポック
推論
導出原理:拡張三段論法 J.A.Robinson
1972:Prolog処理系
1982~1994:第5世代コンピュータ(日本、通産省)
知識
DENDRAL:スペクトラム分析→分子構造
ファイゲンバウム(スタンフォード大学)
一つのアプリケーションにしかすぎない,汎用性
対話
人工無能 ELIZA パターン照合で結構対話できる
推論の時代→ Toy Problems AI冬の時代へ
ELIZA
• 入力された文章にあるパターンが含まれているか調べ反応
• 会話を理解しているように見せかける,はぐらかす
– ELIZAとの対話における「意味」は,人間から与えられるか用意され
た限られた数の反応のどちらか
• 事前に用意された定型的な表現の中から応答
• 俺にはみんなが俺を笑っていることはわかっていたんだ
→ 特に誰のことを考えていますか?
• キーワードが見つからない場合 → なぜそう思うのですか?
• これらの対話は非常に限定された局面でしか通用しない
– 精神病の治療面接
• 対話において、話し手の一方が、実際の世界について
殆ど何も知らないというポーズをとっても構わない数少ない例の1つ
人工無能デモ
http://www.simsimi.com/talk.htm
2011 SIRI by Apple
1970年代:冬の時代 ↓
1980年代→知識工学 ↑
• HPP:Heuristics Programming Project
完全ではないがたいていの場合うまくいく知識や方法
• MYCINプロジェクト(1973~1976)
•
•
•
•
MYCIN,TEIRESIAS,GUIDN,EMYCIN
知識表現、知識利用、知識獲得→知識工学
There is power in the knowledge ! (1977)
by Feigenbaum
1980年代→知識の時代へ
エキスパートシステム,自然言語・画像・音声理
解システム,知的教育支援システム,...
国家プロジェクト,AIハード・ソフトベンダー
10
Machine Intelligence
1956年:ダートマス会議(汎用知能,探索,チェス,定理証明)
1965年:推論(演繹)→Toy Problem
1970年代:AI冬の時代へ
1980年代 : Knowledge is Power! (ファイゲンバウム教授,スタンフォード大)
知識工学,エキスパートシステム知識表現、知識獲得,知識の利用(推論)
説明
機能
知識
ベース
推論
エンジン
知識
獲得
作業
領域
(専門家)
ユーザ
対話
I/F
デモ1:対話デモ(Eliza, 人工無能)
デモ2:献立支援ES
11
ナレッジナビゲータ
(アップル社の唯一のコンセプトビデオ.1987年)
英語
http://www.youtube.com/watch?v=dyFpu0P4Wek
英語(日本語字幕) http://pantani.cocolognifty.com/wannabe/2008/08/iphone_6_knowle_9799
.html
日本語吹替 http://www.youtube.com/
watch?v=yc8omdv-tBU&feature=related
12
1990年代:知識獲得ボトルネック
知識(ルール)
→ESが専門家代行という過大な期待.
知識ベース開発のための知識獲得は大変だ!
通産省:第5世代コンピュータ(1982-1994)の失敗?
→推論マシンに特化しすぎ.知識が余りにも不十分.
1990年代: 大規模知識ベース,大規模辞書プロジェクト
CYC, EDR, WordNet(フリーなので現在も広く使われる)
でも,あまり変化しない静的知識だけ.現実には動的知識が
多い.使えないなぁ.AIブームは完全にさめて下火へ
1997年:Deep Blueがチェス世界チャンピオンに勝利.
でもゲームだよね.閉じた問題,整構造問題だからできるんだ.
13
2000以降 CPUの高性能化
• コンピュータのH/W=中央演算処理装置(CPU)
+主記憶装置(メインメモリ)+補助記憶装置+入力装置+出力装置
• CPU: Central Processing Unit
1990年代前半: 300MHz →スーパーコンピュータ(数千万円)
現在:10万円程度のデスクトップパソコン
インテルCore i7(6コア)3GHz
ムーアの法則
2年間でトランジスタ数が1.5倍
(2倍という解釈もあり)
1971年:
4040プロセッサー
トランジスタ数 2300個
2011年:
210×210×210=10億個
CPU開発の歴史:インテルミュージアム
http://www.intel.com/jp/intel/museum/index.htm
もうすぐムーアの法則が成立
しなくなる?なぜ?
2000以降 HDDの普及と利用拡大
※HDDベンダーのシェア:
Western Digital 31.3%,Seagate 30.3%,HGST 17.2%,
東芝 10.9%,Samsung 10.3%
※昔は大企業しかDBを持てなかったが,中小企業,
個人レベルでTB単位のデータを蓄積・分析可能
※データマイニング(大量データから規則性の発見)
①米国ウォールマートが購入された商品分析
日曜日,既婚若者男性,購入商品組合せ
缶ビール-(?)
②10年前,日本のスーパーマーケットで,
右図の商品配置は非常識?
2000以降 情報大爆発の時代
Z(zeta:ゼタ)=10の21乗
E(exa:エクサ)=10の18乗
P(peta:ペタ)=10の15乗
T(tera:テラ)=10の12乗
G(giga:ギガ)=10の9乗
M(mega:メガ)=10の6乗
K(kilo:キロ)=10の3乗
インターネットに保存されているデータ量は?
2011年:1ZB
2012年:1.7ZB
http://japan.emc.com/leadership/programs/digital-universe.htm
2009年度
流通情報量 7.6 ZB(7600EB)
消費情報量 0.29 EB (0.004%のみ利用。99.996%はスルー)
総務省「情報流通インデックス研究会」報告書の公表(平成21年7月13日)
http://www.soumu.go.jp/menu_news/s-news/16188.html
2003年 QA Challenge !(1) IBM PIQUANT
• 2003~ IBM,PIQUANT(Practical Intelligent
Question Answering Technology)プロジェクト
★チェスのような閉じた問題ではなく、事前に分からないクイズ
に解答するという開いた悪構造問題に挑戦することがポイント
深い論理形式分析と浅い機械翻訳ベースのアプローチを統合
でも、この難しい問題にチェレンジするには、AI技術が未熟で、
マシンパワーも不足して、大きな成果はあげられずに終わる。
17
2011年 QA Challenge ! (2) IBM Watson
・IBM Deep Question Answering Project
(ジョパディで,ワトソンがチャンピオンに挑戦して勝利)
Open-Domain Question Answering
PIQUANTから時代が進み,技術が成熟、マシンパワーが拡大
18
IBM Watsonの概要
★大規模知識の獲得(100万冊,2億ページ)
百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。
自動的にコーパスを拡大。
★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出
★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成,
仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど,
100以上の従来AI技術(20年前の技術もある)の集大成
★精度、確信度、速度を考慮したAIインテグレーション
★計算力:並列計算による計算パワー
★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。
★展開性: 医療、金融、行政、マーケティングにも適用可能
19
人工知能+インターネット
20
Big Picture for Semantic Web (2001)
21
http://www.semanticweb.org/about.html#bigpicture
22
RDFモデルによるLinked Open Data(LOD)
• LOD規模:5億トリプル(2007)
⇒2011年9月時点で310億トリプルに増加
メディア
DBpedia
Wikipediaから構造化されたデー
タを抽出、RDF形式で提供
行政
地理
・データ自体がリンクしている
・情報の公開、共有が容易になる
出版
生命科学
・第三者によるサービス開発の促進に繋がる
情報流通基盤として期待が集まる
23
RDB vs RDF
RDBの場合
id
企業名
住所
EDINET
コード
1
ソニー株式
会社
東京都港
区港南1
丁目7番1
号
E01777
RDFの場合
会社マスタ
緯度・経度のカラムを追加
id
企業名
住所
EDINET
コード
緯度
経度
1
ソニー株
式会社
東京都港
区港南1
丁目7番1
号
E01777
null
null
緯度・経度のデータを挿入
id
企業名
住所
EDINET
コード
緯度
経度
1
ソニー株
式会社
東京都港
区港南1
丁目7番1
号
E01777
35.63120
7
139.7435
2
スキーマ変更の手間が少ない
24
→LOD自体の拡張も容易
オントロジー
歴史
上の
身分
神
建築
物
分け方
①言葉(概念)
分類階層木
農民
武士
②言葉(=固有表現、
具体物)ネットワーク
日本
の城
本蓮
寺
建立
主君
妻
織田
信長
墓所
生誕
濃姫
創建年
宗派
本能
寺
天文3年5月12日
2013/4/8
日本
の
寺院
岐阜
城
豊臣
秀吉
人・もの・
こと分析
日本
の神
宗派
創建年
1347年
法華
宗本
門流
1415年
25
WordNet
26
Wikipediaを人から人工物へ
人間には,ウィキペディアの内容
(意味)が判るけど人工物
(コンピュータ,携帯,ロボット...)
には判らない
Wikipediaからオントロジー(言葉階層木,
言葉のネットワーク)に自動変換して,人
工物に言葉の意味(Sense)を理解させる
→日本語Wikipediaオントロジー
27
クラス-インスタンス関係
プロパティ定義域
プロパティ値域
トリプル
日本の映
画作品
鼻
Is-a関係・プロパティ上位下位関係
日本
蜘蛛の糸
小説家
羅生門
日本
クラス
国籍
人物
文化
作家
文学
明治大学
の人物
配偶者
日本史
の人物
日本出身
の人物
存命人物
プロパティ
著作
文庫本
子供
インスタンス
塚本文
親族
東京都出
身の人物
時代小説・
歴史小説
作家
小説家
職業
家族
死没
俳人
津田青楓
芥川龍之介
門下生
文化活動
夏目漱石
最終学歴
日本の
小説家
芥川貴之志
こゝろ
誕生
職業
短編小説
小説
坊っちゃん
日本の
小説
ジャンル
日本の
大学
作曲家
芥川也寸志
代表作
明治の
人物
オペラ
作曲家
28
東京帝国
大学英文科
日本のクラ
シック音楽
の作曲家
知能ロボット
SHRDLU (Winograd ‘70)
• 代名詞や名詞群の意味を会話の文脈によって決定で
きる
• ELIZAは特定の単語を記憶しているにすぎないのに対し、
SHRDLUは文章全体を保存
• 積み木という非常に限られた世界において,
対話と動作の融合を実現
– 照応解析,過去の行動に関する情報,仮想的な世界
における動作へ展開
• Pick up a big red block
• Find a block which is taller
than the one you are holding
and put it into the box
• What does the box contain?
• How many blocks are not in the box?
SHRDLUの積み木の世界
インテリジェンス・ダイナミクス
• 作りこまない知能
– ロボットが環境とのインタラクションを通して自己を発達さ
せる
• 認知・発達機能をロボットで実現することで,人間の知能を
解明しようとする【認知発達ロボティクス】と共通したアプローチ
– 動作を作りこむのではなく,発達することによって人間を
惹きつける
• 人型ロボットQRIOによる実験
• RNNPB (Recurrent Neural Network with Parametric Bias)
– 人間が教示したベルとボールの取り扱いを学習
– 実世界のノイズや不安定性にも関わらず,安定してベル
を鳴らしたり,ボールを動かせるようになる
– 明に示した動作だけでなく,中間的な動作の発現
知能ロボットの分類
アシモ
Bigdog
(移動型ロボット:運動能力)
アイボ
パロ
(ペット型ロボット:癒し)
http://paro.jp/?page_id=247
http://www.youtube.com/watch?v=W1czBcnX1Ww
パペロ
石黒教授
ジェミニ
(アンドロイドロボット:見た目)
http://www.youtube.com/watch?v=QMEXBWJDUMk
ifbot
ワカマル
コミュニケーションロボット
NAO
最近のセマンティクサービス
コンシェル
(商品化)
QA
(研究)
ゲーム
(研究、
商品化)
33
Fly UP