...

presentation material

by user

on
Category: Documents
9

views

Report

Comments

Transcript

presentation material
映像認識理解の認知発達的アプローチ
映像認識
解 認 発
(Cognitive developmental approach towards the realization of sophisticated visual scene understanding)
木村 昭悟 (Akisato Kimura)
日本電信電話(株) NTTコミュニケーション科学基礎研究所
(Collaborating with 柏野邦夫@NTT CS研, [福地賢, 赤嶺一馬, 高木茂]@沖縄高専)
今日お話しすること
1.
2
2.
3.
4.
5.
人間が映像を理解できるのはなぜか?
計算機が映像を理解できていないのはなぜか?
そもそも「映像を理解する」とはどういうことか?
計算機は「映像を理解」できるようになるのか?
できるとするならば、どうすれば良いのか?
Keywords:
K
d
【認知発達】
【知識獲得】
【発達段階】
【動的遷移】
人間の発達過程に学ぶ
知識は与えられるものではない
計算機だって成長できる
成長すればできることが増えてくる
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 3
この映像、「理解」できますか?
• 人間は、特に意識せず映像を認識理解できる。
• 現状では、計算機に高度な映像認識理解をさせる
算
高度 映像
解
のは困難。
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 4
この映像、乳幼児が「理解」できますか?
大人にはわかるけど、
乳幼児にはちょっと・・・?
• 人間は、特に意識せず映像を認識理解できる。
現状では 計算機に高度な映像認識理解をさせる
• 現状では、計算機に高度な映像認識理解をさせる
のは困難。
• 人間とて、認識理解能力が産まれつきあるわけでは
人間とて 認識理解能力が産まれつきあるわけでは
ない。
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 5
この映像、「理解」できますか? (2)
知っていればわかるけど、
でもねぇ・・・
• 人間は、特に意識せず映像を認識理解できる。
• 現状では、計算機に高度な映像認識理解をさせる
現状では 計算機に高度な映像認識理解をさせる
のは困難。
• 人間とて、認識理解能力が産まれつきあるわけでは
人間とて 認識理解能力が産まれつきあるわけでは
ない。
成人であっても 知らないことは理解できない。
• 成人であっても、知らないことは理解できない。
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 6
そもそも「映像を理解する」とは?
– 人間とて認識理解能力が産まれつきあるわけではない。
– 成人であっても、知らないことは理解できない。
成人であっても 知らないことは理解できない
• 「映像を理解する」=
× 与えられた映像から最も尤もらしい意味を抽出
• ○ 与えられた映像と自身の持つ知識とから、その
与えられた映像と自身 持 知識とから そ
知識を組み合わせたりある種の変換をすることで、
最も尤もらしい意味を抽出
結局は自身の知識からの「想定の範囲内」で得られる産物。
想定の範囲を超えると理解できない
想定の範囲を超えると理解できない。
• 高度な映像の認識や理解の実現には、
【発達】と【知識獲得】が不可欠!!
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 7
発達の考慮: 認知発達ロボティクス
• Existing approach
– 獲得すべき行動手順なり知識獲得戦略なりを
獲得すべき行動手順なり知識獲得戦略なりを、
ロボットの脳に設計者が直接書き込む
• 認知発達ロボティクス
–
–
–
–
–
他者を含む環境を介して [社会性]
ロボ ト自身が自らの身体を通じて [身体性]
ロボット自身が自らの身体を通じて
情報を取得し [適応性]
情報を解釈していく [自律性]
その挙動から、ヒトの発達モデルの
新たな理解を目指す。
新たな理解を目指す
– 音声言語処理を介した言語獲得にも
大きな影響を与える (ex.
(ex ACORNS)
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 8
何でも「ヒトと同じように」すれば良い?
• それはNoでしょう。
– 2度のニ
2度のニューロブームにおける失敗の教訓:
ロブ ムにおける失敗の教訓
神経細胞レベルにおける模擬は挫折の連続
– 計算機の優れた特性の活用:
人間をはるかに凌ぐ高速演算や大量・確実な記憶
– 発達過程の完全記述の非現実性:
機能そのものの自然発生や発達を記述することは
計算量・記憶量の観点からほぼ不可能
– 「身体性」の欠如:
「身体性」なき計算機に、人間と同じようなことを
さ る とは そもそも きな
させることは、そもそもできない。
認識・理解をより高度化する上で重要となる要素を抽出し、
計算機が得意とする特性と融合させるアプローチがより現実的
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 9
「重要となる要素」は何か?
• 認知発達ロボティクス独自の思想を生かす
– [社会性][適応性][自律性]の確保
[社会性][適応性][自律性]の確保:
他者を含む環境を介して情報を取得し解釈
– 内部構造と外部環境の分離:
外部環境設計
設計者の思い込み・作為を排除
内部構造設計
• 必要な知識の能動的・自律的獲得
– 知識は与えられるだけのものではない、
自分から取りに行くことも必要
• 発達段階に応じた知識獲得戦略の動的遷移
– 計算機だって成長できる
– 成長すれば、できることの幅が広がる
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 10
提案する枠組
• 大まかに初期・中期・後期の3つの発達段階を想定
– ただ、明確な区切りはなく、徐々に発達。
ただ 明確な区切りはなく 徐々に発達
• 各発達段階に対応する主要機能を想定
– 主要機能であって、その機能だけではない。
主 機能 あ
機能だ
な
[Primary stage]
[Middle stage]
[Advanced stage]
Innate behavior
(Bottom-up)
Knowledge-based
(Top-down)
Innate/knowledge
hybrid
Fully supervised
Reinforcement
Semi-supervised
•感覚器+αに相当する
機能のみから重要な信号
要素をbottom-up に抽出
•その信号要素に対する
知識を外部から受け取り
知識を外部から受け取り、
それをそのまま順次蓄積
•ある程度蓄えた知識が
どの程度信頼できるかを
能動的に検証
•知識の「質」を推定する
ために必要不可欠
PRMU Frontier & Grand Challenge (Dec 18, 2009)
•自身の知識を統合して
自律的に映像を解釈、
真に必要なときのみ
外部から知識を要求
•膨大な量の知識を獲得・
膨大な量の知識を獲得
蓄積可能に
Presented by Akisato Kimura
Page 11
提案する枠組
• 大まかに初期・中期・後期の3つの発達段階を想定
– ただ、明確な区切りはなく、徐々に発達。
ただ 明確な区切りはなく 徐々に発達
• 各発達段階に対応する主要機能を想定
– 主要機能であって、その機能だけではない。
主 機能 あ
機能だ
な
[Primary stage]
[Middle stage]
[Advanced stage]
Innate behavior
(Bottom-up)
Knowledge-based
(Top-down)
Innate/knowledge
hybrid
Fully supervised
Reinforcement
Semi-supervised
•感覚器+αに相当する
•ある程度蓄えた知識が
•自身の知識を統合して
自律的に映像を解釈、
• 本枠組=映像認識理解のための知識獲得に関するメカニズム
[素質] の提供
機能のみから重要な信号
どの程度信頼できるかを
要素をbottom-up
に抽出
能動的に検証 [教育] については枠組の外
真に必要なときのみ
• どのように教示情報を与えるかに関する戦略
外部から知識を要求
•その信号要素に対する
•知識の「質」を推定する
• 興味深い側面: 「教育」によって発達の過程や到達点が大きく変わり得る
ために必要不可欠
知識を外部から受け取り
知識を外部から受け取り、
•膨大な量の知識を獲得・
膨大な量の知識を獲得
• 負の側面:
負 側
「素
「素質」そのものを測定・評価することの難しさ
も を
定
す
それをそのまま順次蓄積
蓄積可能に
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 12
発達初期段階
[Primary stage]
[Middle stage]
[Advanced stage]
Innate behavior
(Bottom-up)
Knowledge-based
(Top-down)
Innate/knowledge
hybrid
Fully supervised
Reinforcement
Semi-supervised
• スタート地点
点
– 保有する事前知識が全くないもしくは非常に少ない状況
– 保有する知識に依って立つ処理は事実上不可能
保有する知識に依って立 処理は事実上不可能
• 最も重要な作業: 基礎的な事前知識を蓄える
– 生理学的に本来備わっている機能から信号要素を抽出
– その信号要素に対して外部から教示情報を受け取り記憶
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 13
発達初期段階の実現方針
• 事前知識なくして、与えられた映像中のどの部分が
知識を得るにあたって重要な箇所であるか? を
特定することは、容易ではない。
• では、ヒトはどうしているのか?
では ヒトはどうしているのか?
– 発達初期段階のヒトの典型的な行動を調べてみよう
外観から「もの」を学習する
目立つ「もの」に目を向ける
「もの」の名前を聞いて覚える
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 14
Visual saliency will help the decision
• Task learning with bottom-up attention [Nagai 2009]
– 乳児(8
乳児(8~12ヶ月)にその親がタスク教示を行った際の
12ヶ月)にその親がタスク教示を行った際の
動作をsaliency mapを用いて解析
乳児 vs 親ではSMで推定できるが、
大人 vs 大人ではうまくいかない
赤丸: saliency mapから推定された注視位置
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 15
発達初期段階を模擬したプロトタイプシステム
• 映像顕著性に基づく視覚情報フィルタリングにより、
事前知識を仮定せずに重要領域を自動的に抽出
• 抽出された領域に対して蓄積された知識を用いて
自動/手動でアノテ シ ン
自動/手動でアノテーション
Demo Video→
入力映像
注目位置推定
重要領域抽出
視覚特性に基づく処理で
人間が目を向けそうな
箇所を自動的に推定
(その付近に「もの」が
あるだろうという仮説)
「もの」のありそうな
箇所から、「もの」
らしい領域を自動的
に抽出
[福地 2009][21]
[宮里 2009][18~20]
教示情報
モデル学習
特徴抽出 – 画像認識
「もの」に関する教示情報
と「もの」の画像特徴量と
から、それらの関係性を
学習し、知識として蓄積
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
「もの」らしい領域から
画像特徴量を抽出、その
特徴量と蓄えた知識から
「もの が何であるか
「もの」が何であるか?
に関する情報を提示
Page 16
Visual attention estimation
• Stochastic model with dynamic Bayesian network
[Pang et al@ICME2008] [Miyazato et al@ICME2009]
– Model a stochastic mechanism of visual attention
– Estimate human-attentive
human attentive locations automatically and
precisely in near real-time
Top-down
Intention
Eye movement
patterns
Cognitive
g
state that g
governs
the patterns of eye motions
Indicate probable humanattended positions
as density
To be estimated
Action
Eye-focusing
d
density
it maps
Saliency responses perceived
through Gaussian densities
Response
Stochastic
saliency
y maps
Idealize the average
strength of visual stimulus
Stimulus
(deterministic)
saliency maps
Inputt
Inp
Input video
Given in advance
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Bottom-up
Presented by Akisato Kimura
Page 17
Video segmentation
• Automatic segmentation with saliency-based priors
[Fukuchi et al@ICME2009]
Priors
Contribution ((1))
Input frame
Estimated density
of visual attention
Contribution (1)
Provide “object” priors
based on visual saliency
Segmentation
result
Feature likelihoods
Features for “obj”
Features for “bkg”
Contribution (2)
Contribution (2)
Sequentially update of
priors with previous results
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Update
MRF setup
Presented by Akisato Kimura
Page 18
なぜsaliency
なぜ
saliencyが必要なのか?
が必要なのか?
• システムはどこに何があるかをまだ理解できない。
• 知識を使わずに「もの」らしいものを検出できる。
知識を使わずに「もの」らしいものを検出できる
入力映像
注目位置推定結果
We can easily find an
object without any prior
knowledge by using the
saliency only.
S li
Saliency
map
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 19
Saliencyも万能ではない
Saliency
も万能ではない
• ある程度知識を駆使しないと、saliencyだけでは
どうしようもならない部分がたくさんある。
どうしようもならない部分がたくさんある
 Proceed to the next stage
We can distinguish black
objects and backgrounds
since we know some
prior knowledge (table
(table,
keyboard, mouse, curtain
etc.).
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 20
発達中期段階
[Primary stage]
[Middle stage]
[Advanced stage]
Innate behavior
(Bottom-up)
Knowledge-based
(Top-down)
Innate/knowledge
hybrid
Fully supervised
Reinforcement
Semi-supervised
• 獲得した知識がどの程度信頼できるかについて、
初期段階の戦略を続けても判断できない。
– 知識の「質」を測定・評価する術を持ち合わせていない
• 獲得した知識の「質」をどう測定・評価するか?
– ユーザとシステムとのインタラクション
– システム側から能動的に知識の信頼性を確認し、
高めていく強化学習的なアプロ チ
高めていく強化学習的なアプローチ
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 21
発達中期段階の実現方針
• 能動的に知識の信頼性を確認??
確かに「てーぶる」と言っている
「とんねる」と言っているが・・?
• 乳幼児は、自分が知識を持っている(と思っている)
自 が
を持
対象を見つけると、その知識を知らせようとする。
– 自分の知識がどの程度正しいかを検証する作業
– 量だけかき集めた知識から、質の悪いものを捨て、
質 良 も をさら 強化する と う作業
質の良いものをさらに強化する、という作業
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 22
強化学習なんて、本当にしているの?
• 潜在意識下でも行われている
– 「潜在意識レベルでの道具的条件付けを脳で実証」
[Pessiglione 2009]
報酬がもらえるか
どうかの手掛かり
ON: +£1 or £0 or -£1
OFF: 常に£0
[msec]
– 手掛かりを認識するには短すぎる時間
– にもかかわらず、多くの人が儲けていく(+£7/120試行)。
もかかわらず 多く 人が儲け
く(
試行)
– しかし、報酬が与えられないときには、chance level。
意識に上らないヒントからでも、報酬があれば学習機能が働く
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 23
発達後期段階
[Primary stage]
[Middle stage]
[Advanced stage]
Innate behavior
(Bottom-up)
Knowledge-based
(Top-down)
Innate/knowledge
hybrid
Fully supervised
Reinforcement
Semi-supervised
• キ
キーワード: 自律的
自律的・半教師的・構造化
半教師的 構造化
– 自身の持つ知識を統合して、自律的に映像を解釈する
戦略が並行して駆動されるように
– 真に必要なときにのみ外部から知識を要求する、
ある種の半教師学習的な戦略を中心とする形態に
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 24
自律的・半教師な知識獲得
• メリット:
高速・大量かつ効率的に知識を収集し吸収すること
ができるようになる
• リスク:
リスク
保有する知識の量や質が充分ではない時点で
過度に採用すると 「思い込み」による適切でない
過度に採用すると、「思い込み」による適切でない
知識が増幅されてしまう
それゆえに、発達中期段階における
獲得知識の質の数量化/評価 獲得知識の質の向上
獲得知識の質の数量化/評価、獲得知識の質の向上
が、この戦略の採用に当たっては必要不可欠
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 25
知識の構造化へ向け: semantic gapとは?
gapとは?
Semantic gap
H
Human
process
Semantics
Labels
Machinery
process
Images
映像認識理解における典型的な処理モデル
順番が違うぞ・・・?
でも、こうすると矛盾がない気がする。
Human
process
Labels
Semantics
Human
process
Images
人間の映像認識理解におけるプロセス
間
映像認識
解 Analysis
お るプ (pLSA
probabilistic
Latent
Semantic
(pLSA)) に見える
(福村先生の御講演に関係)
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 26
寄り道: Semantic gapをもう少し直感的に
gapをもう少し直感的に
Videos
何となく南国リゾート
何となく南国リゾ
ト
っぽい感じ・・・
そういえば最近旅行
行ってないなぁ。
あ、マリオだ。
あ
マリオだ
マリオと言え
ばスーパーマ
リオだよね。
Recoverable subset
of semantics
あー、これ
GameCubeの
スーパーマリオ
サンシャインだ。
やったことあるよ。
面白かったよね。
面白
たよね。
Semantics
Semantic gap
ゲーム、任天堂©、
GameCube©、 スーパー
南国、リゾート、
砂浜、海、旅行
Labels
PRMU Frontier & Grand Challenge (Dec 18, 2009)
マリオサンシャイン©
ゲーム、スーパー
マリオ© 、ファミコン©
Presented by Akisato Kimura
Page 27
知識獲得戦略の遷移と共存
主要機能の
利用比
当面はa
当面は
a priori に与えることに
• Innate/knowledge
hybrid
• Semi
Semi--supervised
• Knowledge
Knowledge--based
• Top
Top--down
• Reinforcement
• Innate behavior
• Bottom
Bottom--up
• Fully supervised
Primary stage
Middle stage
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Advanced stage
Presented by Akisato Kimura
発達段階
Page 28
Discussions (1)
• 枠組内部の具体的な方法論については、数多くの
未解決かつ解決困難な問題が残されている。
未解決かつ解決困難な問題が残されている
1. 獲得知識の「質」をどう定義し数量化するか?
–
–
–
発達段階をシステムが認知する上で必要不可欠
発達段階をシ
ムが認知する上 必要
欠
それゆえ本枠組における極めて本質的な課題
しかし、これは必ずしも自明な問題ではない。
ず も自
2. 各発達段階の中枢機能を使い始めるタイミングをど
のように設定するか?
–
仮に、第1 の問題が解決し、獲得知識の質が数量化で
きたとしても、中枢機能の使用開始タイミングを誤れば、
後期段階に見られる自律的な知識獲得が質の低い知識
が増幅する危険性を伴う
が増幅する危険性を伴う。
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 29
Discussions (2)
• 枠組内部の具体的な方法論については、数多くの
未解決かつ解決困難な問題が残されている。
未解決かつ解決困難な問題が残されている
3. 教師信号の与え方に関する戦略が本枠組の外部に
切り離されたことにより 本枠組そのものを正面から
切り離されたことにより、本枠組そのものを正面から
評価が困難となったという問題も残る。
–
–
映像認識理解の性能が教師信号の与え方に強く依存す
映像認識
解 性能が教師信号 与 方 強く依存す
ることは想像に難くなく、枠組自体が抱える構造的問題
となっている。
となっている
問題設定によっては教師信号の与え方を制御すること
ができる場合もあり 具体的には個別に検討が必要とな
ができる場合もあり、具体的には個別に検討が必要とな
る。
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 30
Concluding remarks
• 新しい映像認識理解の枠組の提案
– 認知発達的アプロ
認知発達的アプローチの根底にある、
チの根底にある
他者を含む環境を介してシステム自身が
情報を取得し解釈していく過程を軸とする枠組
– 本枠組で定義された各発達段階、その中枢機能を実現
する方法論、及び知識獲得戦略の混合的共存と連続的
推移に関するモデルの概説
• ポイント
–
–
–
–
認識理解に必要な知識の自立的獲得
発達段階に応じた知識獲得戦略の動的遷移
各発達段階の中枢機能、その混合的共存と連続的遷移
それぞれが独立ではなく、必然性から
その存在と発生順序が決定されている点が重要
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 31
Thank you.
Questions/Comments
E mail: [email protected]
E-mail:
akisato@ieee org
Special thanks to:
Tatsuto Takeuchi (NTT CS Labs), Derek Pang (Stanford Univ.), Junji Yamato (NTT CS Labs), Kouji Miyazato
(Okinawa Tech), Etsushi Fujita (Okinawa Tech), Tomoyoshi Kinoshita (Net Compass Inc.), Eisaku Maeda (NTT CS
Labs), Hitoshi Keen Sakano (NTT CS Labs)
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 32
PRMU Frontier & Grand Challenge (Dec 18, 2009)
Presented by Akisato Kimura
Page 33
Fly UP