...

修士論文 アクティブカメラによる詳細解析と 隠れマルコフモデルを統合

by user

on
Category: Documents
3

views

Report

Comments

Transcript

修士論文 アクティブカメラによる詳細解析と 隠れマルコフモデルを統合
NAIST-IS-MT0451055
修士論文
アクティブカメラによる詳細解析と
隠れマルコフモデルを統合した行動認識
小寺 明仁
2006 年 2 月 2 日
奈良先端科学技術大学院大学
情報科学研究科 情報処理学専攻
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
小寺 明仁
審査委員:
木戸出 正継 教授
(主指導教員)
小笠原 司 教授
(副指導教員)
河野 恭之 助教授
(委員)
アクティブカメラによる詳細解析と
隠れマルコフモデルを統合した行動認識∗
小寺 明仁
内容梗概
本稿では,
「オプティカルフローを用いた隠れマルコフモデル (以下 HMM) によ
る全体的な行動解析」と「ズームアップした首振りカメラによる特定領域の細か
い動き観測結果」を組み合わせて行動認識を行う手法を提案する.提案システム
は,広い視野での観測では区別することが困難であった類似行動を,ズームアッ
プした首振りカメラによる領域を絞った詳細観測で可能とする.具体的な処理手
順は以下の通りである.まず学習段階において,認識対象となる動作を表すおお
まかな動きを観測するために,人間の上半身を正面から撮影して体の動きをオプ
ティカルフローを用いて検出し,各行動の動き情報系列を得る.この動き情報系
列を学習することで,HMM による尤度計算のための行動モデルを得る.認識実
行時も学習時と同様の動き情報を抽出し,HMM による尤度計算を行う.このと
きの尤度値を監視し,類似行動を区別するためにズームアップした首振りカメラ
を用いてその差を特徴付ける体の部位観測を行う.特徴的な動きを検知できた場
合,対応する行動の HMM の尤度結果に重みを加えることで最終的な行動認識を
行う.
キーワード
行動認識,オプティカルフロー, 隠れマルコフモデル, ズームアップ画像
∗
奈良先端科学技術大学院大学 情報科学研究科 情報処理学専攻 修士論文, NAIST-ISMT0451055, 2006 年 2 月 2 日.
i
Recognition of Human Behaviors in combination
with previse Analysis by Active Camera and
coarse Analys by Hidden Markov Model∗
Akihito Kotera
Abstract
This paper proposes a method for recognizing human behaviors based on a
combination of ‘overall behavior analysis using Hidden Markov Model with optical
flows’ and ‘detailed feature analysis in a specific area by using an active camera
with a zooming factor’. Our system can distinguish between similar behaviors by
observing characteristic features (e.g., motion and shape) occurred with them by
using the active camera. First of all, our system observes image sequences of a
subject’s frontal upper-body showing target behaviors. A temporal sequence of
characteristic motions in each behavior is then detected and collected by using
an optical flow analysis. A set of the temporal sequences is learned by a hidden
Markov Model (HMM). The learned likelihood model is employed by the HMM
for behavior recognition. In addition, depending on the changes in the likelihood
of an input image sequence, the zoom-up camera is controlled to observe a specific
area in which characteristic motions of similar behaviors, that are regarded as the
candidates of the current behavior, can be observed. Finally, the result of the
detailed feature analysis is integrated into that of behavior recognition with the
HMM in order to acquire an improved result.
∗
Master’s Thesis, Department of Information Processing, Graduate School of Information
Science, Nara Institute of Science and Technology, NAIST-IS-MT0451055, February 2, 2006.
ii
Keywords:
Behavior Recognition, Optical Flow, Hidden Markov Model, Zoom up image
iii
目次
1. はじめに
1
1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3 目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4 論文構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2. 提案システムの概要
5
2.1 提案システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2 本システムによる処理の概要
5
. . . . . . . . . . . . . . . . . . . .
3. オプティカルフローを用いた隠れマルコフモデルによるおおまかな行動認
識
8
HMM に入力するデータ . . . . . . . . . . . . . . . . . . . . . . .
8
3.2 行動モデルの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.3 尤度に基づいた行動識別 . . . . . . . . . . . . . . . . . . . . . . .
11
3.1
4. 首振りカメラによる詳細な行動認識との組み合わせ
13
4.1 各行動を特徴付ける差異 . . . . . . . . . . . . . . . . . . . . . . .
13
4.2 特徴的差異の発生タイミングとインターバルに応じた観測戦略 . .
16
4.3 行動の差異を考慮した行動認識 . . . . . . . . . . . . . . . . . . .
17
5. 実験
18
5.1 実験内容 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
5.2 各種実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
5.2.1
HMM による行動認識結果 . . . . . . . . . . . . . . . . . .
19
5.2.2
行動判別のオンラインセグメンテーション実験
. . . . . .
26
5.2.3
詳細解析と HMM を統合した行動認識の試み . . . . . . . .
29
5.3 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
iv
6. 終わりに
36
6.1 まとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
6.2 問題点と今後の課題 . . . . . . . . . . . . . . . . . . . . . . . . .
36
謝辞
38
参考文献
39
v
図目次
1
認識対象の 5 つの行動 . . . . . . . . . . . . . . . . . . . . . . . .
4
2
学習部の処理の流れ
. . . . . . . . . . . . . . . . . . . . . . . . .
6
3
認識部の処理の流れ
. . . . . . . . . . . . . . . . . . . . . . . . .
6
4
48 ブロックの動き情報 . . . . . . . . . . . . . . . . . . . . . . . .
9
5
各行動の特徴的な動きを含むブロックの一例 . . . . . . . . . . . .
10
6
各行動の主な動き . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
7
Viterbi アルゴリズムの適用例 . . . . . . . . . . . . . . . . . . . .
12
8
各行動の動作時間と類似動作が現れるタイミング . . . . . . . . .
15
9
詳細カメラの制御アルゴリズム . . . . . . . . . . . . . . . . . . .
17
10
飲む (初期状態:手を伸ばし始め) . . . . . . . . . . . . . . . . . . .
20
11
飲む (中間状態:飲む) . . . . . . . . . . . . . . . . . . . . . . . . .
20
12
飲む (終了状態:手を下ろす) . . . . . . . . . . . . . . . . . . . . .
20
13
尤度の遷移 (飲む) . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
14
食べる (初期状態:手を伸ばし始め) . . . . . . . . . . . . . . . . . .
21
15
食べる (中間状態:食べる) . . . . . . . . . . . . . . . . . . . . . . .
21
16
食べる (終了状態:手を下ろす) . . . . . . . . . . . . . . . . . . . .
21
17
尤度の遷移 (食べる)
. . . . . . . . . . . . . . . . . . . . . . . . .
21
18
読む〔注視〕(初期状態:注視) . . . . . . . . . . . . . . . . . . . .
22
19
読む〔注視〕(中間状態:注視) . . . . . . . . . . . . . . . . . . . .
22
20
読む〔注視〕(終了状態:注視) . . . . . . . . . . . . . . . . . . . .
22
21
尤度の遷移 (読む〔注視〕) . . . . . . . . . . . . . . . . . . . . . .
22
22
読む〔めくる〕(初期状態:注視) . . . . . . . . . . . . . . . . . . .
23
23
読む〔めくる〕(中間状態:めくる) . . . . . . . . . . . . . . . . . .
23
24
読む〔めくる〕(終了状態:注視) . . . . . . . . . . . . . . . . . . .
23
25
尤度の遷移 (読む〔めくる〕)
. . . . . . . . . . . . . . . . . . . .
23
26
書く (初期状態:書く) . . . . . . . . . . . . . . . . . . . . . . . . .
24
27
書く (中間状態:書く) . . . . . . . . . . . . . . . . . . . . . . . . .
24
28
書く (終了状態:書く) . . . . . . . . . . . . . . . . . . . . . . . . .
24
vi
29
尤度の遷移 (書く) . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
30
行動判別のオンラインセグメンテーションの流れ . . . . . . . . .
27
31
「食べる」「飲む」の検出 . . . . . . . . . . . . . . . . . . . . . .
29
32
詳細解析と HMM を統合した行動認識システム
. . . . . . . . . .
30
33
システム動作時のイメージ . . . . . . . . . . . . . . . . . . . . . .
32
34
提案する行動認識手法 . . . . . . . . . . . . . . . . . . . . . . . .
35
表目次
1
行動分類別 1 日の行為者率, 及びその平均時間 . . . . . . . . . . .
2
2
オプティカルフローによる HMM の認識率 . . . . . . . . . . . . .
25
vii
1. はじめに
1.1 背景
近年,日常活動をおこなっている人間を支援するために人間の様々な行動を認
識する研究が行われている.人間の行動を認識するためには体の各部位の動きや
屋内の移動といった情報を観測することが不可欠である.これらの情報を観測す
るために,これまではユビキタスルームのように環境内に複数台のカメラ,圧力
センサなどが設置された場所を利用したり [4][5][6],データグローブのようなウェ
アラブル機器が用いられてきた [1].しかし,これらは日常活動を行う人間に身体
的,精神的負担を強いるため,非接触で,観測されていると意識させずに人間の
行動を認識することが求められている.そこで本研究では家庭内で人間を支援す
るホームロボットのカメラを用いてコンピュータビジョンの技術から人間の行動
認識を行う.
家庭内における人間の行動は,睡眠,食事,家事など様々である.文献 [2] お
よび文献 [3] の「行動分類別に 1 日の行為者率1 , 及びその平均時間のうち家庭内
で行われるもの」の上位を表 1 に示す.これら家庭内で行われる行動認識が可能
になれば,ユーザの生活習慣を記録・解析し,健康的な生活を送るために最適な
タイミングでアドバイスすることができると考えられる.例えば食事のタイミン
グやその長さを知ることができれば,遅い時間の食事や早食いを検知し,注意を
促すことができる.またこの技術は生活の様子を知ることができるため,老人の
見守りシステムとしても利用可能であると考えられる.これにより老人ホームで
の介護士の負担の軽減や独居老人の介護など非常に有用な活用ができる考える.
これら日常的な行動を認識する場合,行動と行動が行われる場所の関係は非常
に大きな手がかりとなる.すなわち日常行動には “睡眠 ↔ 寝室”“料理 ↔ キッチ
ン”“洗濯 ↔ 洗濯機の前”のように一つの場所に対してほぼ一つの行動が限定して
行われるもの (場所依存な行動) と “食事”“読書”“学習”のように一つの場所に対
して複数の行動が行われるもの (非場所依存な行動) がある.1.2 節ではこれらの
情報を用いた関連研究について紹介する.
1
1 日の中で該当の行動を 15 分以上した人が母集団に占める割合
1
行動分類
確率 (%)
平均時間 (時間. 分)
睡眠
99.3
7.35
食事
99.2
1.30
身の回りの用事
97.8
0.58
家事 (炊事・洗濯など)
81.7
4.40
テレビ
88.9
3.25
学業
14.9
7.52
ラジオ
15.2
2.18
新聞
51.5
0.50
雑誌・漫画
11.9
0.59
本
11.5
1.21
休息
43.8
1.02
表 1 行動分類別 1 日の行為者率, 及びその平均時間
1.2 関連研究
観測画像からの行動認識にはどのカメラ,またはカメラ画像中のどこに人間が
存在するかという位置情報のみに基づいて行動認識を行い場合 [7][8][9][10] と,人
間の姿勢変化などの動き情報に基づいて行動認識を行う場合 [11][12][13][14] の 2
つのアプローチがある.主に前者は場所依存な行動の認識のための技術であり,
後者は非場所依存な行動の認識のための技術である.本研究では移動可能なホー
ムロボットの利点を活用するために,非場所依存な行動の認識を目指し,後者の
技術を用いる.
人間の姿勢変化などの動きから日常的な行動認識を行う際,次のような問題が
ある.
• 様々な行動が連続的に行われるため,適切な認識の開始と終了のタイミン
グが分からない
• 日常的な行動には動作が非常に類似しているが,意味の異なる行動がある
2
前者は行動の分節化を行う研究であり,[15][16] が提案されている.本研究では
HMM による行動認識を考えており,認識精度を最大限に高めるためには行動の
開始と終了を知る必要があるが,認識対象として比較的短い時間内に特徴的な動
作がおこなわれ,複雑な動作を含まない簡単な行動 (1.3 節) を考えているため,
各行動の動作時間を十分に含んだインターバルで認識を行うことでこの問題は緩
和できると考える.後者は類似動作の識別を行う研究であり,[17][18] が提案さ
れている.日常行動において姿勢変化の動きのみに着目した場合,“食べる”“飲
む”“頭をかく”などは主に手を上下に動かす動作を含み,識別が非常に困難であ
る.そのため,家庭内での使用を考える本研究でも体の大まかな動き以外の情報
を用いて,これらの識別を行う方法を考えなければならない.
よって本研究では,後者の類似行動の識別に重点を置いて考えていく.
1.3 目的
本研究では非場所依存な日常行動のうち,人間が家で最も長い時間を過ごすリ
ビングで行われる行動を認識対象として考える.先の表 1 より,よく行われ簡単
な動作で構成される行動として,本研究では「食べる」
「飲む」
「読む」
「書く」の
4 つの行動を選んだ.ただし,
「読む」については “(ページを) めくる”と “(文字を
読むために) 注視する”の二つ動作があり,前者は動きがある動作で,後者は動き
が少ない動作である.属性の異なる動作は分けて認識を行うほうが認識精度がよ
いため,認識対象を「食べる」「飲む」「読む〔注視〕」「読む〔めくる〕」「書く」
の 5 つの行動と分類した. これらの行動はリビングで人間の前にテーブルが置か
れている状況で行われていると想定する.また簡単化のために正面から撮影され
た画像中には認識対象の人間が一人だけしか映っていないものとする.図 1 に各
行動の観測画像の例を示す.
これまでカメラ画像から動き情報を観測し行動認識をおこなう研究はたくさん
あるが,体の動き情報を得るために画像内に上半身すべてが撮影されているもの
が多い.しかしこれでは体全体のおおまかな動きは観測できるが,指先の運動な
ど細かい動きは低解像で撮影されているため観測が非常に困難である.また特定
部位のみを詳細に観測したとしても,一度トラッキングを誤ると追跡対象を再び
3
見つけることは非常に困難である.そこで,本研究ではこの二つを組み合わせる
ことでお互いの欠点を補いながら,体全体の動き情報とズームアップしたカメラ
画像による各行動の詳細な観測結果を用いて行動認識を行う. 行動は連続的な
動作により行われるため,効率的なカメラ制御で観測する場所を決定しなければ
見るべき動きを見逃す可能性がある.すなわち,目的とする行動認識を実現する
ためには,認識対象の行動を区別するために “いつ”“どの順番”で “どこ”を詳細
に観測するのかという問題を解決する必要がある.
飲む
読む(注視)
食べる
書く
読む(めくる)
図 1 認識対象の 5 つの行動
1.4 論文構成
本稿の構成の述べる.第 2 章では提案システムの概要を示す.第 3 章で,オプ
ティカルフローを用いた HMM による全体的な行動認識について述べ,第 4 章で,
詳細カメラによる類似行動の差異の観測について述べる.第 5 章で予備実験およ
び提案システムの評価実験を行い,考察する.最後に第 6 章で本稿まとめと今後
の課題について述べる.
4
2. 提案システムの概要
2.1 提案システム
本システムは, まず体の上半身とテーブルが撮影されたカメラ画像 (以下広域カ
メラ画像) からオプティカルフローを検出し, 比較的大きなフローが多く含まれる
領域をに注目する.そしてこの領域に含まれるフローの大きさの合計, 角度, この
領域の画像中における座標を入力として HMM によるおおまかな行動認識を行う.
行動認識の結果,複数の行動の尤度が大きな値を示す,すなわち行動の識別が難
しくなると,ズームアップした首振りカメラからの画像 (以下詳細カメラ画像) を
用いてそれらの行動の差を特徴付ける体の部位を観測する.最後にオプティカル
フローによる全体的な行動認識結果と詳細カメラ画像の観測結果を用いて最終的
な行動認識をおこなう.
2.2 本システムによる処理の概要
本システムは HMM による行動認識のための学習部 (図 2) と学習より得られた
行動モデルを用いたライブ認識およびズームアップカメラによる詳細観測結果を
用いて行動を決定する行動認識部 (図 3) の二つに分けられる.
• 学習部
1. オプティカルフローを用いた HMM の学習データ作成 (3.1 節)
広域画像中のオプティカルフローを検出する.このうち一定領域内の
フローの大きさの合計が最も大きい領域の動き情報2 を各画像の代表
データとする.各行動を撮影した画像系列ごとにこの代表データのシー
ケンスを獲得し,これを学習データとする.
2. プロトタイプに基づいた行動モデルの学習 (3.2 節)
各行動がいくつの状態数に分かれているかを経験的に求め,それぞれ
の行動モデルのプロトタイプを作成する.このプロトタイプに基づい
2
ベクトルの大きさ,角度,領域座標.詳細は後述する
5
広域カメラ制御 PC (PC1)
広域カメラ画像
オプティカルフローを用いた
認識データの作成
HMM による行動認識
オプティカルフローと肌色領域
を用いた顔と手の検出
尤度の近い行動と顔と手の座標,
各行動の尤度を送信
詳細カメラ制御 PC(PC2)
詳細カメラ画像
各種データの受信
観測領域とその順番の決定
カメラ制御
行動にあわせた画像解析
HMM の結果と詳細観測結果を
あわせた行動認識
図 2 学習部の処理の流れ
図 3 認識部の処理の流れ
て Baum-Welch アルゴリズムによる学習を行い,各行動の行動モデル
を得る.
• 行動認識部
3 広域カメラ画像による行動認識 (PC1)
1. オプティカルフローを用いた HMM の認識データの作成 (3.1 節)
学習部と同様の処理を行い,広域カメラ画像中の代表ベクトルの
データ系列を認識データとする.
2. HMM による尤度計算 (3.3 節)
学習により得られた行動モデルと先の処理で得られた認識データ
を入力として,HMM による尤度計算を行う.このときの各行動
の尤度の状況を常に監視する.
3. 肌色領域とオプティカルフローを用いた顔と手の検出
行動の差異,特徴を見分けるときに最も情報量が多いのは顔と手
である.動いている肌色領域を顔と手領域に分類する.
4. 尤度の状況と顔と手領域の位置の送信
HMM による尤度の計算結果より,行動の識別が困難な状況になっ
6
たときの各行動の尤度と顔と手領域の座標を PC2 に送信する.
3 詳細カメラ画像による行動認識 (PC2)
1. 広域カメラからの各種データの受信 (4.1 節,4.2 節)
どの方向にカメラを向け,何を観測するのかという戦略を受信し
た各種データより決定し,随時カメラを指定の方向に向ける.
2. 戦略にあわせた画像解析 (4.1 節)
「食べる」「飲む」「読む〔注視〕」「飲む〔めくる〕」「書く」のい
ずれかを特徴付けるパラメータが現れていないか解析する.
3. HMM の認識結果と詳細観測結果による行動認識 (4.3 節)
HMM による各行動の尤度に詳細観測の結果の重みを加えること
で行動認識を行う.
これまでに述べた処理の詳細を第 3 章,第 4 章で述べる.
7
3. オプティカルフローを用いた隠れマルコフモデルに
よるおおまかな行動認識
この章では,オプティカルフローによる動き情報を学習することで行動モデル
を作成し,尤度計算によるおおまかな行動認識の方法について説明を行う.
3.1 HMM に入力するデータ
画像中の動きを観測するために OpenCV ライブラリ3 の Lucas-Kanade アルゴ
リズムを用いたオプティカルフロー検出を用いた.これにより各画像における x,y
方向それぞれの速度ベクトル成分を高速に得ることができる.ただし,輝度勾配
を用いた計算であるためノイズの影響も大きく,また行動の特徴として現れるオ
プティカルフローは画像中の小領域にかたまって現れることから,以下の手順で
画像中の行動を特徴付ける動き情報のみを抽出した.
1. 入力画像4 を 80×80 のブロックに分け,各ブロック内のオプティカルフロー
を合成することで,全 48 ブロックそれぞれの動き情報を算出する (図 4).こ
のときノイズ除去のために閾値5 以上の大きさをもつフローは除外した.
本手法では,動き情報として 80×80 のブロック内に存在する “フローの
ノルムの合計値 (以下スカラーノルム)”,“フローをベクトル合成した後の
ノルムの値 (以下ベクトルノルム)” ,“フローをベクトル合成した後の角度
(以下角度)”,“ブロックの x 座標”,“ブロックの y 座標”の 5 つを抽出した.
スカラーノルムは各フローの方向に関係なくそのブロックでどれだけの動
きが現れたかを表し,ベクトルノルムは各フローの方向を考慮した動きを
表したものである.スカラーノルムが必要な理由は,あるブロック内で細
かい作業を行ったとき様々な方向のベクトル相殺され,ベクトルノルムで
は行動を特徴付けるブロックが注目されないという問題に対応するためで
ある.
3
4
5
Intel Open Source Computer Vision Library
解像度 640×480
30fps で人間が動きうるピクセル数として 5 ピクセル以内とした
8
図 4 48 ブロックの動き情報
2. 全 48 ブロックの動き情報のうち,最も行動を特徴付ける動き情報をもつブ
ロックを入力画像全体の動き情報とする.具体的には 48 ブロックのうちス
カラーノルムが最も大きく,さらに過去 3 フレームのスカラーノルムの合
計が閾値以上,現在のスカラーノルムとベクトルノルムがそれぞれ閾値以
上のブロックを選ぶ.図 5 に各行動における検出例を示す.ただし「読む
〔注視〕」(上段一番右) は動きを検出できなかったため代表ブロックは検出
されていない.
3. 上記処理を「食べる」「飲む」「読む〔注視〕」「飲む〔めくる〕」「書く」を
それぞれ行っている動画データに対して実行し,各行動を行っている際の
動き情報のデータ系列を得る.このデータ系列を HMM の学習,認識に用
いる入力データとする.学習のための各行動の動画データはテーブルに置
いた手が動きはじめるときを行動のはじめに,一連の動作 (手の上げ下げな
ど) を終え,手が再びテーブルの上に戻ってきたときを行動のおわりとして
切り出したものを使用した (図 6).
上記の手順により,
「食べる」52 サンプル,
「飲む」23 サンプル,
「読む〔注視〕」54
サンプル,
「読む〔めくる〕」27 サンプル,
「書く」40 サンプルの入力データ系列を
得た.
9
飲む
読む(注視)
食べる
書く
読む(めくる)
図 5 各行動の特徴的な動きを含むブロックの一例
飲む
読む(注視)
食べる
書く
読む(めくる)
図 6 各行動の主な動き
10
3.2 行動モデルの作成
HMM の学習,認識には HTK6 を利用した.HTK では最大学習回数,学習デー
タ,行動モデルのプロトタイプを与えることで Baum-Welch アルゴリズムによる
学習を行うことができ,最大学習回数以内でモデルパラメータが基準を満たすま
でパラメータの最適化を行う.この,プロトタイプとは入力データの次元数 (入
力データの数),状態数,各状態でのデータの平均値と分散,状態遷移モデルおよ
び遷移確率の初期値を入力したテンプレートである.次元数については 3.1 節で
得た “スカラーノルム”“ベクトルノルム”“角度” “ブロックの x 座標”“ブロックの
y 座標”という 5 つの入力データより 5 次元とした.状態遷移モデルは簡単化のた
めに Left-to-Right モデルを用い,遷移確率の初期値は自己遷移確率と次状態への
遷移確率の合計が 1 になるように自由に設定する.データの平均と分散はそれぞ
れ計算できるため,残る未知のパラメータは状態数のみであり,各行動の状態数
をいくつにするかが認識精度に大きく関わってくる.本手法では経験的に「食べ
る」は 12 状態,
「飲む」は 8 状態,
「読む〔注視〕」は 7 状態,
「読む〔めくる〕」は
11 状態,
「書く」は 8 状態が最適な状態数であると見なした.上記のプロトタイプ
設定の下で「食べる」
「飲む」
「読む〔注視〕」
「読む〔めくる〕」
「書く」の 5 つの
行動モデルのパラメータが最適になるまで学習した.
3.3 尤度に基づいた行動識別
認識は Viterbi アルゴリズムにより行った.Viterbi アルゴリズムでは,認識デー
タ,行動モデル,辞書ファイル,行動モデルの使用リストを入力として尤度計算
を行い,認識データ系列の最終的な尤度が最も高い行動モデルを行動認識結果と
して出力する.図 7 のように,Viterbi アルゴリズムは各行動モデルにおいて最適
経路とこの経路上での遷移確率と生成確率を求めるアルゴリズムであり,入力さ
れたデータについて毎回初期状態から終了状態までの最適経路,遷移確率を計算
する.ただし入力データ系列が長くなるにつれ,探索経路が非常に大きくなるた
め一定値以下の尤度に到達した経路についてはそれ以上探索を行わない.
6
Hidden Markov Model Toolkit.1990 年ケンブリッジ大学で開発
11
以上の手順により,広域カメラで観測された画像系列からのおおまかな動作認
識が行われる.
図 7 Viterbi アルゴリズムの適用例
12
4. 首振りカメラによる詳細な行動認識との組み合わせ
この章では広域カメラからの動き情報だけでは区別がつきにくい行動を,ズー
ムアップした首振りカメラで観測することにより差異を検出する方法について説
明する.
4.1 各行動を特徴付ける差異
広域カメラからの動き情報で行動認識を行う場合,次の 2 つの要因によって
HMM で認識される動作の類似度が高くなってしまい,誤認識や識別の困難化が
起こると考えられる.
• 行動シーケンスの全体にもしくは一部に非常に類似した体の姿勢変化が存
在する
• 体の姿勢変化が極端に少ない状態が認識データに含まれる
本研究では,
「飲む」のコップを持ち上げる動作と「食べる」の食べ物を口に運ぶ
動作,さらに「読む〔めくる〕」の本をめくる動作のように,ともに体の正面を
通って手を上下させるような類似動作が前者に相当し,
「読む〔注視〕」
「書く」の
ように広域カメラからではその細かい動きをほとんど検出することができない状
態が後者にあたる.この問題を解決するためには,広域カメラから得られる動き
以外の情報を用いて行動の差異を検出しなければならない.人間が認識対象の 5
行動を見たとき,類似動作や静止状態が存在していてもその識別を誤ることは非
常に少ない.それは動き以外に下記の情報も同時に得ることで,より正確な行動
認識を行っているからだと考えられる.
• 食べる:
- 箸や手で食べ物をつかみ,口に運び,おろす手に食べ物がない
- そしゃくをしている
• 飲む:
- コップ,ペットボトルを持ち口元に運んだ
13
• 読む〔注視〕:
- 視線が下方向を向いている
- 視線の先や手に近接して本,新聞がある
- 体の姿勢変化がほとんどない
• 読む〔めくる〕:
- 動いている手と共に本,新聞が動く
- めくる動作のあと「読む〔注視〕」を行う
• 書く:
- 鉛筆を持ち,指先に細かな動きがある
- 視線が下方向を向いている
- ノートのような書く対象が手元に存在する
いずれも人間の顔や手に注目し,それと共に起きる変化によって判断している.
よってシステムで類似行動の識別を行う場合も,人間の顔や手に注目して解析す
ることで人間と同様に正確な認識ができると考えられる.しかし,広域カメラの
画像中では上記対象は低解像度で観測されており,そしゃくや指先の細かい動き
を検出するための十分な情報を得ることができない.そこで本研究では,別途用
意したズームアップ首振りカメラで観測したい領域を撮影し,注目対象を高解像
度観測した画像中の特徴を観測することで行動の識別を行う.
図 8 に各行動の動作時間と類似動作が現れるタイミングを示す.
「飲む」につ
いては類似動作を検出してから顔にカメラを向けることで,コップなどを口に近
づけている状況を観測することができ,
「読む〔注視〕」「書く」は動作時間の間
なら指先のような体の部位の動きをいつでも観測することができる.しかし「食
べる」については食べ物を口に入れる時間が非常に短いため,類似動作を検知し
てから手を観測してもその手に食べ物があったのかどうかを判断できない場合が
ある.また「読む〔めくる〕」についてもその動作時間自体が短く,類似動作を
検知してそちらにカメラを向けたときには行動が終わっている可能性が非常に高
い.これについては「食べる」は口に食べ物を入れた後に必ず “そしゃく”が行わ
ること,
「読む〔めくる〕」は動作が終わった後に “読む〔注視〕”を行うこと,と
14
手を上げる 口に入れる
食べる
飲む
読む(めくる)
手を下ろす
+ そしゃく
そしゃく
手を上げる 飲む 手を下ろす
は動作時間
は類似動作群1
は類似動作群2
は詳細観測を行える期間
手を上げる 手を下ろす 読む(注視)を行う
読む(注視)
書く
体全体がほぼ静止している
手を動かす
時刻 t
図 8 各行動の動作時間と類似動作が現れるタイミング
いう動作の最後,もしくは動作が終わってから現れる特徴的な動作を観測するこ
とで識別が可能になると考える.以上より類似動作が現れたときの各行動の特徴
的な動作とその観測方法を以下のように行う.
• 食べる:
- “そしゃく”を検知するために,顔の肌色領域の動きを観測する
• 飲む:
- “飲む”ときのコップなどによる顔のオクルージョンを検出するために,
顔の肌色領域の大きさの増減を観測する
• 読む〔注視〕:
- 本などを持っているときの静止状態を検出するために,手の肌色領域の
動きがほぼないことを観測する
• 読む〔めくる〕:
- 動き終わったあとに「読む〔注視〕」が行われやすいため,
「読む〔注
視〕」と同様の処理を行うことで「読む〔注視〕」を検出する
15
• 書く:
- 書く動作の細かい動きを検出するために,手の肌色領域が動きを観測
する
「食べる」と「飲む」は観測タイミングが十分にずれており,
「読む〔めくる〕」
「読
む〔注視〕」
「書く」はそれぞれ十分長い時間観測可能であることから,それぞれ
を順に観測することは可能であると考えられる.よってこれらの観測を図 8 の ↔
の期間内で行うことで観測行動がどの行動であるのかという確からしさを求める.
4.2 特徴的差異の発生タイミングとインターバルに応じた観測戦略
認識対象となる行動を行う際,人間は時々刻々とその姿勢を変化させ,それに
伴い詳細観測が意味を持つ場所とタイミングも変化する.また,認識対象の 5 行
動はすべていずれかの類似行動を含んでいるため,同時に複数の見るべき領域が
必ず存在する.よって,行動の差異を検出するために詳細観測を行うとき,“い
つ”“どこを”観測するのかが重要である.そこで詳細観測を行う場所とタイミン
グを決定する基準として 3 章のオプティカルフローによる行動認識結果を用いる.
4.1 節より,認識を誤りやすいのは類似行動が起き,HMM の尤度の差が小さく
なるときである.よってこのときの類似行動群 (「食べる」と「飲む」と「読む
〔めくる〕」,および「読む〔注視〕」と「書く」) の差異を検出し,尤度の差を大
きくすることができれば,行動認識の精度を高めることができると考えられる.
図 8 の各行動の詳細観測が行える期間を見たとき,
「食べる」と「飲む」はある
決まった期間しか観測することができず,
「読む〔めくる〕」と「読む〔注視〕」と
「書く」は十分長い時間観測することができる.そこで各行動の特徴的な動作を
見逃さないために,本システムではまず前者の行動を優先して観測しに行くこと
にする.すなわち尤度の差が小さくなったときは「飲む」>「食べる」>「読む
〔めくる〕」≥「書く」≥「読む〔注視〕」の順に観測を行う.一つの行動の詳細観
測を行う期間は一定であり,この値は詳細観測を行う各動作時間 (cf.「飲む」な
らコップを口につけてから離すまでの時間) の平均値を用いた.
また一般的な速さで行われた行動を実際に観測したとき,2 つの行動の詳細観
16
測を行った時点でその他の行動の動作を観測することが非常に困難であった.そ
こで本研究では 3 章で述べた行動認識手法の結果において,尤度が上位の 2 行動
を観測対象として詳細観測を行う.
4.3 行動の差異を考慮した行動認識
本システムでは HMM の尤度の差が小さくなったとき,その上位 2 行動を観測
対象とした詳細観測を行い,この結果を各行動の確からしさ (重み) として表現す
る.この重みを 3 章の手法を用いた行動認識結果に加えることで類似動作や静止
状態であっても尤度に差を与え,より正確な行動認識を行う.認識結果を算出す
るタイミングは PC1 からの認識終了フラグをもとに行われ,このときの “重みを
加えた尤度”が最も高い行動を出力する.
図 9 に詳細カメラの制御の全体のアルゴリズムを示す.
尤度の近い行動,顔と手の座標,
各行動の尤度,認識フラグ
優先度による観測を行う順序の決定
詳細観測モードに移行.各種パラメータセット
解析する行動に合わせたカメラ制御と解析
No
No
No
規定フレーム数解析を行ったか?
Yes
2 行動の解析を行ったか?
Yes
認識フラグを受信したか?
Yes
重みの計算と行動認識結果の出力
図 9 詳細カメラの制御アルゴリズム
17
5. 実験
オプティカルフローを用いた HMM による行動認識 (予備実験) 及び提案手法の
有効性を確認するための実験を行った.5.1 節で実験環境及び実験条件,5.2 節で
各種実験結果を示し,5.3 節で考察を述べる.
5.1 実験内容
実験環境,実験の条件を以下に示す.また,本研究における経験的に求められ
る定数は全ての実験において一定に設定している.
• 使用カメラ:
- DCR-PC101 (SONY) (予備実験時:広域カメラ)
- EVI-D30 (SONY)×2 台 (提案システム検証時:広域カメラ, 詳細カメラ
とも)
• OS:
- Microsoft Windows XP Professional
• CPU:
- Intel Pentium4 2.8GHz
• 入力データ:
- 広域カメラ,詳細カメラ共に 640×480.
- 詳細カメラは広域カメラのおよそ 160×160 をズームアップした画像
• フレームレート:
- 広域カメラ,詳細カメラ共に 30fps
• 実験条件
- カメラの高さ 100cm. 人とカメラの距離 200cm.
2 台のカメラの間は水平方向に 20cm
- 人間の前にテーブルがある状態で正面から撮影
18
上記条件を満たした PC2 台を用いて実際に家のリビングやリビングに見立てて
セッティングした研究室で「食べる」「飲む」「読む〔注視〕」「読む〔めくる〕」
「書く」の 5 行動をそれぞれ含む生活の様子を撮影し,学習,認識データとして
計 87 分 20 秒の動画データを得た.
5.2 各種実験結果
5.2.1 HMM による行動認識結果
予備実験として行ったオプティカルフローを用いた HMM による行動認識結果
(図 13∼29, 表 2) を以下に示す.また,学習データには 3.1 節で作成した各行動の
入力データのうち,ランダムに選んだ 10 サンプルずつ,認識データも同様に学
習データとして選ばれたデータ以外のサンプルからランダムに 10 サンプルずつ
選んだものを用いた.以下, グラフの縦軸は対数尤度,横軸はフレーム数を表し,
各系列は DRINK= 飲む,EAT= 食べる,READ1= 読む〔注視〕,READ2= 読む
〔めくる〕,WRITE= 書くに対応する.以下は各グラフ,表の説明である.
• 図 10∼ 図 12:飲むの一例
• 図 13:ペットボトルを持って飲む動作を行ったときの尤度の変化
• 図 14∼ 図 16:食べるの一例
• 図 17:茶碗を持ってご飯を食べるときの尤度の変化
• 図 18∼ 図 20:読む〔注視〕の一例
• 図 21:本を読んでいる〔注視〕ときの尤度の変化
• 図 22∼ 図 24:読む〔めくる〕の一例
• 図 25:本をめくるときの尤度の変化
• 図 26∼ 図 28:書くの一例
• 図 29:ノートに文字を書くときの尤度の変化
19
図 10 飲む (初期状態:手を伸ばし始め)
図 11 飲む (中間状態:飲む)
1
38 75 112 149 186 223 260 297 334 371 408
-12
-13
-14
DRINK
EAT
READ1
READ2
WRITE
-15
-16
-17
-18
-19
-20
図 13 尤度の遷移 (飲む)
図 12 飲む (終了状態:手を下ろす)
• 表 2:認識データ 50 サンプルの認識結果
「飲む」:120 フレーム ∼180 フレーム (手を上げる動作) あたりで「飲む」と「読
む〔めくる〕」の尤度が接近し,220∼260 フレーム (図 11:飲む動作) あたりで「書
く」以外の行動の尤度が接近し,その後「飲む」の尤度のみが高い値を維持する.
「食べる」:120 フレーム ∼130 フレーム (手を上げる),130 フレーム ∼150 フレー
20
図 14 食べる (初期状態:手を伸ばし始め)
図 15 食べる (中間状態:食べる)
1
27 53 79 105 131 157 183 209 235 261 287
-12
-12.5
-13
DRINK
EAT
READ1
READ2
WRITE
-13.5
-14
-14.5
-15
-15.5
-16
図 17 尤度の遷移 (食べる)
図 16 食べる (終了状態:手を下ろす)
21
図 18 読む〔注視〕(初期状態:注視)
図 19 読む〔注視〕(中間状態:注視)
1
-8
-9
-10
-11
-12
-13
-14
-15
-16
-17
-18
46 91 136 181 226 271 316 361 406 451 496
DRINK
EAT
READ1
READ2
WRITE
図 21 尤度の遷移 (読む〔注視〕)
図 20 読む〔注視〕(終了状態:注視)
22
図 22 読む〔めくる〕(初期状態:注視) 図 23 読む〔めくる〕(中間状態:めくる)
1
5
9 13 17 21 25 29 33 37 41 45 49 53
-12
-13
-14
-15
-16
-17
-18
DRINK
EAT
READ1
READ2
WRITE
-19
-20
図 25 尤度の遷移 (読む〔めくる〕)
図 24 読む〔めくる〕(終了状態:注視)
23
図 26 書く (初期状態:書く)
図 27 書く (中間状態:書く)
1
85 169 253 337 421 505 589 673 757 841 925
-8
-9
DRINK
EAT
READ1
READ2
WRITE
-10
-11
-12
-13
-14
図 29 尤度の遷移 (書く)
図 28 書く (終了状態:書く)
24
行動
正しく認識
誤認識
認識率 (%)
誤認識した動作
食べる
18
2
90
読む (注視)(1), 書く (1)
飲む
18
2
90
食べる (2)
読む〔注視〕
12
8
60
書く (8)
読む〔めくる〕
13
7
65
飲む (5), 読む (注視)(1), 書く (1)
書く
20
0
100
合計
81
19
81
表 2 オプティカルフローによる HMM の認識率
ム (図 15:口に食べ物を入れる),150 フレーム ∼260 フレーム (手を下ろす) に渡っ
て「食べる」と「飲む」の尤度が接近している.
「読む〔注視〕」:100 フレーム ∼220 フレーム (図 19:注視する) で「読む〔注視〕」
と「書く」の尤度が接近,220 フレーム ∼360 フレーム (静止状態) で「書く」の
尤度が一時的に高い値を維持し,同様に静止状態である 360 フレーム以降で「読
む〔注視〕」の尤度が高い値を維持する.
「読む〔めくる〕」:20 フレーム ∼30 フレーム (図 23:手を上げる) で「読む〔めく
る〕」と「飲む」の尤度が接近し,その後「読む〔めくる〕」の尤度が高い値を維
持する.
「書く」:260 フレーム ∼420 フレーム (図 27:書く) で「書く」と「読む〔注視〕」
の尤度が接近し,以降同様に書く動作が続けられ,一時的に「書く」が高い尤度
を維持するが,680 フレームからは再びで「書く」と「読む〔注視〕」の尤度が接
近する.
表 2 は HMM による行動認識が全体で 86%の認識率であることを示し,誤認識で
出力されたのは「飲む」については “食べる”のみを,
「読む〔注視〕」については
25
“書く”のみを,
「読む〔めくる〕」については “飲む”のみである.
5.2.2 行動判別のオンラインセグメンテーション実験
5.2.1 節では認識データとして,手動で行動のセグメンテーションを行ったもの
を使用したが,システムのみで連続的に行われる日常行動のオンライン認識を行
う際,その認識率を高めるためには,行動の開始点と終了点を考慮に入れて認識
を行う必要がある.また,人間は日常行動を行うとき行動と行動の間をあける事
がよく行われ,これは動きのある時間に比べて十分長い.よって 5.2.1 節のよう
に,
「食べる」「飲む」「読む (めくる)」という動きが観測できる行動と「読む (注
視)」「書く」という動きがほとんど観測できない行動を同時に認識すると,多く
の場面で「読む (注視)」「書く」が認識され,動きが観測できる 3 つの行動がほ
とんど認識されないという問題が発生する.よって,以後は動きのある 3 つの行
動についてのみ HMM による尤度計算を行い,動きがない 2 つの行動については
別の方法で認識を行うこととする.
まずは動きのある行動を認識するための行動のセグメンテーションを行う流れ
を以下に示す (図 30).
1. 日常行動を行っている動画データから 3.1 節の手法を用いて HMM の入力パ
ラメータ (動き情報) を抽出し,これを 1 分間隔で (1800 フレームずつ) 切り
出す.今後はこの切り出された入力データ単位で処理を行う.
2. 本実験で用いる Viterbi アルゴリズム (3.3 節) は最初に入力されたデータを
開始点,次に入力されたデータを終了点として尤度計算が行われ,新しい
データが入力されるたびに終了点を更新して尤度計算が行われる.よって,
本実験では入力データの開始点を 0.5 秒 (15 フレーム) ずつずらし,1800 フ
レーム目まで 1 フレームずつを終了点として毎回尤度計算を行うことで,
様々な開始点,終了点における行動認識を行う.
つまり 1 プロセスにおける入力データは 1800 個であるため,
° 1 回目:1 フレーム目を開始点,2∼1800 フレーム目をそれぞれ終了点と
26
開始状態
長時間の動画データ
HMM の入力パラメータの算出
(1 フレームごとの動き情報の抽出)
1 分間隔で(1800 フレームずつ)
入力パラメータを切り出す
HMM の入力データ
認識の開始点を 0.5 秒(15 フレーム)ずつ
ずらした HMM による尤度計算
119 ヶ所の開始点に
終了点は 1800 フレームまで
毎回 1 フレームずつずらし
て計算が行われる
おける計算結果
計算結果より各フレームにおいて行動
モデルそれぞれについて最も高い尤度
及びその開始点を調べる
各フレームにおけるそれぞ
れの行動モデルの最高尤度
各フレームにおいて、尤度が閾値以上とな
った行動モデルを認識行動として推定する
終了状態
図 30 行動判別のオンラインセグメンテーションの流れ
27
した尤度計算
° 2 回目:16 フレーム目を開始点,17∼1800 フレーム目をそれぞれ終了点
とした尤度計算
..
.
° n 回目:15×(n-1)+1 フレーム目を開始点,15×(n-1)+2∼1800 フレーム目
をそれぞれ終了点とした尤度計算
のように行った.
また認識対象の行動は最低でも 1 秒以上の動作時間があるものとし,開始点
から終了点まで 30 フレーム以上あるものとした.これにより開始点 119ヶ
所における尤度計算の結果が得られた.
3. 開始点 119ヶ所における尤度の計算結果より,各フレームの行動モデルにつ
いて最も高い尤度の値及びその開始点を検索する.ただし,尤度計算に用
いた各行動モデルは状態数を最低でも 8 状態としているため,開始点から
8 フレーム以内の尤度の計算結果は非常に不安定となっている.そのため,
最も高い尤度を検索する際,開始点から 10 フレーム以内のものは比較対象
外とし,考慮に入れないものとする.
4. 各フレームの行動モデルの尤度の最大値を調べ,閾値以上となる行動モデ
ルを認識行動として推定する.この閾値は 5.2.1 節より,正しく認識したと
きの尤度の遷移から求めた.
「食べる」「飲む」を連続的に行っているときのオンラインセグメンテーショ
ン実験結果を図 31 に示す.
行動の判別のための尤度の閾値を-10 とし,図 31 において閾値以上の尤度を出
力しているフレームを調べると,図上部のように食べ物や飲み物を口に運ぶとい
う動作を行っている.ただし,
「食べる」と「飲む」の尤度は非常に似た遷移をし
ており,この二つの行動の判別が困難であると思われる.
.
28
食べる
食べる
1
-6
-8
-10
-12
-14
-16
-18
-20
-22
201
401
601
飲む
フレーム数
801 1001 1201 1401 1601 1801
検出された「飲む」の
開始点と終了点
度尤
数対
検出された「食べる」の
開始点と終了点
食べる
飲む
飲む
食べる
食べる
食べる
めくる
食べる
飲む
図 31 「食べる」「飲む」の検出
5.2.3 詳細解析と HMM を統合した行動認識の試み
5.2.2 節の手法による HMM を用いて「食べる」
「飲む」
「読む (めくる)」の 3 行
動の認識を行う場合,それぞれの行動モデルに似た動き情報が含まれているため
に,非常に誤認識を起こしやすくなっている.よって,より正確な行動認識を行
うために,これら 3 行動の尤度が閾値以上になったとき,顔や手の動き情報を詳
細に解析した結果を考慮に入れて最終的な行動認識を行うことを考える.また本
実験の HMM は動きがある行動について高い尤度を出力するため,ある連続した
フレームにおいて低い尤度が続けて出力された場合,そのフレームでは動きが観
測されなかったと見ることができる.このことを用いて,動きがほとんど観測で
きない「書く」「読む (注視)」を 4 章の詳細解析を行うことで認識する方法を考
29
える.
以下に詳細解析と HMM を統合した行動認識の流れを示す (図 32).このうち詳
細カメラは,顔と手の肌色領域の距離が閾値以内であれば顔を,閾値以上であれ
ば手を常に観測するように制御している.
開始状態
N フレーム目における
HMM の計算結果
手の動き量を求め、閾
値以上の動きを観測
No
閾値以上の尤度を算出した
行動モデルが存在する
Yes
Yes
「書く」が行われたと推定
肌色領域(顔と手)の距離が閾値以上
何も行っていないと推定
食べる行動尤度-重み 1
飲む行動尤度-重み 2
めくる行動尤度×重み 3
Yes
No
食べる行動尤度×重み 1
飲む行動尤度×重み 2
めくる行動尤度-重み 3
No
詳細画像内の肌色領
域の動き量を求め,
各行動の重みを決定
詳細カメラ
画像
重みをした尤度で最も高い値を
示した行動モデルが行われたと
推定
終了状態
図 32 詳細解析と HMM を統合した行動認識システム
30
1. N フレーム目の各行動の尤度のうち閾値以上の尤度を出力している行動モ
デルが存在するか調べる.
2. 閾値を越える行動モデルが一つも存在しないとき,そのフレームでは動き
がほとんど観測されなかったとみなし,
「書く」の詳細解析を行う.
「書く」
が行われるとき,手をテーブルの上で動かすという動作が行われ,顔と手
の距離が十分に離れていると考え,撮影されている手の詳細画像を解析す
る.この画像内の肌色領域で閾値以上の動き量を検出した場合「書く」が
行われたと推定し,検出されなかった場合「何も行われていない」と推定
する.
3. また閾値を越える行動モデルが一つでも存在するとき,詳細画像内の肌色
領域の動き量により重みを決定し,重みを考慮に入れた各行動モデルの尤
度を算出する.このときの算出方法は顔と手の距離により決定し,その距
離が閾値以内のとき「食べる」
「飲む」のどちらかの尤度が高くなるように,
閾値以上のとき「読む (めくる)」の尤度が高くなるように行う.また重み
については,
「食べる」
「読む (めくる)」は動き量が大きいほど,
「飲む」は動
き量が小さいほど大きな重みとなるように設定する.
4. 最後に重みを考慮した尤度のうち,最も高い値を示した行動モデルをその
フレームにおける認識行動とする.
このシステムを動作させたときのイメージ図を図 33 に示す.
このイメージ図は図 31 で用いた尤度遷移図の 120∼180 フレームの値について
詳細解析を行ったとき,解析結果から重みを算出し,それを考慮に入れることで
対応する行動モデルの尤度が高くなり,正しい行動認識が行えている様子を示し
ている.
31
尤度が閾値を超えた.
(尤度の大きさを比べると
「飲む」>「食べる」
となっている)
詳細解析を行う
顔と手の距離が閾値以内であるため
顔を詳細解析
動き量に応じて
重みを決定する
詳細画像内の肌色領域で
閾値以上の動きを検出
重みを考慮した
尤度を算出
尤度の大きさが
「食べる」>「飲む」
となり,認識結果
として「食べる」を
出力する
図 33 システム動作時のイメージ
5.3 考察
まずはオプティカルフローを用いた HMM による行動認識 (5.2.1 節, 図 13∼ 図
29) の結果について述べる.
表 2 より 5 行動全体の認識率が 8 割を超えているため,オプティカルフローを
用いた HMM による行動認識は有効であると考えられる.ただし,
「読む〔注視〕」
については認識データの 50%が「書く」であると誤識率されている.この「読む
〔注視〕」と「書く」は動き情報が非常に少なく,代表される姿勢変化が共に静止
状態であり,その差を決めるのは手のわずかな動きや新聞,本などの揺れ程度で
ある.よってこの二つの行動が行われているときの尤度の差は常にわずかなもの
であり,
「書く」の認識率が 100%という結果も信頼性に乏しいと考えられる.
図 13∼ 図 29 の尤度の遷移から「食べる」と「飲む」,
「飲む」と「読む〔めく
32
る〕」の尤度の差が急激に小さくなる部分が存在する.これは手を上下に動かす
類似動作の部分に相当し,類似動作が尤度の差を小さくする要因となることを示
している.また「飲む」とき体の動きが一時静止するが,この静止状態を代表姿
勢としてもつ「読む〔注視〕」の尤度も一緒に高くなり,結果その尤度の差が小
さくなる部分も存在する.
次に行動判別のオンラインセグメンテーション実験 (5.2.2 節) について述べる.
図 31 より様々な開始点と終了点から HMM による行動認識を行うことで,任
意のタイミングで行われた行動を検出することができている.また各行動の尤度
の遷移のピークを調べると,
「食べる」については口に食べ物を入れている場面,
「飲む」についてはコップなどを口元にあてて飲んでいる場面と,いずれも手を口
元に近づける動きによって尤度が上昇していることがわかる.よって,
「食べる」
「飲む」は手を口元に近づける動作により,お互いの尤度が高まり,誤認識を起
こしやすいことがわかる.
このように行動のセグメンテーションを行うことで,HMM による行動を検出
することができたが,図 30 のような複雑で多数の処理を行っているため処理に
時間がかかり,リアルタイム処理に利用することが非常に困難である.よってリ
アルタイム処理を行う場合,この処理を簡潔にしたり,開始点をずらすフレーム
量を大きくする必要がある.ただし,これは認識率とのトレードオフとなるため
慎重に決めなければいけない.
次に詳細解析と HMM を統合した行動認識の試み (5.2.3 節) について述べる.
先にも述べたとおり,各行動モデルの尤度が閾値以上まで上昇したとき,
「食べ
る」
「飲む」は手を顔に近づけており,また 2 行動の差は 4.1 節で述べたとおり顔
を詳細解析することで区別をつけることができると考えられる.よって,5.2.2 節
の手法により得られた尤度の遷移から,その尤度が閾値を越えたものについて詳
細解析の結果を重みとして考慮することで,より正確な行動認識が行えると考え
られる.ただし各行動の詳細解析として肌色領域の動き量を用いているが,行動
によって妥当な動作速度というものがあり,重みを決定する際はこのことを考慮
に入れるべきであると考えられる.
また図 31 で表れているように,尤度の値が比較的小さい部分は体の動きがほ
33
とんどない部分にほぼ対応している.よって,尤度の値が閾値以下であることで
「書く」などの動きをほぼ観測できない行動を検出するために詳細解析を行うこ
とは可能であると考えられる.ただし,体のおおまかな動きがほぼ観測できない
が手は動いているという状況は「書く」だけの動作ではないため,必ずしも妥当
な解析方法であるとはいえない.よって,手にペンのような棒状のものを持って
いるや手の形 (ペンの握り方) のような,より行動の特徴を検出する手法を今後考
えていく必要がある.
最後にこれらの問題点が解決したときの行動認識手法 (図 34) について述べる.
まず広域カメラから HMM の入力データ (パラメータ) を算出し,行動のセグメ
ンテーションを行いながら HMM による大まかな行動認識を行う.そして各行動
モデルの尤度を調べたとき,最も大きい尤度が他の行動モデルの尤度と比べて有
意な差がある場合,その最も大きい尤度をもつ行動モデルを認識された行動とし
て推定する.ただし先に述べたとおり,
「食べる」
「飲む」など同種の動作を特徴的
な動きとして含む行動モデルは非常に近しい尤度を出力する場合がある.このと
き,最も大きい尤度を持つ行動の画像的特徴を解析することでより確度を上げた
り,次に大きな尤度を持つ行動にあわせた解析を行うことでこの近しい尤度に差
(重み) を考慮することでより正確な行動認識が行うことができると考えられる.
この行動を識別する画像的特徴の解析として,手に持った物体の認識 (把持物
検出) が挙げられる.人間は意思をもって行動を行うとき,多くの場合道具を用
いる.本研究で挙げた日常行動を例にすると「食べる」は “箸やスプーンのよう
な食器”,
「飲む」は “コップやペットボトルのような容器”,
「読む」は “本や新聞の
ような書籍”,
「書く」は “鉛筆のような文房具”が相当する.本研究において広域
カメラにより手の検出を行っており,この手を詳細カメラで高解像度で撮影する
ことで,広域カメラからでは見えなかった把持物を検出できるのではないかと考
えられる.このとき “箸”のように手の中におさまるものはより手をズームした画
像を,“コップ”や “ペットボトル”のように手の外側に存在するものは少しひいた
画像を撮影することで検出しやすくなると考えるため,観測しているモノによっ
てズーム率や視点を変える工夫があることが望ましい.
以上のように誤認識を起こしやすい行動について,それに対応した詳細解析の
34
結果を重みという形で考慮することで従来の HMM のみでは認識しづらい似た動
作を含む行動も正確に認識することができると考えられる.
開始状態
尤度の差が小さきなったときの
行動モデルに対応した解析戦略
広域カメラ画像
各種パラメータの算出
(HMM の入力データ)
詳細カメラ画像
特徴的な画像情報の解析
(把持物検出など)
HMM による大まかな行動認識
各行動モデルの尤度に
有意な差がある
Yes
No
解析結果による重みの決定
重みを考慮に入れた各行動
モデルの尤度の再計算
最も高い尤度を示した行動モデル
を認識された行動とする
終了状態
図 34 提案する行動認識手法
35
6. 終わりに
6.1 まとめ
本稿では,
「オプティカルフローを用いた HMM による大まかな行動認識」と
「ズームアップした首振りカメラによる詳細な特徴解析」を行うことで,従来で
は困難であった類似行動の識別ができる手法を提案し,実験結果により有効性を
しめした.実験より,類似動作が行われていても正しく行動を認識していること
が分かる.これによりカメラによる撮影画像系列から認識できる人間の行動の幅
が広がり,様々な場面でコンピュータから人間の生活をサポートするために動く
ことができるようになると期待できる.
6.2 問題点と今後の課題
• HMM による行動認識の改良
本システムは HMM の遷移の様子からすべての挙動を決定するため,HMM
の認識率を高め,ある程度の絞込みができる必要がある.図 31 で示すとお
り,大まかな行動の開始点,終了点を検出することができたが,いずれも
人間が判断する行動の開始点と終了点の範囲内に内包する形となっており,
詳細解析と絡めるとき,このことを念頭に入れて戦略を考えていかなけれ
ばならない.また現在は単純に画像内の動き量から観測を行っているため,
それが何の動きであるのかまでは考慮しておらず,手をテーブルの上で若
干上下に動かし, 次に後に首を横に向けるといった動きをすることで, 手が
上下したときと似た HMM の入力データができあがる.このために特に行
動を行っていないのに「食べる」や「飲む」といった行動をおこなったと
誤認識されることがあるため, 改良を加える必要があると考える.
• 観測を行う方向
本研究では簡単化のために人間の正面から撮影を行っているが,家庭内
利用を考えたとき,どうしても人間の正面から撮影できない場面が存在す
36
る.よってこの手法が真正面だけでなく斜め前からでも有効であるのか,自
己オクルージョンが発生しても正しく認識できるのか、といった問題に取
り組む必要がある.
• 認識行動の増加
本研究では日常行動のうち比較的簡単な動作のみを取り扱ったが,テレ
ビをつける,見る,掃除をするなど人間が普段からよく行う行動はたくさ
ん存在する.これらの行動を認識できるようになるために,新たな詳細カ
メラ制御やネットワーク家電からの情報などを組み合わせて認識を行う方
法が考えられる.これら認識行動数を増やすことができれば,さらにコン
ピュータシステム側からサービス提供ができる幅が増えると期待できる.
• 詳細カメラで解析を行うものの検討 本研究では人間の特定部位を観察したときに現れる変化のみを取り扱っ
たが,他にも行動の差異を解析するための特徴量が存在する.例えば把持
物を検出し, 姿勢変化と物体の関係から行動認識を行ったり,人間の視線や
顔の向きから興味を示しているモノを検知し, 同様にして行動認識を行うこ
とができると考えられる.このように人間の周辺で起こる変化を用いるこ
とでより行動の認識精度を上げることができる期待できる.
37
謝辞
本研究は, 奈良先端科学技術大学院大学情報科学研究科情報処理学専攻の木戸
出 正継教授の御指導の下で行いました.研究を進めるにあたり, 様々な御指導, ご
助言を賜りました木戸出 正継教授に深く感謝いたします.また研究を進める上
で, 丁寧な御検討,御教示いただきました本研究科小笠原 司教授に深く御礼申し
上げます.また様々な点において適切な御助言を頂き,御指導して頂きました本
研究科河野 恭之助教授に深く感謝いたします.本研究の遂行から,論文執筆に至
るまで様々な点において幅広い専門知識による適切な御助言を頂きました本研究
科浮田 宗伯助手に心より感謝いたします.そして,研究にとどまらず,様々な面
で助言,手助けをして頂きました知能情報処理学講座の学生の皆様に深く感謝い
たします.
38
参考文献
[1] 木内豊, 河村竜幸, 河野恭之, 木戸出正継: “ 日常生活におけるタスク推定の
ためのタスクと物体操作系列の関連性調査.” ヒューマンインタフェースシン
ポジウム 2005, Sep. 2005.
[2] 総務省.23-23 “年齢階級,ふだんの就業状態,行動の種類別総平均時間.”2001.
[3] 総務省.23-24: “行動分類別 1 日の行為者率及び行為者平均時間.”2000.
[4] 服部傑, 亀田能成, 大田友一: “非日常性の認識に向けた多数センサの関連付
け.” 電子情報通信学会 技術研究報告 MVE, Vol.104, No.489, ISSN 0913-5685,
MVE2004-43, pp.19-25, 2004
[5] 楠本昌弘, 三浦浩一, 松田憲幸, 瀧寛和, 堀聡, 安部憲広: “モバイル端末におけ
る複数センサ連携による生活行動内容推定技術の提案.” 人工知能学会全国大
会(18 回)3D3-05,Jun.2004.
[6] 林智天, 川原圭博, 田村大, 南正輝, 森川博之, 青山友紀: “マルチセンサを用い
たユーザコンテキストの推定に関する一検討.” 電子情報通信学会,Sep,2003.
[7] 輿石欣吾, 上野敦志, 木戸出正継: “自発的にコミュニケーションを図るロボッ
トのための判断モデル構築の試み.” 第 16 回人工知能学会全国大会, 1D1-03,
May.2002.
[8] 青木茂樹, 大西正輝, 小島篤博, 福永邦雄: “HMM による行動パターンの認識.”
電子情報通信学会論文誌 D-II, vol.j85-D-II, No.7, pp.1265-1270,July,2002.
[9] 信田洋, 港隆史, 石黒浩: “分散視覚環境における人間の行動認識に向けた行
動辞書の作成.” 日本ロボット学会第 20 回学術講演会予稿集, 2G15, 2002.
[10] 古川雅之, 神原宣雄, 港隆史, 石黒浩: “View and Motion-based Aspect Model
に基づく人間行動認識システム.” 日本ロボット学会第 20 回学術講演会予稿
集, 2G16, 2002.
39
[11] 青木茂樹, 岩井嘉男, 大西正輝, 小島篤博, 福永邦雄: “人物の位置・姿勢に注目
した行動パターンの学習・認識と非日常状態検出への応用.” 電子情報通信学
会論文誌 D-II, vol.j87-D-II, No.5, pp.1083-1093,May,2004.
[12] 青木茂樹,大西正輝,小島篤博,岩橋由雄,福永邦雄: “人物の行動パターン
に注目した異常通知システム.” 電子情報通信学会技術報告,PRMU2000-220,
pp.139-146,Mar.2001.
[13] 北橋忠宏, 福永邦雄, 小島篤博, 長田典子: “人間行動とその対象物体との機能
に着目した協調的認識機構と認識結果の自然言語表現.” 情報学 特定領域研
究,「IT の深化の基盤を招く情報学研究, 研究項目 A03 人間の情報処理の理
解とその応用に関する研究,2005.
[14] 井上博司,土居元紀: “いたわり感通信における生活行動の検出.” 情報処理
学会関西支部大会, ビジュアルインフォメーション研究会, 一般講演,Oct,2003.
[15] Daiki Kawanaka, Shun Ushida, Takayuki Okatani, Koichiro Deguchi:
“HHMM Based Recognition of Human Activity from Motion Trajectories in
Image Sequences.” MVA2005, May, 2005.
[16] 下坂正倫,祢次金佑,森武俊,佐藤知正: “日常動作の概念関係に着目した運
動のオンライン分節化.” 日本機械学会ロボティクス・メカトロニクス講演
会.神戸,Jun, 2005.
[17] 齊藤雅紘, 小島篤博, 北橋忠宏, 福永邦雄: “身体の軌跡情報の解析に基づいた
動作と動作対象の統合的認識.” FIT2005,Sep,2005.
[18] 大川和宏, 高野渉, 中村仁彦: “統計的運動モデルの階層化と合成による動作
認識.” 日本機械学会ロボティクス・メカトロニクス講演会. 神戸,Jun, 2005.
40
Fly UP