修士論文セマンティックオブジェクト獲得のための一人称視点RGB

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download 修士論文セマンティックオブジェクト獲得のための一人称視点RGB

Transcript

修士論文セマンティックオブジェクト獲得のための一人称視点RGB

NAIST-IS-MT1451116
修士論文
セマンティックオブジェクト獲得のための
一人称視点 RGB-D 映像を用いた手動作の識別
山
亘
2016 年 3 月 14 日
奈良先端科学技術大学院大学
情報科学研究科
本論文は奈良先端科学技術大学院大学情報科学研究科に
修士 (工学) 授与の要件として提出した修士論文である。
山
亘
審査委員：
小笠原司教授
（主指導教員）
横矢直和教授
（副指導教員）
高松淳准教授
（副指導教員）
セマンティックオブジェクト獲得のための
一人称視点 RGB-D 映像を用いた手動作の識別 ∗
山
亘
内容梗概
家事支援ロボットが実際に家庭でサービスを自律的に提供する場合，日用品に
対してどこで，どのような状況で，どのような操作がなされるかという取り扱い
の知識を持っている必要がある．多種多様な日用品と状況についての情報を手作
業で入力することは困難であるので，各家庭で人が日用品を取り扱う様子を記録
して自動的に情報を獲得することを考える．
本研究では，セマンティックオブジェクト—人の把持手形状・手動作・周辺環
境で意味付けした物体—を提案し，一人称視点 RGB-D 映像から，操作対象物体・
把持手形状・手動作・周辺環境の情報を抽出するシステムを構築する．まず，時
系列ポイントクラウドの各フレームにおいて手・操作対象物体・環境の点群を抽
出し，抽出した手点群を手形状情報を持った教師データから類似度探索すること
で，フレーム毎の手形状と手位置を推定する．次に，頭部センサの位置姿勢を推
定することで時系列のセンサ座標系での手の位置情報から世界座標系での手動作
を推定する．さらに，手動作の速度方向の変化を用いて手動作を識別する．実際
に新規形状物体に対して手動作の識別実験をおこない，提案システムの有効性を
示した．
キーワード
一人称視点映像, RGB-D 映像解析, 手形状推定, 手動作推定, セマンティックオブ
ジェクト
∗
奈良先端科学技術大学院大学情報科学研究科修士論文, NAIST-IS-MT1451116, 2016 年 3 月
14 日.
i
Hand Motion Recognition Using Egocentric
RGB-D Video for Acquiring Semantic Objects∗
Wataru Yamazaki
Abstract
It is necessary for a housework-support robot to have the ability to handle daily
objects in order to provide services autonomously. Instructions of the method
humans manipulate the objects in their daily activities is helpful for a robot to
overcome the great variety in daily objects and situations.
Therefore, I propose the concept of Semantic Object which includes the human
hand grasping pose, manipulation and environment. In this thesis, the hand
motion is acquired from egocentric RGB-D video. First, the proposed method
extracts 3D points of the hand, the handled object and its surroundings from a
point cloud that is obtained from a head-mounted RGB-D sensor. Next, the hand
pose is estimated by aligning the extracted hand point cloud with the pre-recorded
data set of hand point clouds. The position and orientation of a head-mounted
sensor are estimated to acquire the hand motion in the world coordinates. Finally,
the type of hand motion is classiﬁed using a series of hand velocity directions.
An experiment demonstrated the eﬀectiveness of the method for hand motion
recognition.
Keywords:
Egocentric Vision, RGB-D Video Processing, Hand Pose Estimation, Hand Motion Estimation, Semantic Object
∗
Master’s Thesis, Graduate School of Information Science, Nara Institute of Science and
Technology, NAIST-IS-MT1451116, March 14, 2016.
ii
目次
1. はじめに
1
1.1
研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
関連研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2.1
RGB-D センサ . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2.2
人間の動作による物体・場所への意味付け . . . . . . . . .
3
1.2.3
人の手動作の解析 . . . . . . . . . . . . . . . . . . . . . . .
4
1.3
研究目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4
本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2. 三次元形状抽出と手動作推定手法の概要
8
3. 三次元情報の抽出
10
3.1
平面除去およびクラスタリング . . . . . . . . . . . . . . . . . . .
10
3.2
手の検出と操作物体の分離 . . . . . . . . . . . . . . . . . . . . . .
12
3.3
右手・左手の判断 . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
4. 手形状の推定と手動作の識別
4.1
4.2
17
手形状の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
4.1.1
モーションキャプチャシステムを用いた教師データの作成
17
4.1.2
教師データとの比較による手形状推定
. . . . . . . . . . .
20
手動作の識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
4.2.1
頭部装着センサの位置姿勢推定 . . . . . . . . . . . . . . .
21
4.2.2
手動作の速度方向に基づく動作識別 . . . . . . . . . . . . .
22
5. 手動作識別実験
24
5.1
ウェアラブル一人称視点 RGB-D センサ . . . . . . . . . . . . . . .
24
5.2
実験条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
5.3
手形状推定の結果と考察 . . . . . . . . . . . . . . . . . . . . . . .
28
5.4
頭部センサ位置姿勢推定の結果と考察
32
iii
. . . . . . . . . . . . . . .
5.5
手動作の推定・識別の結果と考察 . . . . . . . . . . . . . . . . . .
6. おわりに
35
40
6.1
本論文のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
6.2
課題と今後の展望 . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
謝辞
43
参考文献
44
iv
図目次
1
Semantic Object . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2
Plane deletion using RANSAC algorithm . . . . . . . . . . . . . .
11
3
Clustering based on Euclidean distance . . . . . . . . . . . . . . .
11
4
The range of moving hands
. . . . . . . . . . . . . . . . . . . . .
12
5
Extraction hands and manipulated objects using skin color . . . .
13
6
Point cloud of environment . . . . . . . . . . . . . . . . . . . . . .
14
7
Distinction between right and left hands . . . . . . . . . . . . . .
15
8
Experimental setup . . . . . . . . . . . . . . . . . . . . . . . . . .
18
9
Motion capture markers on the hand . . . . . . . . . . . . . . . .
18
10
Cluster of hand points and marker points . . . . . . . . . . . . . .
19
11
Bottle used as a target object . . . . . . . . . . . . . . . . . . . .
19
12
Hand pose estimation . . . . . . . . . . . . . . . . . . . . . . . . .
21
13
Weight of Kinect v2 components . . . . . . . . . . . . . . . . . . .
24
14
Exploded view of Kinect v2 in a custom case . . . . . . . . . . . .
25
15
Head-mounted Kinect v2 . . . . . . . . . . . . . . . . . . . . . . .
27
16
Target object . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
17
Hand point clouds and estimated hand poses viewed from the sensor 29
18
Hand point clouds and estimated hand poses viewed from the front 30
19
Hand point clouds and estimated hand poses viewed from the left
side . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
20
Mean value of error in each joint . . . . . . . . . . . . . . . . . . .
31
21
Sensor coordinates . . . . . . . . . . . . . . . . . . . . . . . . . .
32
22
Estimated variation in head-mounted sensor position . . . . . . .
33
23
Estimated variation in head-mounted sensor posture . . . . . . . .
34
24
Estimated hand motion . . . . . . . . . . . . . . . . . . . . . . . .
36
25
Wrist velocity of the estimated hand motion . . . . . . . . . . . .
38
26
Wrist velocity of supervised data sets . . . . . . . . . . . . . . . .
39
v
表目次
1
Comparison between major RGB-D sensors in speciﬁcations . . .
3
2
Estimation error in sensor position . . . . . . . . . . . . . . . . .
33
3
Estimation error in sensor posture . . . . . . . . . . . . . . . . . .
34
4
Estimation error in hand position . . . . . . . . . . . . . . . . . .
37
vi
1. はじめに
1.1 研究背景
近年，ヒューマノイドロボットによる災害時支援 1 や Pepper2 の登場などで人
型ロボットへの注目が集まり，また掃除ロボットが家庭に普及し始めたことで，家
庭におけるサービスロボットに対する期待が高まっている．家事を支援するサー
ビスロボットが実際に家庭でサービスを提供する場合，日用品の取り扱いに関す
る情報，つまり，ある日用品に対してどこで，どのような状況で，どのような操
作がなされるかという情報を持っている必要がある．しかしながら，多岐にわた
る日用品に対して事前に取り扱いの情報を網羅的に入力することは困難である．
なぜなら，一つの日用品に対しても状況に応じて複数の操作があり，しかも同じ
用途の日用品でも多種多様な形状や外観を持ち，さらに同じ形状でありながら用
途の違うものが存在するからである．
日用品の取り扱いに関する情報の多様さという課題に対して，各家庭内に存在
する日用品やその取り扱い方法は有限であることから，人がロボットに教示する
手法が有用であると考えている．特に人型ロボットでは，その人間と似通った形
状と自由度から，人の動作を解析して教示データとして利用することができる [1]．
このような教示データには，人の把持の形状や詳細な動作に加えて，操作対象物
体の形状や外観はもちろんのこと，操作がどこで・どのような状況でなされるか
という周囲の環境についての情報も含まれることが望ましい [2]．例えば調理中に
お玉で鍋の中身をかき混ぜる操作は，鍋の中身が入っている時のみ，また場所は
主にキッチンでなされるため，周囲の環境情報の必要性がある．
教示のための情報を得るには，詳細な手動作については加速度センサやセンサ
グローブなどを人に取り付けて記録することで [3]，周辺環境や対象物体について
は環境中に設置した画像センサなどで記録することで実現できる [4]．しかし，身
体に装着したセンサによる動作の阻害や，計測場所の拡大に伴う画像センサ設置
1
Defense Advanced Research Projects Agency: “DARPA ROBOTICS CHALLENGE FINALS 2015,” http://www.theroboticschallenge.org, 2016.
2
SoftBank Group Corp.: “Life with Pepper（ペッパーと暮らす）｜特集｜ロボット｜ソフト
バンク”, http://www.softbank.jp/robot/special/pepper, 2016.
1
数の増加，身体による対象物体の遮蔽などの問題を孕んでいる．
これらのセンサに関する問題に対しては一人称視点映像による記録・解析 [5]
が有効であると考えている．頭部に装着した画像センサからの映像を用いること
で，計測場所が限定されにくく，身体による遮蔽も少なく記録できる．また，対
象物体や周辺環境と同時に手動作を記録することができ，センサ数の増加や動作
の阻害も発生しにくい．最近では，Kinect に代表される RGB-D センサの登場に
よりカラー映像と距離画像を小型軽量なセンサ一つで取得できるようになったた
め，一人称視点の三次元点群情報を解析することで，必要な情報を抽出すること
が可能になってきた．ただし，一人称視点映像では常にセンサが移動しているた
め世界座標系でのセンサの位置姿勢を求めなければならないという問題がある．
1.2 関連研究
1.2.1 RGB-D センサ
画像センサの一つに被写体表面までの距離情報を画素に格納できる距離画像セ
ンサがある．距離画像センサで得られた画像とカメラの内部パラメータを利用す
ることで，各画素に対応する三次元空間上の点を算出することができる．画像全
体から得られた三次元点群データはポイントクラウドと呼ばれ，被写体の実際の形
状や大きさを求めることができる．近年では，Microsoft 社から発売された Xbox
360 Kinect センサー（以下 Kinect v1 とする）を代表とする，カラー画像センサ
と距離画像センサを組み合わせた小型軽量な RGB-D センサが低価格で入手でき
るようになり，医療分野などでも活用されている [6]．
Table 1 に市販されている主要な RGB-D センサの仕様を示す．Kinect v1 の後
継機として発売された Kinect for Windows v2（以下 Kinect v2 とする）はセン
サ解像度・画角性能において優れているが，ASUS 社から発売されている Xtion
は重量の面で勝っている．Creative 社の Senz3D は PC モニタ前などでのジェス
チャ認識を目的としており，距離取得可能距離は 1 [m] 前後となっている．
2
Table 1 Comparison between major RGB-D sensors in speciﬁcations
Speciﬁcations
Kinect v1
Kinect v2
Xtion
Senz3D
Color resolution [px]
640 × 480 1920 × 1080 640 × 480
1280 × 270
Depth resolution [px]
320 × 240
512 × 424
320 × 240
320 × 240
Depth range [m]
0.4 – 3.0
0.5 – 8.0
0.8 – 3.5
0.15 – 1.0
Horizontal FOV [deg]
57
70
58
74
Vertical FOV [deg]
43
60
45
58
Weight (w/o cables) [g]
440
680
170
180
1.2.2 人間の動作による物体・場所への意味付け
人間の動作を解析して物体に意味付けする研究として，Zhu らは道具を扱って
いる人間の動作を収録した RGB-D 映像から複数の物理情報を解析して物体をモ
デル化し，また，得られる物理情報をもとに，別の物体群の中からタスク遂行に
最も適切な物体と動作を選択することを実現している [7]．この研究では，物体
の三次元モデルと物体を扱う人間の動作映像の組からなるデータセットを用いて
いる．学習用の動作映像には，複数の物体の中から人がどの物体を選択し，どの
ような動作でタスクを遂行したかが，人の前方斜め上視点からの時系列 RGB-D
データとして収録されており，選択された物体の三次元モデルから材質と体積を，
人間の手の動作と物体の軌道から接触点と位置変化を推定し，これらの物理情報
から重さ，加速度，力などの高次な物理情報を取得している．三次元モデルの作
成には KinectFusion アルゴリズム [8] を利用して静的環境から三次元形状を復元
しており，手の動作の推定には人物姿勢推定 [9] を利用して全身の関節位置を取
得している．
また，Koppula らは移動双腕ロボット視点の RGB-D 映像から，同様の人物姿勢
推定を利用して人間の動作を推定し，手の周辺領域に限定して色特徴量と形状特
徴量を用いて識別された物体に対してなされる動作要素として紐付けている [10]．
物体と動作要素の関係や，物体と物体の関係，動作要素と動作要素の時系列関係
を Markov Random Field (MRF) によってモデル化し，新規 RGB-D 映像の動作
3
を識別している．
Pieropan らは，作業者の正面に置かれた RGB-D センサで得られた人の動作か
ら，物体を手との相対位置関係の変遷のみで表現し，その変遷を文字列カーネル
を用いて特徴空間に移すことで，物体の機能的特徴を記述している [11]．物体の
機能記述子を導入することで，キッチンでおこなわれる作業の RGB-D 映像から，
物体の形状や外観にかかわらず道具・材料・まな板・容器の分類を高い精度で実
現している．
このように人間の動作と物体の関連付けは有用であるが，現状では三人称視点
映像を用いて全身もしくは上半身を姿勢推定しているため，動作として利用でき
る情報は主に手の移動軌跡のみとなっており，把持方法や手の角度などの詳細な
情報は得られていない．また，人物姿勢推定のために少なくとも上半身が写って
いる必要があり，センサに正対して動作をおこなう必要があるため，計測場所が
制限されるという問題がある．
一方で，人間の動作を解析して環境や場所に対して意味付けする研究として，
Li らは移動ロボットの視覚から得られる人間の位置と，人間に装着したモーショ
ンセンサから得られる動作から家具を推定し，自己位置推定によって得た二次元
地図上に家具のラベルを振り分けている [12]．また，木村らはモーションセンサ
を人間に装着して得られる動作を分類し，環境の三次元点群地図に意味付けをし
ている [13]．このように人間の動作で意味付けされた環境地図を用いれば，どこ
でどのような動作がおこなわれるといった地図だけでは取得できない情報を得る
ことができる．しかし，動作による環境への意味付けにおいても現状は全身の動
作による意味付けにとどまっている．
1.2.3 人の手動作の解析
物体に対する人の手の姿勢や詳細動作を解析する研究においてはセンサを搭
載したグローブによる方法 [14] や，手首に装着したカメラ・加速度センサ・マイ
クなど複数のセンサデータから動作推定する方法 [15]，環境に設置したカメラか
らの映像による方法 [16] などが提案されている．Lei らはキッチン天井に設置し
た RGB-D センサの映像を解析することで調理における行動を認識している [17]．
4
RGB-D 映像から手の移動軌跡と物体位置変化を抽出し，物体と手の距離を利用
して接触状態を判別し，物体の移動から把持されているかどうかを判別している．
物体が把持されている間の手の移動軌跡から，事前に用意した物体とその物体に
対して起こりうる動作の対応リストを参照することで高精度に行動を認識してい
る．しかしながら，物体と動作の対応リストは調理に関するものに限られており，
また，手の動作も移動軌跡のみを利用しているため，さらに詳細な動作に対応で
きないという問題がある．
一人称視点 RGB-D センサを用いて手形状を解析する研究として，Rogez らは
胸部に装着した RGB-D センサで得られる画像から物体操作中の手形状を推定し
ている [18]．推定には 1 対多マルチクラスサポートベクターマシン [19] を利用し
ており，その学習データベースとして，日常の様々な場所で人が物体を取り扱う
様子を 3D アニメーションソフトで再現し，擬似的な一人称視点距離画像を作成し
ている．擬似一人称視点距離画像から三次元投影した点を，センサ原点から視野
角分だけ球形に広がるボクセルに二値化して格納することで三次元特徴量とし，
この特徴量を学習することでリアルタイムな手形状推定を実現している．しかし
ながらこの研究では手形状の推定に主眼がおかれており，時系列は考慮されてい
ない．時系列を考慮し，手形状を含めた手の動作を推定することによって，操作
物体に対する動作をより詳細に解析できるようになると考えている．
1.3 研究目的
本研究では，一人称視点 RGB-D センサで得られるポイントクラウドを，物体の
外観形状と物体に対する人の把持手形状および周囲の環境情報に分離し，時系列
の手形状データから手動作を推定するシステムを構築する．人の行動において，
物体に対する把持の手形状や手動作，操作物体の形状や外観，周囲の環境の情報
は相互に関係しており，1.1 節冒頭で述べた教示データとして利用することを想
定すれば，これらの情報は物体を中心としてまとめるのが良いと考えている．そ
こで，Fig. 1 に示すような，ラベル L と外観・形状 F をもつ物体 O(L, F ) を，物
体 O に対する人の把持手形状 Gi と手動作 Mi の組の集合 M = {Gi , Mi } と，動
作がおこなわれたときの周辺環境 Ei の集合 E = {Ei } で意味付けしたものをセマ
5
Semantic Object
Object
appearance / shape
cup
Human handling
Surroundings
etc.
etc.
drinking
washing
pouring
kitchen
table
Fig. 1 Semantic Object
ンティックオブジェクト SO = (O, M, E) と定義する．
セマンティックオブジェクトを獲得する際，1.2 節で述べたように，主な手動作
の記録手法では定点位置に設置されたセンサを使用しているため，計測場所の拡
大にはセンサ数を増やさなければならずコストの増大を招く．一方，一人称視点
映像を利用した手法では小数のセンサでも計測場所を限定されにくく，また手で
物体を操作するときは対象物体に注目しているため，物体と動作や環境の関係性
を詳細に記録でき，そこから有用な情報が引き出せると考えている．したがって
本研究では一人称視点 RGB-D センサから得られるポイントクラウドを解析する．
ポイントクラウドを用いることで手や物体，および環境を分離し，それぞれ三
次元形状を取得できる．また，距離の情報を利用することができるため，手の物
体への接近や把持といった関係性を直接に導ける．ここでは分離された手の点群
を利用し，手の三次元点群から実際の関節角度すなわち手形状を求め，その時系
列データを利用して手の移動軌跡を求める．また，手の移動軌跡から手が物体に
対してどの動作をしているかを求める．
6
1.4 本論文の構成
2 章では，一人称視点 RGB-D 映像の解析から手と物体と環境の三次元形状を
抽出し，手動作を推定する手法の概要について述べる．3 章では手および操作物
体，環境の三次元情報の抽出手法について詳細を述べ，4 章では手動作の推定お
よび識別手法についての詳細を述べる．5 章では新規物体に対しておこなった検
証実験について述べる．最後に 6 章で本研究についてまとめるとともに，今後の
課題および展望について述べる．
7
2. 三次元形状抽出と手動作推定手法の概要
本章では，一人称視点 RGB-D 映像を用いて，物体に対する人の把持手形状と
対象物体，および周囲の環境の三次元形状を抽出し，手動作を推定する手法の概
要について説明する．アプローチは 3 段階からなっている．
1. 頭部に装着した RGB-D センサで取得したカラー画像と距離画像から色情
報を持ったポイントクラウドを生成する．ポイントクラウドをクラスタリ
ングし，手と操作物体を含むクラスタを肌色検出によって抽出すると同時
に手と操作物体を分離する．（3 章）
2. 分離された手点群から，事前に用意した手形状情報を持つ手点群教師デー
タを用いて手形状を推定する．（4.1 節）
3. 各フレームの環境ポイントクラウドを位置合わせすることで頭部装着セン
サの位置姿勢変化量を求め，世界座標系での手の移動軌跡を求める．さら
に手の移動軌跡を用いて手動作を識別する．（4.2 節）
手で物体を操作する映像を，頭部に装着した RGB-D センサを用いてカラー画
像，距離画像，時間の時系列データとしてオンライン処理で記録し，この時系列
データをもとにオフライン処理で解析する．物体や環境の三次元形状を取得する
ため，オフライン処理はポイントクラウドの操作で処理する．まず RGB-D セン
サで記録したカラー画像と距離画像からカメラ内部パラメータを用いて三次元投
影し，色情報を持ったポイントクラウドを生成する．
次に各フレームのポイントクラウドを手，操作物体，環境に分離するため，ク
ラスタリングする．この時，平面成分によって平面上の物体は表面上つながって
見えるため，平面成分を除去する．平面除去後のポイントクラウドをユークリッ
ド距離に基づいてクラスタリング [20] することで，どこにも接触していない手は
もちろん平面上の物体も分離することができる．
手が物体を操作している場合，手と操作物体は同じクラスタに属してしまうた
め，手と操作物体を分離する必要がある．また，クラスタ群の中からどのクラス
タが手を含んでいるかを判定するため，肌色による色特徴と頭部センサから一定
の範囲内に手が存在するという制約 [21] を用いて，判定と同時に手部分を分離す
8
る．このときポイントクラウドから手と操作物体のクラスタを除去することで環
境のポイントクラウドを得る．
分離された手点群から，実際の手の関節角度すなわち手形状を推定するため，
モーションキャプチャシステムを使って推定の教師データを作成する．モーショ
ンキャプチャシステムでの計測と同時に一人称視点 RGB-D センサでの計測もお
こない，手形状と対応する手点群を取得して教師データとする．推定は，教師手
点群との位置合わせによって手点群の三次元形状を比較し，最も類似している教
師データの手形状を採用する．
世界座標系での手の動きを推定するため，頭部センサの位置姿勢を推定する．
位置姿勢推定には，各フレームのポイントクラウドを位置合わせして姿勢変化を
求める手法をとる．センサの位置姿勢変化とは独立な移動をしている物体がポイ
ントクラウド中に存在すると，姿勢推定に悪影響を与えてしまう．一人称視点で
あることから，計測中に物体の移動が生じるのは自身の手によるものであると仮
定し，はじめに分離した手と操作物体をポイントクラウド中から除去した環境ポ
イントクラウドを用いて位置合わせし，センサの位置姿勢を推定する．センサの
各フレームでの位置姿勢が推定できれば，世界座標系に各フレームの手形状を座
標変換することができ，手の位置姿勢変化を得ることができる．
得られた手の位置姿勢変化から手動作を識別する．識別には，時系列データに
対してある程度の時間の伸び縮みを許容してパターンの類似度を計算できる動的
計画法（Dynamic Programming, DP）によるマッチング [22] を用いる．特徴パ
ターンとして手首の位置変化から速度方向を算出し，その時系列データを用いる．
これにより動作の特徴的な動きを基に識別することができる．
9
3. 三次元情報の抽出
本章では，頭部に装着した RGB-D センサで取得したカラー画像と距離画像を
用いて生成したポイントクラウドから，手・操作物体・環境の点群をそれぞれ抽
出する手法を説明する．入力のポイントクラウドに対して以下の処理を施すこと
で各点群を抽出する．
1. 平面部分の点群を RANSAC アルゴリズム [23] により検出して除去し，ユー
クリッド距離に基づきクラスタリングする [20]．
2. 手動作領域内での肌色検出により手・物体候補クラスタを選出し，手点群
を抽出する．
3. 手点群重心位置と主成分方向を利用して右手・左手を識別する．
3.1 平面除去およびクラスタリング
手と操作物体を検出するにあたって，ポイントクラウドに含まれる机の天面や
壁などの平面成分は必要でないため，RANSAC アルゴリズム [23] を用いて比較
的大きな平面を検出して除去する．RANSAC アルゴリズムは，ランダムに選定
した点から推定したモデルに対してインライアの数を求めることを繰り返し，イ
ンライアの数が最大になるようなモデルを最終的に採用する．この平面検出と除
去を，推定されたインライアの数が Iplane 個以下になるまで繰り返すことで，大
きな平面から順に除去することができる．Fig. 2(a) に示す入力ポイントクラウド
に対して平面除去した結果を Fig. 2(b) に示す．
次に，平面除去されたポイントクラウドに対してユークリッド距離に基づくク
ラスタリング [20] を施し，距離しきい値 δ で分離された点群クラスタに分割する．
Fig. 2(b) のポイントクラウドをクラスタリングした結果を示した Fig. 3 から，手
と操作物体を含む点群クラスタと環境成分の点群クラスタが正しく分離されてい
ることが分かる．
10
(a) Input point cloud
(b) Result of plane deletion
Fig. 2 Plane deletion using RANSAC algorithm
Fig. 3 Clustering based on Euclidean distance
11
3.2 手の検出と操作物体の分離
前項で分離された点群クラスタの中から手を含む点群クラスタを検出し，さら
に操作物体と分離する．手を含む点群クラスタの検出には従来からよく利用され
ている肌色を検出する手法を用いる．肌色検出においては，色空間を通常の赤・
緑・青で表現した RGB 色空間ではなく，色相・彩度・輝度で表現した HSV 色空
間 [24] を利用することで，しきい値設定の際に照明などによる反射や陰影の影響
を受けにくくできる．色しきい値は処理の前にカラー画像で結果を確認しながら
手動で設定する．しかし，クラスタ群の中に手以外の肌色に近い色を持つ物体が
存在した場合，それらも同時に検出されてしまう．
そこで手の動作範囲に限定して手を含む点群クラスタの候補を検索する [21]．
人間の腕は肩の付け根から指先までがおおよそ 70 [cm] であるため，両肩を結ぶ
線の中点を中心とする半径約 80 [cm] の球形範囲内に手が存在する．したがって，
この範囲内に一定以上の点を持つ点群クラスタを候補として肌色検出する．点群
クラスタ内の手動作範囲に含まれる点数で候補検索することで，操作物体の大部
分が手動作範囲外にある場合でも候補として検出することができる（Fig. 4）．
候補点群クラスタに対して肌色検出し，一定以上の検出点を持つ点群クラスタ
を手を含む点群クラスタとし，検出点を手，それ以外を操作物体として抽出する．
Fig. 4 The range of moving hands
12
(a) Candidates for the cluster including hand and manipulated object
(b) Points which are extracted by skin color
(c) Remaining points (manipulated objects)
Fig. 5 Extraction hands and manipulated objects using skin color
13
Fig. 6 Point cloud of environment
Fig. 5 に示す結果から，候補点群クラスタから手と操作物体が正しく抜き出され，
静的な環境点群が得られていることが分かる．さらに，Fig. 6 に示すような，も
とのポイントクラウド（Fig. 2(a)）から手と操作物体を除去したポイントクラウ
ドをこのフレームにおける静的な環境点群として記録する．
3.3 右手・左手の判断
Fig. 7 に手の点群クラスタの重心点位置と身体の可動範囲の制約を利用して右
手か左手かを判断する方法を示す．Fig. 7(a) のように手の点群クラスタが 2 つ検
出された場合は，センサ光軸方向の水平面上で重心点位置を比較し，相対的に右
側に重心点位置がある手の点群クラスタを右手，左側にある手の点群クラスタを
左手と判断する．
一方，Fig. 7(b)(c) のように手の点群クラスタが 1 つしか検出されなかった場
合は，センサの左右方向で領域を三分割し，右側領域に重心点位置がある場合は
．センサ光軸から幅 20 [cm]
右手，左側領域にある場合は左手とする（Fig. 7(b)）
に設定した中央領域に重心点位置が存在する場合は，重心点位置だけで判断する
14
Left
hand
Right
hand
Centroid
Head-mounted
sensor
(a) When detecting two hands
Right
hand
Left
hand
Left
hand
Right
hand
Head-mounted
sensor
Head-mounted
sensor
(b) When only one hand is in side areas of
view
(c) When only one hand is in the center
area of view
Fig. 7 Distinction between right and left hands
15
ことは難しい．したがって，手の点群クラスタを主成分分析し，一次元に低次元
化した結果を三次元空間に逆写像することで手の方向を推定する．逆写像した手
の点群クラスタ中でセンサから最も遠い点と最も近い点を取り出し，最も遠い点
が最も近い点より相対的に左側にある場合，すなわち左側に傾いている場合は右
手，逆の場合は左手と判断する（Fig. 7(c)）．
16
4. 手形状の推定と手動作の識別
本章では，3 章で抽出した手の点群クラスタから詳細な手の形状を推定する手
法と，頭部センサの位置姿勢推定によって得られる手動作の識別手法について説
明する．
手形状の推定
1. モーションキャプチャシステムと本システムを同時に用いて，手の関
節位置の情報を持った教師手点群データを作成する．
2. 新規に得られた手点群クラスタを，教師手点群データと位置合わせす
ることによって類似度比較し，最適な手形状を推定する．
手動作の識別
1. 環境の点群を用いて頭部センサ位置姿勢の時系列変化を推定し，世界
座標系から見た手の位置変化を取得する．
2. 手の位置変化から速度の方向を求め，Dynamic Programming（DP）マッ
チングを用いてモーションキャプチャシステムで得た動作との累積距
離を計算することで手動作を識別する．
4.1 手形状の推定
4.1.1 モーションキャプチャシステムを用いた教師データの作成
モーションキャプチャシステムは反射材を貼り付けたマーカの三次元空間上で
の位置を計測するシステムである．手の関節にマーカを貼り付けて計測すること
で，本システムで得られる手の点群クラスタ，つまりセンサからの見えの情報に対
する実際の手形状を計測することができる．計測時は NaturalPoint 社製モーショ
ンキャプチャカメラ Optitrack S250e を Fig. 8 に示すように 6 台設置し，Fig. 9 の
ように手にマーカを貼り付けた状態で物体を取り扱う様子を計測する．モーショ
ンキャプチャでの計測と同時に，一人称視点 RGB-D センサシステムでもデータ
17
Fig. 8 Experimental setup
Finger tips
PIP joints
Thumb tip
IP joint
MP joints
MP joint
Wrist 2
Wrist 1
Arm 2
Arm 1
Fig. 9 Motion capture markers on the hand
18
を取得する．その際，モーションキャプチャ座標系と頭部センサ座標系の関係性
を得るために，Fig. 8 のモーションキャプチャカメラに追加して 4 台のカメラを頭
上の周囲に設置し，頭部センサに取り付けたマーカの位置姿勢を計測する．モー
ションキャプチャ座標系での各関節の位置を，頭部センサマーカの位置姿勢を用
いて頭部センサ座標系に座標変換することにより，頭部センサ座標系から見た手
形状データを得ることができる．
Fig. 10 に，手点群クラスタと頭部センサ座標系に座標変換した手形状データを
重ねあわせた結果を示す．図中の白い点が手のマーカを表しており，手点群クラ
スタの実際の手形状を取得出来ていることが分かる．動作の各フレームについて
手形状のデータを取得し，さらに種々の動作についてデータを取得することで，
手点群クラスタと手形状のペアを集積して教師データとする．今回は Fig. 11 の
マグボトルに対する動作として “注ぐ”・“ねじ式蓋の開け閉め”・“手首の屈曲伸
展” の動作を計測して教師データを作成した．
Fig. 10 Cluster of hand points
Fig. 11 Bottle used as a target
and marker points
object
19
4.1.2 教師データとの比較による手形状推定
新規に得られた手の点群クラスタと類似した形状を持つ点群を教師データ中
から探索することで実際の手の形状と位置姿勢を推定する．形状の類似度を求め
るため，まず新規手点群クラスタ P に i 番目の教師データ手点群 Qi を位置合わ
せする．位置合わせ結果は式 (1) であらわされる評価関数を最小化する回転行列
Ri ∈ R3×3 と並進ベクトル ti ∈ R3 として求まる．
Ei (Ri , ti ) =
NP
||pk − (Ri q k + ti )||2
(1)
k=1
ここで，NP は新規手点群クラスタ P の三次元点数，pk は新規手点群クラスタ P
の k 個目の三次元点の位置，q k は i 番目の教師データ手点群 Qi の三次元点のう
ち pk の最近傍点の三次元位置を表す．
評価関数 Ei は位置合わせ後の注目点とその最近傍点の 2 乗距離の総和である
から，min Ei は位置合わせした点群間の類似尺度として利用できる．min Ei をす
べての i について求め，min Ei が最も小さい教師データ（i = m とする）を最も
類似しているとして，その教師データ点群に対応する手形状データを P の手形状
として採用する．この手形状データも教師データ作成時の頭部センサ座標系にあ
るため，探索時の位置合わせ結果から得た Rm と tm によって座標変換し，P に
対応する手形状を得る．
位置合わせは，FPFH（Fast Point Feature Histograms）記述子 [25] を利用し
た初期位置合わせと，ICP（Iterative Closest Point）アルゴリズム [26] による詳
細位置合わせによっておこなう．ICP アルゴリズムは位置合わせの精度が初期姿
勢に大きく影響されるため，今回のように点群同士が大きく離れている可能性が
ある場合には初期位置合わせが必要になる．FPFH は注目点と k 個の近傍点間の
位置関係および法線の角度関係を表す記述子で，三次元形状特徴を効率よく表現
できる特徴量である．Rusu らが同文献 [25] 内で提案している SAC-IA（SAmple
Consensus Initial Alignment）に基づいて初期位置合わせをし，その後 ICP アル
ゴリズムによって詳細に位置合わせする．
Fig. 12 に位置合わせ結果を示す．Fig. 12(a) の青い手点群に対して位置合わせ
をした時に，最も誤差の小さい教師データとして抽出された教師手点群が赤で示
20
(a) Target hand point cloud (blue) and the
most corresponding supervised data (red point
cloud and links)
(b) Registration result
Fig. 12 Hand pose estimation
されており，図中の白い点とそれらを繋ぐリンクは赤い手点群と対応する手形状
データである．Fig. 12(b) から分かるように，正しく位置合わせがされて座標変
換された手形状が得られていることが分かる．
4.2 手動作の識別
4.2.1 頭部装着センサの位置姿勢推定
センサ座標系で観測された手を世界座標系上に座標変換するため，頭部に装着
されたセンサの位置姿勢変化を求める．センサの位置姿勢の推定には 3.2 節での
処理で得られた，手と操作物体を除いた環境のポイントクラウドを用いる．まず，
連続した 2 フレームではセンサ位置姿勢の変化量は小さいという前提のもと，ICP
アルゴリズムを用いて，時刻 s のフレームの環境ポイントクラウドを時刻 s − 1
21
のフレームの環境ポイントクラウドに位置合わせし，回転行列 Rss−1 と並進ベク
トル tss−1 を，第 1 フレームから最終フレームまで順番に求める．次に，時刻 s に
おけるフレームの環境ポイントクラウドを第 1 フレームの環境ポイントクラウド
座標系に変換する回転行列 Rs1 と並進ベクトル ts1 を式 (2) によって求めることで，
最終的に頭部センサがどのように移動したかを推定できる．
s−1
R21 t21
Rs−1
Rss−1 tss−1
Rs1 ts1
s−2 ts−2
=
···
0T 1
0T 1
0T
1
0T
1
(2)
求めた Rs1 と ts1 を用いて，各フレームのセンサ座標系にある手点群と物体点群，
環境ポイントクラウド，および 4.1 節で推定した手形状を第 1 フレームのセンサ
座標系に座標変換する．これにより，第 1 フレームのセンサ座標系から見た手の
位置姿勢の時系列変化，つまり手の動作を得る．また，第 1 フレームに座標変換
された各フレームの環境ポイントクラウドを統合することで，自身の手や前景に
隠されて見えていなかった点が補間された環境ポイントクラウドを得る．
4.2.2 手動作の速度方向に基づく動作識別
4.2.1 項で得た手動作を識別するため，手首の位置変化から時刻 s におけるフ
レームでの手の速度ベクトル v s = (vsX , vsY , vsZ ) を各フレームで求める．フレー
ム s の前後 n フレームの手首位置 hi = (hiX , hiY , hiZ )（i = s − n, · · · , s + n）から，
最小二乗法を用いて各座標軸に沿った速度を求める. 式 (3) に示すように X 軸，
Y 軸，Z 軸方向の速度をそれぞれ求め，v s を得る．
(2n + 1)
vs =
s+n
(i · hi ) −
i=s−n
(2n + 1)
s+n
i=s−n
s+n
i=s−n
i2 −
s+n
i·
s+n
i=s−n
2
hi
(3)
i
i=s−n
手の速度ベクトル系列 V = {v s } を用いて，4.1.1 項で作成した教師手動作群と
4.2.1 項で得た手動作間で類似度を計算することで手動作を識別する．類似度の計
22
算には動的計画法（Dynamic Programming, DP）によるマッチング手法 [22] を
用いる．教師手動作の速度ベクトル系列を V R = {v R
，入力手動
u }（0 ≤ u ≤ U ）
I
作の速度ベクトル系列を V I = {v It }（0 ≤ t ≤ T ）とし，v R
u と v t 間の局所距離を
d(u, t) とする．d(u, t) は速度ベクトル間のユークリッドノルムを用いる（式 (4)）．
I
d(u, t) = v R
u − vt (4)
累積距離 D(u, t) は以下の式を用いて求める．
初期条件
D(0, 0) = d(0, 0)
(5)
D(u, 0) = d(u, 0) + D(u − 1, 0)
(6)
D(0, t) = d(0, t) + D(0, t − 1)
(7)
漸化式
⎧
⎪
⎪
⎨ d(u, t) + D(u − 1, t)
D(u, t) = min d(u, t) + D(u, t − 1)
⎪
⎪
⎩ d(u, t) + D(u − 1, t − 1)
(8)
累積距離 D(U, T ) は，教師手動作と入力手動作間の速度ベクトルの変遷の違い
が数値化されたものであり，2 つの動作間の類似度を表している．すべての教師
手動作に対して入力手動作の累積距離を計算し，最も累積距離 D(U, T ) の小さい
動作を入力手動作の動作と判定する．
23
5. 手動作識別実験
5.1 ウェアラブル一人称視点 RGB-D センサ
RGB-D センサはセンサ解像度・画角の優れている Kinect v2 を用いる．本研究
における手動作の記録では，手および物体の形状や大きさを出来るだけ詳細に，
また環境の情報も広範囲に取得できることが望ましい．そして頭部にセンサを装
着して手元を撮影する場合，センサ画角が小さければ撮影範囲が狭くなり，手動
作や環境が頭部の揺動により安定して映らないため，一人称視点映像の記録には
適さない [27] からである．しかしながら，Kinect v2 の重量は約 680 [g] あり，そ
のまま頭部に装着すると首に負担が生じてしまう．そこで，Kinect v2 を軽量化
したうえで頭部に装着できるマウントを製作し，小型 PC とバッテリを組み合わ
せることでウェアラブル計測デバイスを開発した．
Kinect v2 を分解し，各部品ごとの重量を測定した結果を Fig. 13 に示す．Kinect v2
の重量約 680 [g] のうち半分以上が外装部品で占められており，また演算回路およ
びカメラ類の放熱と固定を担うヒートシンクが重厚な金属であるため，この 2 つ
を軽量化した．外装については，内装部品を実測して CAD モデルを作成し，そ
れに合わせて設計したものを 3D プリンタを用いて造形し，245 [g] の軽量化を実
Others
59.8 g
Boards
69.7 g
Kinect v2
Cameras
86.0 g
Weight
678.8 g
Casings
361.4 g
Heat sink
101.9 g
Fig. 13 Weight of Kinect v2 components
24
IR projector
Custom top
IR camera
Main board
Custom
heat sink
RGB
camera
Cooling fan
LED-sensor
host board
Audio board
Custom bottom
Microphones
Fig. 14 Exploded view of Kinect v2 in a custom case
25
現した．ヒートシンクについては，アルミ L アングルを加工して置換することで
43 [g] の軽量化を実現し，最終的にセンサ重量は 389 [g] となった．軽量化された
Kinect v2 の分解図を Fig. 14 に示す．
軽量化した Kinect v2 を頭部に装着するためのヘッドマウントについても，外装
と同様に 3D プリンタを用いて造形した．頭部寸法は AIST 頭部寸法データベー
ス 2001[28] を参考にし，頭幅を 161 [mm] として設計した．
ヘッドマウントを取り付けた Kinect v2 と装着した様子を Fig. 15 に示す．ヘッ
ドマウントを含む頭部装着重量は 506 [g] となり，これは矢口らが軽量化を念頭に
置いて開発したヘッドマウントステレオカメラによる人間行動認識システム [29]
の頭部装着重量 480 [g] と同等の重量である．また，側頭部の接続箇所ではネジ
を緩めることでセンサを回転することができ，作業に合わせてセンサ光軸方向の
調整が可能となっている．
頭部に装着した Kinect v2 を小型 PC（Intel NUC，Intel Core i5，メモリ 16 [GB]，
SSD 512 [GB]，Wi-Fi+Bluetooth 搭載）に接続し，モバイルバッテリ（Energizer
XP18000A，18000 [mAh]，同時 2 出力可）から PC と Kinect v2 に電源を供給す
ることでウェアラブルデバイスとした．PC とバッテリは腰ベルトに固定し，ベ
ルトの脱着のみで腰部デバイスは脱着可能となっている．
センサから取得したカラー画像と距離画像を用いて色情報を含んだポイントク
ラウドを生成する際，RGB カラーカメラと距離画像センサで用いられている赤
外線カメラそれぞれのカメラ内部パラメータと，2 つのカメラ間の相対位置姿勢
パラメータが必要である．ここではチェスパターンを用いたキャリブレーション
[30] により各パラメータを算出した．
26
Depth vertical FOV
60 [deg]
Battery
Intel NUC
Fig. 15 Head-mounted Kinect v2
27
5.2 実験条件
5.1 節で開発した一人称視点 RGB-D センサを用いて，Fig. 8 で示した環境で実
験をおこなった．実験者は 4.1.1 項で述べた教師データを作成した人物と同一で
ある．Fig. 16 に示すパック飲料に対して，“把持のため手を接近”，“把持”，“注
ぐ”，“置く（把持解放）” の順に動作をおこない，データを記録した．手の位置
変化と頭部センサの位置姿勢変化の真値を得るため，モーションキャプチャシス
テムでの計測も同時におこなった．
5.3 手形状推定の結果と考察
手形状の推定で得られた各フレームの手形状を Fig. 17–19 に一部抜粋して示
す．動作中の 3 つのフレームに対して得られた手点群と推定された手形状につい
て，Fig. 17 に頭部センサ視点からみた画像を示し，三次元形状把握のために別
視点の画像として Fig. 18 には作業者正面からの視点，Fig. 19 には作業者の左手
側視点から見た手点群と手形状を示している．図中左から，把持した時，傾けて
いる途中，傾け終わった時のフレームで得られた手点群と推定された手形状を示
Fig. 16 Target object
28
Third person view
Extracted hand point cloud
Estimated hand pose
Time sequence
Fig. 17 Hand point clouds and estimated hand poses viewed from the sensor
29
Acquired hand point cloud
Estimated hand pose
Time sequence
Estimated hand pose
Acquired hand point cloud
Fig. 18 Hand point clouds and estimated hand poses viewed from the front
Time sequence
Fig. 19 Hand point clouds and estimated hand poses viewed from the left side
30
す．この結果から，一人称視点 RGB-D データから抽出した手点群を用いて各フ
レームにおける手の形状と姿勢が推定できていると分かる．
モーションキャプチャで計測した各関節の三次元位置 mM
i （1 ≤ i ≤ 18）を
真値とし，推定された手形状の各関節の三次元位置 mE
i とのユークリッド距離の
E
M
平均 i mi −mi を各フレームにおける推定誤差として計算した．Fig. 20 に
推定誤差の時系列グラフを示す．推定誤差の時系列平均は 0.027 [m]，標準偏差
は 0.029 であった．ただし，フレーム 400 番付近に推定誤差が 0.3 [m] を超えるフ
レームが 1 箇所あったため除いてある．そのフレームでは手形状の推定において
手先が肩方向に向いて推定されてしまっていたことが原因である．
全体を通して 0.03 [m] 程度の誤差が発生しているが，Fig. 17–19 に見るように手
形状と姿勢は推定できていることから，推定した手形状と真値が全体的にずれて
いることが原因の一つとして考えられる．真値として用いているモーションキャ
プチャデータをセンサ座標系に変換する際，センサに取り付けたマーカ 3 つから
センサ座標系を推定していることが影響していると考えられる．
Fig. 20 Mean value of error in each joint
31
Fig. 20 から，170 フレーム程度から 300 フレーム程度までは連続したフレーム
間での誤差のばらつきが小さいが，そのフレーム範囲外では誤差がばらついてい
ることが分かる．これは教師データを作成する際に，手の動きが遅い場合には似
たような手形状・手位置姿勢の教師データが多く作成されるが，動きが速い場合
は作成される教師データが少ないためであると考えられる．この問題に対しては，
教師データの増強と，前後のフレームを用いて推定される手形状に制約をかける
などの対策が必要である．
5.4 頭部センサ位置姿勢推定の結果と考察
Fig. 22 に頭部センサの位置変化の推定結果を，Fig. 23 に姿勢変化の推定結果
を示す．真値としてモーションキャプチャシステムで計測した値を破線で示して
いる．Fig. 22 では記録開始時の頭部センサ位置を原点とし，記録開始時の頭部
センサ座標系から見た各フレームの頭部センサ位置を各座標軸毎に表している．
Fig. 21 に示すように，X 軸がセンサ左右方向（左が正方向），Y 軸がセンサ上下
方向（上が正方向），Z 軸が光軸方向（遠方が正方向）である．Fig. 23 では同様
に記録開始時の頭部センサ座標系から見た各フレームの頭部センサの姿勢をロー
ル・ピッチ・ヨー表現で表している．
X
Z
Y
Z
Fig. 21 Sensor coordinates
32
Fig. 22 Estimated variation in head-mounted sensor position
Table 2 Estimation error in sensor position
X
Y
Z
Sum of translation [m]
0.446 0.328
0.204
Mean error [m]
0.010 0.021
0.002
Percentage error [%]
2.1
6.5
1.0
Maximum error [m]
0.069 0.036
0.008
Standard deviation
0.012 0.014
0.008
33
Fig. 23 Estimated variation in head-mounted sensor posture
Table 3 Estimation error in sensor posture
Roll Yaw Pitch
Sum of rotation [degree]
32.1
41.4
68.3
Mean error [degree]
0.75
0.33
0.64
Percentage error [%]
2.3
0.8
0.9
Maximum error [degree]
2.5
4.2
4.3
Standard deviation
0.46
0.56
0.48
34
Table 2 に，各フレームでの位置推定誤差 ei の平均 μ =
1
T
i ei（T
は総フレー
ム数）とその累積移動距離に対する比率，最大誤差 max{ei } および標準偏差 σ を
示す．この結果から，各軸とも移動軌跡を小さい誤差で推定できていることが分
かる．Y 軸の推定結果が累積移動距離比 6.5%と最も悪いが，Fig. 22 から記録開
始後約 1 [s] の間に誤差が大きくなり，それ以降はほぼ同じ軌跡を描いているた
め，この間の点群位置合わせの精度が悪くなっていると考えられる．また，X 軸
の最大誤差が 0.069 [m] と大きいことについては 12 [s] 以降に位置合わせ誤差が大
きくなっていることが原因であり，注ぎ動作終了後に急激に頭部が移動したため
であると考えられる．実際に Fig. 23 でも 12 [s] 以降のピッチとヨーに急峻な変化
が見られる．
位置推定と同様に，Table 3 に各フレームでの姿勢推定誤差の平均とその累積角
度変化に対する比率，最大誤差および標準偏差を示す．この結果から姿勢に関し
ても小さい誤差で推定できていることが分かる．特に 15 [s] 以降のピッチ，ヨー
の急激な変化についても推定ができており，これは位置合わせをする環境のポイ
ントクラウドに平面が多く含まれているためであると考えられる．
5.5 手動作の推定・識別の結果と考察
Fig. 24 に右手首の位置推定のグラフを示す．座標系は頭部センサ位置姿勢推
定と同様に記録開始時の頭部センサ座標系となっており，各フレームにおける各
座標軸の手首位置をそれぞれ Fig. 24(a)–(c) に示している．真値としてモーショ
ンキャプチャシステムで計測した値を破線で示している．Fig. 24 中には把持し
た時刻と把持開放した時刻を示した．それぞれの時刻は，3.2 節での手・操作物
体分離の処理で対象物体が操作物体として分離され始めた時刻を把持した時刻，
分離されなくなった時刻を把持解放した時刻とし，フレーム系列から人力で検索
した．
Table 4 に各フレームでの手位置推定誤差の平均と最大誤差および標準偏差を
示す．Fig. 24 から分かるように 15 [s] の手前で発生しているノイズが非常に大き
いため，このノイズを除いて計算し，最大誤差欄の括弧内にノイズ時の誤差を示
した．
35
(a) Hand position along X axis
(b) Hand position along Y axis
(c) Hand position along Z axis
Fig. 24 Estimated hand motion
36
Table 4 Estimation error in hand position
X
Y
Z
Average error [m]
0.015
0.007
0.008
Maximum error [m]
0.098
0.076 (0.118)
0.051 (0.143)
Standard deviation
0.015
0.011
0.011
このノイズは，手点群の位置合わせにおいて腕の方向が反対向きに位置合わせ
されたものが最も類似度が高いと推定されたことが原因であった．また，13.5 [s]
以降ではノイズが多く，推定誤差が大きくなっている．これは 5.3 節の Fig. 22, 23
に示した頭部センサ位置姿勢の推定結果から分かるように，頭部が大きく動いた
ためと考えられる．特に X 軸方向は 13 [s] 以降に頭部センサ位置の推定結果が悪
化しており，手位置の推定結果の悪化に影響している．しかしながら，平均誤差
は三次元空間で 0.018 [m] 程度に収まっており，Fig. 24 に示したとおり，物体を
把持している間は正確に推定できていることが分かる．
Fig. 25 に，推定された手動作から求めた手首の速度を各座標軸ごとの系列で
示す．この速度ベクトルを用いて DP マッチングにより，Fig. 26 に示した “注ぐ
(a)”“ねじ式蓋の開け閉め (b)”“手首の屈曲伸展 (c)” の中から動作識別をおこなっ
た．累積距離はそれぞれ 11.90，17.86，23.83 となり，累積距離の最も小さい “注
ぐ” 動作が正しく識別された．
今回は識別対象動作は，注ぐ動作はゆるやかに Z 軸方向が変化する，蓋の開け
閉め動作は大きく XY 方向が変化する，手首の屈曲伸展動作はほとんど手首が動
かない動作となっている．このように，手首の位置変化に特徴を持つ動作につい
てはある程度の識別ができることがわかった．
37
Fig. 25 Wrist velocity of the estimated hand motion
38
(a) Pouring a bottle
(b) Opening a cap of bottle
(c) Wrist ﬂexion and extension while holding a bottle
Fig. 26 Wrist velocity of supervised data sets
39
6. おわりに
6.1 本論文のまとめ
本研究では，はじめに人の物体に対する把持の手形状や手動作，操作物体の形
状や外観，周辺環境の情報を物体を中心にまとめたセマンティックオブジェクト
という概念を定義した．そしてセマンティックオブジェクトを獲得するための情
報抽出を目的として，一人称視点 RGB-D 映像から三次元形状と手形状を抽出し，
手動作を推定・識別するシステムを構築した．
手および操作物体を各フレームのポイントクラウドから抽出するため，ポイン
トクラウドに平面除去とクラスタリングを施し，頭部センサから一定の範囲内に
手が存在する制約と肌色検出により点群クラスタの中から手と操作物体を含む点
群クラスタを選別すると同時に手点群の分離をした．
次に，各フレームでの手の形状を推定するため，モーションキャプチャシステ
ムを用いて教師データを作成した．各フレームでの手点群と教師データの手点群
を，FPFH 記述子を利用した SAC-IA アルゴリズムによる初期位置合わせと ICP
アルゴリズムによる詳細位置合わせで位置合わせし，各点の最近傍点までのユー
クリッド距離にもとづいた類似度比較をすることで，最も類似している教師デー
タを探索した．教師データの手点群に対応する手の関節位置を，点群位置合わせ
で得られた回転行列と並進ベクトルで座標変換することでフレームの手形状を推
定した．
手の動作を推定するため，手と操作物体を除いた環境のポイントクラウドを
ICP アルゴリズムにより位置合わせし，頭部センサの位置姿勢を推定した．手形
状の推定結果とセンサ位置姿勢の推定結果を用いて，世界座標系での手動作を推
定した．さらに，手首の位置変化から手動作の速度方向を算出し，教師動作と DP
マッチングにより類似度比較をすることで手動作を識別した．
市販の RGB-D センサの中でセンサ性能に優れる Kinect v2 を本システムに採
用し，3D プリンタを用いて外装とヘッドマウントを製作することで，大幅に軽
量化すると同時に頭部装着可能にした．また，小型 PC とモバイルバッテリを組
み合わせてウェアラブルな一人称視点 RGB-D センサデバイスを開発した．最後
40
に，本システムを用いて手動作の識別実験をおこない，手形状の推定と頭部セン
サの位置姿勢推定，および手首位置推定の精度を評価して提案手法の有効性を示
した．
6.2 課題と今後の展望
課題として，まず手形状の推定手法の改良が挙げられる．現状では教師データ
を時間のかかる点群位置合わせによって全探索して最適な手形状を推定している
ため，教師データを増やした分だけ推定時間が増えてしまう問題がある．また，
教師動作中のすべてのフレームにおける手点群を教師データとしているため効率
が良くない．これは，教師データ作成時にまず手首以降がある程度似通った手形
状をまとめて，その位置姿勢と腕の方向のみでデータを整理するという方法が考
えられる．
また，今回の実験では教師データを作成した人物と実験者が同一であり，手形状
や動作の個人性は考慮されていない．手点群の抽出に関しては肌色検出のしきい
値を調整することで対応できる．手形状と動作については様々な個人で教師デー
タを記録し，k-means 法などの手法によりクラスタリングされた教師データを作
成することで識別が可能になると考えられる．
頭部センサの位置姿勢推定の精度向上も課題である．現状で精度良く推定でき
ているのは頭部がゆっくり動いているときで，急な首振りによる視点移動が発生
すると考えられる現実の作業では誤差が多く発生してしまう可能性が高い．さら
に，1 フレーム前のポイントクラウドに位置合わせした結果を積み重ねているの
で，累積誤差の問題が発生する．これに対しては，環境中の特徴をランドマーク
として自己位置推定する，ループクローズによって累積誤差の影響を補正するな
どの SLAM の技術を導入することで解決できると考えている．
本研究では，セマンティックオブジェクトの獲得のために必要な情報，特に手
動作の情報を抽出した．しかし，識別できる動作は少ないため，今後教師データ
の拡充や効率的な探索手法の検討を行う予定である．また一方で，操作対象物体
の三次元モデル化や物体認識，環境ポイントクラウドから場所の推定や状況の推
定をするまでには至っていない．さらに，セマンティックオブジェクトをどのよ
41
うなデータ構造で保存するのかといった検討も必要である．最終的にはロボット
がセマンティックオブジェクトを利用して状況や物体に応じて適切な動作を生成
できるようにすることを目指し，さらなる情報の抽出を検討していきたい．
42
謝辞
本研究は，奈良先端科学技術大学院大学情報科学研究科情報科学専攻ロボティ
クス研究室小笠原司教授のご指導の下で行いました．本研究の遂行にあたり，さ
まざまなご指導やご助言，ご助力を賜りました小笠原司教授に深く感謝致します．
また，論文執筆にあたり，丁寧なご検討，ご教示を頂きました副指導教員であ
る本学情報科学研究科の横矢直和教授に御礼申し上げます．
本研究の研究方針から研究の遂行，学会発表や論文の執筆など，さまざまな場面
で，ご意見，ご指導いただきました本研究科の高松淳准教授に深く感謝致します．
本学研究科の吉川雅博助教には研究会において，非常に多くのことをご教示頂
きました．ここに深く御礼申し上げます．
本研究についてご意見，ご助言とともに多くの適切なご指導をいただきました
本研究科の丁明助教に深く感謝致します．
大学生活や事務処理など様々な面でサポートして頂きました本研究室秘書の大
脇美千代氏に深く感謝致します．
本研究室博士後期課程の築地原里樹氏，Gustavo Alfonso Garcia Ricardez 氏，
Lotﬁ El Haﬁ 氏，Felix von Drigalski 氏には研究や研究生活について多くのご助
言をいただきました．深く感謝いたします．
本研究室の同輩の皆様，後輩達には研究生活を進めるうえで様々なご協力を頂
きました．ここに深く御礼申し上げます．
最後に，再度の学生生活を支えていただいた両親，家族，そして友人に心から
感謝致します．
43
参考文献
[1] Karinne Ramirez-Amaro, Michael Beetz and Gordon Cheng: “Automatic
Segmentation and Recognition of Human Activities from Observation based
on Semantic Reasoning,” IEEE/RSJ International Conference on Intelligent
Robots and Systems, pp. 5043–5048, 2014.
[2] Rainer Bischoﬀ and Volker Graefe: “Learning from Nature to Build Intelligent Autonomous Robots,” IEEE/RSJ International Conference on Intelligent Robots and Systems, pp. 3160–3165, 2006.
[3] Zhaojie Ju and Honghai Liu: “Human Hand Motion Analysis With Multisensory Information,” IEEE/ASME Transactions on Mechatronics, vol. 19,
no. 2, pp. 456–466, 2014.
[4] Xiong Lv, Shuqiang Jiang, Luis Herranz and Shuang Wang: “Hand-Object
Sense: A Hand-Held Object Recognition System Based on RGB-D Information,” ACM International Conference on Multimedia, pp. 765–766, 2015.
[5] Alejandro Betancourt, Pietro Morerio, Carlo S. Regazzoni and Matthias
Rauterberg: “The Evolution of First Person Vision Methods: A Survey,”
IEEE Transactions on Circuits and Systems for Video Technology, vol. 25,
no. 5, pp. 744–760, 2015.
[6] 秋元俊成, 寺田信幸, 米澤郁穂, 武藤治, 川崎隆之, 百村励, 金子和夫：“3D カ
メラを用いた脊柱側弯症計測システムの開発”, 電気学会論文誌 C, vol. 133,
no. 11, pp. 2082–2088, 2013.
[7] Yixin Zhu, Yibiao Zhao and Song-Chun Zhu: “Understanding Tools: TaskOriented Object Modeling, Learning and Recognition,” IEEE Conference
on Computer Vision and Pattern Recognition, pp. 2855–2864, 2015.
[8] Richard A. Newcombe, Shahram Izadi, Otmar Hilliges, David Molyneaux,
David Kim, Andrew J. Davison, Pushmeet Kohli, Jamie Shotton, Steve
44
Hodges and Andrew Fitzgibbon: “KinectFusion: Real-Time Dense Surface
Mapping and Tracking,”
IEEE International Symposium on Mixed and
Augmented Reality, pp. 127–136, 2011.
[9] Jamie Shotton, Andrew Fitzgibbon, Mat Cook, Toby Sharp, Mark Finocchio,
Rechard Moore, Andrew Kipman and Andrew Blake: “Real-time human
pose recognition in parts from single depth images,” IEEE Conference on
Computer Vision and Pattern Recognition, pp. 1297–1304, 2011.
[10] Hema Swetha Koppula, Rudhir Gupta and Ashutosh Saxena: “Learning Human Activities and Object Aﬀordances from RGB-D Videos,” The International Journal of Robotics Research, vol. 32, no. 8, pp. 951–970, 2013.
[11] Alessandro Pieropan, Carl Henrik Ek and Hedvig Kjellström: “Functional
Object Descriptors for Human Activity Modeling,” IEEE International Conference on Robotics and Automation, pp. 1282–1289, 2013.
[12] Li Gang, Chun Zhu, Jianhao Du, Qi Cheng, Weihua Sheng and Heping
Chen: “Robot Semantic Mapping through Wearable Sensor-based Human
Activity Recognition,” IEEE International Conference on Robotics and Automation, pp. 5228–5233, 2012.
[13] 木村孝広, 吉川雅博, 竹村憲太郎, 高松淳, 小笠原司：“環境の形状情報を付加
した人間の動作分類に基づく 3 次元セマンティックマップの生成”, ロボティ
クス・メカトロニクス講演会講演論文集 DVD-ROM, pp. 3P1–I01(1)–(4),
2014.
[14] Nazrul H. Adnan, Khairunizam Wan, Shariman Ab, Juliana A. Abu Bakar
and Azri A. Aziz: “PCA-based Finger Movement and Grasping Classiﬁcation using Data Glove “Glove MAP”,” International Journal of Innovative
Technology and Exploring Engineering, vol. 2, pp. 66–71, 2013.
45
[15] 前川卓也, 柳沢豊, 岸野泰恵, 石黒勝彦, 櫻井保志, 亀井剛次, 岡留剛：“手首
に装着したカメラ付きセンサデバイスを用いた行動認識手法”, 電子情報通信
学会論文誌 B, vol. J95-B, no. 11, pp. 1480–1490, 2012.
[16] Hedvig Kjellström, Javier Romero and Danica Kragić: “Visual Object-action
Recognition: Inferring Object Aﬀordances from Human Demonstration,”
Computer Vision and Image Understanding, vol. 115, no. 1, pp. 81–90, 2011.
[17] Jinna Lei, Xiaofeng Ren and Dieter Fox: “Fine-grained Kitchen Activity
Recognition using RGB-D,” ACM Conference on Ubiquitous Computing,
UbiComp ’12, pp. 208–211, 2012.
[18] Grégory Rogez, James S. Supančič III and Deva Ramanan: “First-person
Pose Recognition using Egocentric Workspaces,” IEEE Conference on Computer Vision and Pattern Recognition, pp. 4325–4333, 2015.
[19] Vladimir N. Vapnik: Statistical Learning Theory, Wiley, 1998.
[20] Radu Bogdan Rusu, Nico Blodow, Zoltan Csaba Marton and Michael
Beetz: “Close-range Scene Segmentation and Reconstruction of 3D
Point Cloud Maps for Mobile Manipulation in Domestic Environments,”
IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.
1–6, 2009.
[21] 島田健史, 池田篤俊, 竹村憲太郎, 高松淳, 小笠原司：“一人称視点を用いた
調理作業記録システムの構築”, 日本ロボット学会学術講演会講演概要集
DVD-ROM, pp. 1C3–05(1)–(3), 2014.
[22] 山田博司, 長坂保典, 鈴村宣夫：“連続 DP マッチングによる手話の認識”, 電
子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, vol. 98,
no. 608, pp. 65–72, 1999.
[23] Martin A. Fischler and Robert C. Bolles: “Random Sample Consensus: A
Paradigm for Model Fitting with Applications to Image Analysis and Au46
tomated Cartography,” Communications of the ACM, vol. 24, no. 6, pp.
381–395, 1981.
[24] Alvy Ray Smith: “Color Gamut Transform Pairs,” Annual Conference on
Computer Graphics and Interactive Techniques, pp. 12–19, 1978.
[25] Radu Bogdan Rusu, Nico Blodow and Michael Beetz: “Fast Point Feature
Histograms (FPFH) for 3D registration,” IEEE International Conference on
Robotics and Automation, pp. 3212–3217, 2009.
[26] Szymon Rusinkiewicz and Marc Levoy: “Eﬃcient Variants of the ICP Algorithm,” International Conference on 3-D Digital Imaging and Modeling, pp.
145–152, 2001.
[27] 河村竜幸, 上岡隆宏, 河野恭之, 木戸出正継：“頭部装着カメラを用いた物探
し支援システムにおける視野角の影響,” 情報処理学会論文誌, vol. 48, no. 3,
pp. 1336–1348, 2007.
[28] 河内まき子・持丸正明,2008: 日本人頭部寸法データベース 2001, 産業技術総
合研究所 H16PRO-212.
[29] 矢口裕明, 秋元貴博, 小島光晴, 佐藤顕治, 吉海智晃, 岡田慧, 稲葉雅章：“次
世代共通視覚認識モジュールを用いたヘッドマウントステレオカメラによる
人間行動認識システム”, pp. 2A2–K02(1)–(4), 2012.
[30] Zhengyou Zhang: “A Flexible New Technique for Camera Calibration,”
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22,
no. 11, pp. 1330–1334, 2000.
47

修士論文 セマンティックオブジェクト獲得のための 一人称視点RGB

Comments

Description

Transcript

修士論文セマンティックオブジェクト獲得のための一人称視点RGB