...

非同期型e-learning環境における 学習者の顔情報把握の

by user

on
Category: Documents
10

views

Report

Comments

Transcript

非同期型e-learning環境における 学習者の顔情報把握の
Vol.0 No.0, 2002
原著論文
非同期型 e-learning 環境における
学習者の顔情報把握のための視覚的インタフェース
∗1
中村 和晃 村上
正行∗2
角所 考∗3
美濃 導彦∗3
Visual Interface for Awareness of Learners’ Facial Information in Asynchronous e-Learning
Kazuaki Nakamura∗1
, Masayuki Murakami∗2
, Koh Kakusho∗3
and Michihiko Minoh∗3
Abstract – In this paper, we propose the visual interface with which teachers can
observe the appearance of learners during e-learning. In usual lectures in classrooms,
teachers can understand how their students feel about the lectures by observing the appearance of the students, which include facial expressions, body movement and so on,
during the lecture. On the other hand, in the case of asynchronous e-learning using
course management system (CMS), which has become to be popular recently, teachers
can not observe the appearance of learners for understanding how the learners feel about
the course materials during e-learning; the learners could feel the course materials interesting, boring, difficult, easy and so on. In this paper, aiming at conveying eye gazes,
facial expressions and facial motions, which we call “facial information”, of the learners
during asynchronous e-learning to the teachers, we propose to store a facial image obtained by seeing the faces of the learners through the monitor with a virtual viewpoint
behind the monitor at each moment of e-learning as a new kind of learning log of CMS.
This image is synthesized from a pair of images obtained by a stereo cameras installed
on the frame of the monitor.
Keywords : asynchronous e-learning, facial expression, eye gaze, facial motion, virtualview image
1.
はじめに
近年,教育分野への IT 技術の導入に伴い,多くの
教育機関で e-learning システムを用いた非同期型の遠
隔教育が導入されている.非同期型の遠隔教育には,
学習者が時間的あるいは空間的に制約されずに学習す
ることができるという利点があるが,その一方,学習
者の学習中に教師が不在であるため,学習者の学習状
況を教師が把握しにくいという欠点もある.この欠点
を補うため,現在の e-learning システムの多くでは,
学習ログを記録する機能が用意されている.学習ログ
には,各学習者の学習時間の小計や設問に対するスコ
アなどが記録されており,これによって各学習者の学
習進捗状況を教師が把握できるようになっている.し
かし,このような学習ログだけでは,各学習者の学習
の “進捗状況” は把握できても,学習者が教示内容の
どの部分に対してどのような興味や熱心さで学習に取
り組んでいたか,といったような学習の “様子” まで
を把握することはできない.
*1:京都大学大学院 情報学研究科 知能情報学専攻
*2:京都外国語大学 マルチメディア教育研究センター
*3:京都大学 学術情報メディアセンター
*1:Department of Intelligence Science and Technology,
Graduate School of Informatics, Kyoto University
*2:Research Center for Multi-Media Education, Kyoto
University of Foreign Studies
*3:Academic Center for Computing and Media Studies,
Kyoto University
これに対して,講義や家庭教師などの対面型の学習
形態では,教師は教授内容を言葉で説明する際に,同
時に学習者の表情やしぐさなどの非言語情報を直接か
つ継続的に観測することによって,学習者がどれくら
い教師の話を聞いているか,どれくらい集中して考え
ているか,といった学習者の様子を把握しており,そ
の結果を基に,その場で説明の仕方を変えたり,事後
にスライド等の教材を改善したりすることも多い.実
際,対面講義では授業改善のための授業評価 [1] が広
く行われているが,この際には,学習者のテストの成
績や授業内容に関するアンケートの結果に加えて,学
習者と板書・スライドの内容等を撮影したビデオから
観察される学習者の様子も参考に講義の内容を評価す
るというアプローチが採られており,その中で,例え
ば,学習者が顔を上げて教師の方を向いているかどう
かは,教師が講義の成果を目で評価する際の指標の一
つとなることが指摘されている [2] .
非同期型 e-learning においても,インストラクショ
ナルデザイン(ID)に基づく教材改善の試みは盛んで
あるが [3] ,この際には,各学習者の設問に対するスコ
ア等,前述の学習ログから得られるデータは利用され
ているものの,対面講義の授業評価では用いられてい
るような学習者の表情・しぐさなどは,現時点では利
用不可能であるため,用いられていない.e-learning
中の学習者の表情・しぐさは,人間が対面コミュニケー
ションにおいて自身の心理状態を相手に伝えるために
ヒューマンインタフェース学会論文誌 Vol.0, No.0, 2002
能動的に表出するものとは異なり,無意識に表出され
るものと考えられるが,この点は,一人の教師が多人
数の学生に対して一斉に授業を行う通常の対面講義に
おける学生の表情・しぐさにおいても同様と考えられ
る.このことから,e-learning 中の学習者の表情・し
ぐさに関する情報が教師に把握できれば,対面授業の
場合と同様,文章や図構成の再検討などの教材改善に
役立ち,次回以降の学習者によりよい教材を提供する
ことが可能になると期待される.実際,e-learning 中
の学習者の集中度合いと,頭部や手の動き,姿勢の変
化などの動作の生起数との間には相関が認められてい
る [4] .さらに,近年,非同期型 e-learning において,
学習者の学習意欲を維持するためのメンタリングの重
要性が示唆され始めている [5] が,このメンタリング
に活用することもできると考えられる.
ただし,教師と学習者が場所を共有していない elearning では,学習の各時点で学習者が教材上の何に
注意を向けているかが教師には分からないため,学習
者の表情やしぐさ等をそれ単体で把握しても,その学
習者が何に対してそのような表情・しぐさを表したの
かが分からなければ,上述のような教材改善やメンタ
リングへ活用するには不充分である.また,対面講義
の授業評価においても,学生のある態度の継続性に対
する教師の主観的な印象は,その態度が実際に生じて
いた時間や状況とは必ずしも一致しないことが指摘さ
れていることから,教師が学習者の様子を把握するた
めのデータとして,表情等の識別子と生起時間のよう
な物理的なデータではなく,学習の様子を視覚的・継
続的に観察した結果が得られることは重要である.こ
のため,教師が学習者の学習の様子を観察する際には,
学習者が教材上のどこを見ていたかが,そのときの表
情・しぐさと共に一度に把握できるような視覚的な表
現が得られることが望ましい.
そこで本研究では,学習者の学習中の顔画像を学習
ログとして継続的に獲得・蓄積することで,非同期型
e-learning の環境においても,対面講義と同様に教師
が学習者を直接視覚的に観察でき,学習中の各時点に
おける学習者の注視対象,表情,顔の動き(以下,こ
れらをまとめて “顔情報” と呼ぶ)の三つを一度に,か
つ継続的に把握できるような視覚的インタフェースを
構築することを目指す.
以下,本稿では,2. で顔情報が把握できるような視
覚的インタフェースのデザインについて検討し,3. で
その具体的な実現手法を提案する.4. で提案手法を
実装したシステムとそれにより得られた実験結果を示
し,5. で今後の課題について議論する.
2.
正面から観察することであると考えられる.実際,二
者間のコミュニケーションにおいては,表情をはじめ
とする非言語情報が円滑に伝わるよう,互いに正面を
向くのが普通である.これは講義などの場面において
も同様である.一方,学習者の注視対象を把握するた
めには,学習者の視線の方向とその前方の状況,及び
両者の対応関係が同時に観察できる必要がある.
非同期型 e-learning の環境で教師が学習者およびそ
の周囲を視覚的に観察できるようにするための最も単
純な方法としては,ビデオチャット等と同様,学習者
の PC のモニタ枠等に小型カメラを設置して学習中の
学習者の顔を撮影し,得られた映像を学習ログとして
教師に提示するという方法が考えられる.しかし,カ
メラをモニタ枠に設置すると,学習者の顔を正面また
は正面に近い位置から観測することはできない.また,
上記のように撮影した顔画像からでは,学習者の視線
方向は観察できても,その前方,すなわちモニタ画面
を観察することはできないため,学習者の注視対象を
把握することはできない.これに対して,学習者の視
線方向を自動検出することで注視対象を教材画像上に
マーキングし,その教材画像を学習者顔画像と共に並
べて提示するという方法も考えられるが,視線方向を
高精度に自動推定することは困難である上,このよう
な提示方法により各時点での学習者の顔情報を把握す
るためには,顔画像に基づいて表情や顔の動きを確認
した後に教材画像に基づいて注視対象を確認するか,
あるいはその逆のプロセスを経る必要があるため,表
情,顔の動き,注視対象の三つを一度に把握すること
はできない.
そこで本研究では,学習者の顔情報が把握できる視
覚的インタフェースとして,図 1 のように,モニタの
裏側からモニタ画面越しに学習者の顔を透視したよう
な画像(以下,“モニタ透視顔画像” と呼ぶ.
)を用い
ることを考える.このような画像ならば,学習者の表
情や顔の動きを正面から観察できるのはもちろん,学
習者の眼とモニタ画面の両方が重ねて表示されてい
るため,学習者の視線方向とモニタ画面,及びそれら
の対応関係を同時に観察することができ,注視対象を
把握することも可能と考えられる.すなわち,モニタ
透視顔画像は,顔情報である表情,顔の動き,注視対
象の三つを同時かつ継続的に把握可能な視覚的インタ
フェースとなる.
顔情報把握のための視覚的インタフェース
2. 1 学習者顔画像の撮影・提示
学習者の顔情報のうち,表情や顔の動きを把握する
上で最も自然かつ適当なのは,当然その学習者の顔を
図 1 顔情報把握のための顔画像
Fig. 1 Images for presenting facial information
非同期型 e-learning 環境における学習者の顔情報把握のための視覚的インタフェース
2. 2
モニタ透視顔画像獲得のための従来手法
モニタ透視顔画像を獲得するためには,モニタの後
方に設置したカメラから観測した学習者顔画像が必要
となる.このような画像を撮影する装置としては,遠
隔会議支援や遠隔協調作業支援などを目的とした研究
において,様々なものが提案されている.例えば志和ら
は,電圧制御によって透明/不透明を切り替えること
ができる液晶スクリーンを利用し,そのスクリーンを
挟んで人物と対向する位置に設置したカメラのシャッ
ターのタイミングにあわせ,普段は不透明のスクリー
ンを一時的に透明にすることで,スクリーン後方視点
での人物画像の獲得を実現している [6] .この手法には,
継続的に人物を撮影する場合にはスクリーンの透明/
不透明を高周波にスイッチングしなければならず,ス
クリーンがちらついてしまうという問題があるため,
Ishii らの ClearBoard では,ハーフミラーを採用する
ことでこれを解決している [7] .ClearBoard では,床
面に対し 45 度傾けたスクリーンの表面をハーフミラー
で覆い,そのスクリーンを天井カメラで撮影すること
で,スクリーン越しに人物を透視した状況を仮想的に
実現している.ただし,ハーフミラーを用いた方法の
欠点として,カメラに届く光量が不足することや,ス
クリーンが床面に対して傾いているために相手側の映
像が奥まって見えることなどが指摘されている [8] .こ
れを解決するため,特定の方向からの再生光のみを前
方に拡散する性質を持つホログラムスクリーンを利用
し,再生光がホログラムスクリーン上で前方に拡散さ
れるような位置にプロジェクタを設置する一方,カメ
ラをスクリーンの真裏に設置することで,スクリーン
後方視点での人物画像を獲得する手法 [8] が提案され
ている.他にも,透明なフィルムに表が白色,裏が黒
色の小 6 角形を多数印刷して作成したスクリーンを用
いる手法 [9] なども提案されている.
これらの手法のように,カメラと共に特殊なデバイ
スを配置することによってモニタ後方からの学習者顔
画像を獲得する場合,カメラやプロジェクタ,スクリー
ン等のデバイスの物理的な設置場所の位置関係が厳密
に調整されている必要がある.例えば ClearBoard [7]
では,スクリーンは床面に対し 45 度傾けられている必
要があり,かつカメラとプロジェクタはスクリーンに
対し対称な位置・姿勢で設置されていなければならな
い.しかし,このような位置関係の制約を厳密に保っ
た状態で各デバイスを設置可能な状況は,学習者の自
宅など,一般的に想定される e-learning 環境ではあま
り現実的ではないと考えられる.また,各デバイスを
位置関係の制約を満たすように適切に配置できたとし
ても,その環境で撮影された画像では,利用者が自然
な距離からスクリーンを見た場合,顔の大きさがスク
リーンに対し相対的に小さくなり表情やしぐさが読み
取りにくくなる,ということが指摘されている [9] .
2. 3 画像合成によるモニタ透視顔画像の実現
一方で,コンピュータビジョン(CV)の分野では,
物体の 3 次元形状を復元してその物体の任意視点での
画像を生成する手法が議論されており [10] ,これを人
間の顔に適用することで人物の 3 次元顔画像を獲得す
ることが可能である.このため,この技術を用いて獲
得した利用者の合成顔を仮想空間に表示することで遠
隔会議を支援する研究 [11] などもあるが,これらの研
究では,利用者間での視線一致の実現を目的としてい
るものが多く,各利用者がモニタを見ている状況を対
象に,その利用者の注視対象が把握できるような顔画
像の合成を目指したものは少ない.
そこで本研究では,表情,顔の動き,注視対象の三
つを一度に把握可能であるモニタ透視顔画像を,ハー
フミラーのような特殊なデバイスを用いることなく,
かつ,学習者の顔が充分な大きさで表示されるような
構図で獲得するシステムを,CV の技術を適用するこ
とで実現するための具体的な方法を提案する.近年,
ビデオチャット等でモニタ枠にカメラを設置すること
が広く普及していることから,モニタ枠にステレオカ
メラを設置し(図 1 A, B),これによって撮影され
た顔画像から,モニタ後方の視点での学習者顔画像を
仮想視点画像として合成する.このために利用できる
CV 技術は,画像自体を平面射影変換するアプローチ
と,顔の 3 次元形状を一旦復元してから仮想視点画像
を合成するアプローチに大別されるが,モニタを見て
いる学習者をモニタ枠に設置した通常のカメラで観測
する状況では,学習者の顔とカメラとの間の距離が短
いことを考慮して,後者のアプローチを採用する.さ
らに,このアプローチをそのまま用いて顔画像を合成
すると,2.2 で述べた従来手法と同様,顔のサイズが
小さくなってしまうことから,モニタに対する顔画像
の視線方向が相対的に変化せず,かつ,モニタに対す
る顔画像の大きさが拡大するように仮想視点を移動さ
せる.このような仮想視点からの顔画像に教材画像を
重畳することによって,学習者の視線方向と画面上の
注視対象との関係を保持しつつ,学習者の顔が教材画
像に対し充分な大きさで表示されるような視覚的イン
タフェースを実現する.次章ではこのための具体的な
手法について述べる.
3.
3. 1
モニタ透視顔画像の合成手法
モニタ後方視点顔画像の合成
(1) 3 次元顔モデルの利用
まず,モニタ後方の仮想視点での顔画像を,ステレ
オカメラで撮影した実写の顔画像から合成することを
考える.このための単純な方法としては,実写の顔画
像を二次元アフィン変換により変形させる方法が考え
られる.この方法は,顔を単一の平面で近似し,その
平面に対して回転,並進,剪断などの処理を行うこと
ヒューマンインタフェース学会論文誌 Vol.0, No.0, 2002
に相当する.しかし,通常の PC における顔・モニタ
間の位置関係では,顔・カメラ間の距離が顔の奥行き
に対して充分に大きくないため,顔を平面近似したと
きの誤差が無視できない大きさとなる.そのため,こ
のような方法を用いると,歪みの大きい仮想視点顔画
像が合成されてしまう.
一方,近年,顔形状を利用した個人認証やエージェ
ント用の表情合成などの用途のために,個人の 3 次元
顔モデル作成を比較的容易に実現することを目的とし
た様々な研究がなされている.例えば,正面顔画像や
横顔画像を利用し,これに適合するように 3 次元の標
準的な顔モデルを変形させる手法 [12] や,顔の動きを
トラッキングしながら同時に顔の 3 次元形状を獲得す
る手法 [13] などが提案されている.そこで本研究では,
これらの手法により学習者の 3 次元顔モデルが予め得
られていることを前提として,これを利用して以下の
ように仮想視点顔画像を合成する(図 2).
wB p̃B
i = B (RPi + t)
(2)
B
A
B
ただし wA , wB は 0 でない定数,p̃A
i , p̃i は pi , pi
の同次座標表現である.
(1), (2) 式から Pi を消去すると次式が得られる.
Ã
!
´ w
³
A
−1 A
−1 B
= t
(3)
−RA p̃i B p̃i
wB
B
このとき,上式で pA
i , pi が得られれば,wA , wB が
求まり,その wA と (1) 式から次のように Pi が求まる.
Pi = wA A−1 p̃A
i
(4)
(3) 顔モデルの位置・姿勢の決定
(4) 式から求まった Pi に Mi が一致するように顔モ
デルの位置・姿勢を定める.このときの顔モデルの位
置・姿勢は,モデル中心座標系をカメラ A のカメラ中
心座標系に変換する回転行列と並進ベクトル RM , tM
によって表現できる.この RM , tM により,任意の
Mi が Pi に一致すればよいので,二乗誤差
E =
m
X
||Pi − (RM Mi + tM )||2
(5)
i
図 2 仮想視点顔画像の合成
Fig. 2 Synthesizing virtual-view facial images
(2) 顔特徴点の 3 次元位置復元
学習者の 3 次元顔モデルとして,眉,眼,口の端点
や鼻の頭頂部などの特徴点を頂点とする三角形パッチ
からなる多面体で顔を近似したサーフェスモデルを用
いる.このとき,モデルの i 番目の頂点 Pi (1 <
=i<
=
n, n : モデルの頂点数) のモデル中心座標系における
3 次元座標を Mi で表す.これに対して,ステレオカ
メラにより撮影された 2 枚の学習者の顔画像から,上
の顔モデルの頂点に対応する顔特徴点の 2 次元位置を
m (<
= n) 点抽出し,その 3 次元位置をステレオ視の原
理に基づいて次のように算出する [10] .
ステレオカメラシステムを構成する 2 台のカメラ A,
B の内部パラメータ行列を A, B ,カメラ A のカメラ
中心座標系をカメラ B のカメラ中心座標系に変換す
るための回転行列と並進ベクトルをそれぞれ R, t と
する.いま,カメラ A, B の画像平面上での Pi の 2 次
B
元座標が得られたとして,これを pA
i , pi で表すと,
これとカメラ A のカメラ中心座標系での Pi の 3 次元
座標 Pi との間には次の関係式が成り立つ.
wA p̃A
i = APi
(1)
を最小化するように RM , tM を定める.
この処理において,モデルの位置・姿勢を定める際の
自由度は RM が 3,tM が 3 で合計 6 自由度となる.一
方,Pi と Mi を 1 組一致させることにより得られる拘
束式は 3 つであるが,(Pi , Mi ), (Pj , Mj ) の 2 組をそ
れぞれ一致させるときには,||Pi −Pj || = ||Mi −Mj ||
も同時に成立しているはずであるから,2 組それぞれ
の一致・不一致は独立ではなく,得られる拘束式は 5
つにしかならない.従って,RM , tM を決定するに
は少なくとも 3 組を一致させることが必要となる.こ
のためには,ステレオカメラの画像から顔モデル上の
特徴点を最低 3 点抽出しなければならない(すなわち
m>
= 3).ただし,各点の誤差による影響を抑えるた
めには,より多くの特徴点を用いることが望ましい.
さらに,これらの点は,画像処理により安定的に抽出
しやすく,かつ,モデルの位置・姿勢を決定するため
に,その位置ができる限り同一直線上から外れたもの
である必要がある.以上のことから,本研究では,こ
のような顔特徴点として,右目,左目,口それぞれの
両端点からなる計 6 点をステレオカメラの画像から抽
出する.
(4) 仮想視点顔画像の合成
上記のようにして位置・姿勢を定めた顔モデルを,モ
ニタの裏側に位置を定めた仮想カメラで観測し,モニ
タ後方視点顔画像を合成する.このときの仮想カメラの
位置・向きの決定法については次節で詳しく検討するが,
ここでは,そのような仮想カメラの位置・向きを,カメ
ラ A のカメラ中心座標系における仮想カメラの 3 次元
非同期型 e-learning 環境における学習者の顔情報把握のための視覚的インタフェース
位置 PC ,光軸方向 vC = (vx , vy , vz )T (||vC || = 1)
で表すことにする.また,仮想カメラの内部パラメー
タ C は,仮想カメラとしてカメラ A と同じカメラを用
いることを考えれば,次式のように A と同一になる.
C=A
(6)
ここで,カメラ A のカメラ中心座標系を仮想カメ
ラのカメラ中心座標系に変換する回転行列および並進
ベクトルを RC , tC で表すと,これらはそれぞれ次式
のように定まる.


x
√ v2z 2
√−v
0
2 +v 2
vx +vz
vx
z 
 −vx vy
p
−v v
RC = 
(7)
vx2 + vz2 √ 2y z 2 
 √vx2 +vz2
vx +vz 
vx
vy
tC = −RC PC
vz
(8)
(6)∼(8) 式で求まった C, RC , tC から,顔モデルを
構成する各三角形パッチごとに仮想視点顔画像とカメ
ラ A, B の画像との間のホモグラフィー行列 HA , HB
が次式のように定まる.
µ
¶
tC nT
T
HA = ARC
I−
C −1
(9)
d
½
µ
¶
¾
tC nT
tnT
T
HB = B RRC I −
+
C −1 (10)
d
d
ただし I は 3 次元単位行列,n は仮想カメラ座標系に
おける任意の三角形パッチの法線ベクトル,d は仮想
視点からその三角形パッチまでの距離である.これに
より,仮想視点顔画像上の各点 pC に対応するステレ
オカメラ A, B の画像上の点 pA , pB を次のように求
めることができる.
p̃A = HA p̃C ,
p̃B = HB p̃C
(11)
図 3 顔・モニタ画面・視点の位置関係
Fig. 3 The relation among face, monitor and viewpoint
このときの仮想カメラの位置・向きとして,仮想カ
メラの光軸がモニタ画面に垂直になるように,モニタ
画面の中心 D を通る垂線上に仮想カメラを配置し,さ
らに仮想カメラ位置 C とモニタ画面の中心 D との距離
を仮想カメラの焦点距離 f 1 に一致させておけば,教
材画像を何ら拡大縮小せずに重畳するだけでよいこと
になる(図 3).しかし,2.2 でも述べたように,通常
の学習環境で用いられるようなモニタの大きさ(20 イ
ンチ程度)及び利用者の顔とモニタとの距離関係の下
においては,このような位置設定では教材画像に対す
る顔画像のサイズ比が小さくなりすぎる(図 7(g) 参
照).このような画像では顔部分の解像度が充分に高
くならず,表情などが把握しづらくなる.
この問題に対して,教材画像を重畳する前に,顔画
像を一旦拡大しておくという解決策が考えられる.こ
れは図 4 において,C から見て D の位置にあるモニ
タ画面への顔の投影像をそのまま拡大することに相当
するから,CD 間の距離および顔の大きさを固定した
上で,E → E’ のように顔を仮想カメラに近づけるこ
とと等価である.しかしこの場合,視線ベクトルとモ
ニタ画面との交点,すなわち学習者の注視位置が変化
してしまうため,学習者の注視対象が正確に把握でき
なくなる.
これに対して,点 pC に対応する画素の輝度値 L(pC )
を,pA , pB に対応する画素の輝度値 L(pA ), L(pB )
の平均値として次式のように定める.
L(pC ) =
L(pA ) + L(pB )
2
(12)
以上により,仮想カメラから見た顔画像を合成する
ことができる.
3. 2 顔画像と教材画像の重畳
モニタ透視顔画像を合成するためには,3.1 の手法
で合成した仮想視点顔画像に,さらに学習者の顔とモ
ニタ画面の位置関係を反映した構図で,教材画像を重
畳する必要がある.ここで,モニタの大きさと仮想カ
メラに対するモニタの位置,向きを予め測定しておけ
ば,仮想カメラから見た際にモニタ画面がどの程度の
大きさで観測されるかを計算できるので,計算された
大きさに合わせて教材画像を仮想視点顔画像に重畳す
れば,学習者の顔とモニタ画面との位置関係を反映し
た構図でのモニタ透視顔画像が得られる.
図 4 顔画像拡大による注視対象の変化
Fig. 4 Change of eye gaze by resizing facial image
そこで本研究では,図 5 に示すように,学習者の顔
の中心 E を頂点とし,かつモニタ画面を底面とする錐
体に沿ってモニタ画面を相似縮小し,更に仮想カメラ
1:f は本来レンズ中心から受光面までの距離を受光素子の大
きさを基準として表した比率であるが,ここでの f は,そ
の比率をモニタ画面の大きさに適用した距離である.
ヒューマンインタフェース学会論文誌 Vol.0, No.0, 2002
の位置 C を,モニタ画面の移動量と同じだけ学習者の
顔中心 E に近づける.このようにして位置を変更した
視点から,相似縮小したモニタ画面越しに学習者の顔
を透視した状況が再現されるよう,教材画像をスケー
リングして顔画像に重畳し,教材画像に対する顔画像
の相対的な大きさを調整する.この場合には,学習者
の視線方向とその先にある注視対象との関係が維持さ
れる 2 .
図 6 実装システムの外観
Fig. 6 The implemented system
図 5 顔・モニタ画面視点の位置関係(縮小後)
Fig. 5 The relation among face, monitor and viewpoint
for proposed method
なお,上記のような手法でそのまま重畳処理を行う
と,教材画像は学習者視点,すなわちモニタをそのま
ま見たときのモニタ画面の画像であるのに対し,顔画
像はモニタ後方の視点からモニタ画面を透視したもの
となっており,左右が逆になっていることから,教材
の画像を一旦左右反転させてから重畳する必要がある.
ただし,このままでは教材の文字・数式・図表等が左
右反転していて表示内容を把握しにくいので,最後に
重畳済み画像全体を再度左右反転させる.
4.
実験
4. 1 システムの実装
モニタ透視顔画像を実際に合成するためのシステム
を以下のように実装し,e-learning システムを利用し
ている学習者を視覚的に観測できるような学習ログを
記録できるシステムを構築した.
(1) ステレオカメラの設置
一般的な学習環境を想定して 20 インチのモニタを
用意し,このモニタの枠の左上部と右上部にステレオ
カメラを設置した(図 6).ステレオカメラの強校正に
は,Zhang の手法 [14] を用いた.このステレオカメラ
を用い,640 × 480(pixel) の解像度,15(fps) のフレー
ムレートで顔画像の撮影を行った.
(2) 顔モデルの作成
学習者の顔モデルの作成には,3.1 で挙げたような
様々な手法が考えられるが,本実験では,ステレオカ
メラで撮影した顔画像上でモデルの各頂点に対応する
n 個全ての特徴点を手動で与え,これを用いて特徴点
2:このときの縮小率(ED’ / ED)は,低すぎると上述の問
題が改善されず,一方,高すぎると逆に教材画像のサイズ
が小さくなりすぎる.この点を考慮した結果,4. の実験で
は縮小率を 0.45 とした.
の 3 次元位置をステレオ計測により求めることで 3 次
元顔モデルを作成し,以降の処理に利用した.
(3) 顔特徴点の抽出
3.1 (2) で述べた処理を実行するために,ステレオ
カメラで撮影された顔画像から左目・右目・口それぞ
れの両端点の 2 次元位置を抽出する際には,オムロン
社の顔画像処理ソフト OKAO Vision を用いた.この
とき,顔の向きが OKAO Vision の対象としている範
囲から逸脱するほど横向きになったり,照明環境の影
響で顔画像に影やハイライトが生じたフレームでは,
OKAO Vision による右目・左目・口の両端点の 2 次
元位置の抽出に失敗するため,そのようなフレームに
対しては,前フレームでの両目・口の 2 次元位置を基
に Mean Shift 法 [15] により現フレームでの位置を推
定した.また,右目・左目・口の両端点が抽出できた
フレームであっても,その抽出位置にはノイズが含ま
れるため,3 次元位置の計算結果に誤差が含まれてし
まう場合が多い.そこで,モニタを見ている学習者の
顔の位置・姿勢は不連続に変動しないと仮定し,右目・
左目・口の両端点の 3 次元座標に対してその移動平均
をとり平滑化した.
4. 2
重畳結果
上記のシステムを用いて,モニタ画面を見て学習す
る学習者の顔を実際に撮影し,得られた実写画像から
モニタ透視顔画像を合成した.その結果を図 7 に示す.
図 7(a), (b) は学習者から見てモニタの左右上部に設
置したステレオカメラ A, B の画像,(c) は (a), (b) か
ら合成したモニタ後方視点顔画像,(d) は (a), (b) が
撮影された時刻に学習者が見ていた教材の画像,(e)
は (c) に (d) を重畳して得たモニタ透視顔画像である.
また,(f) は (b) を二次元アフィン変換により変形さ
せて合成したモニタ後方視点顔画像,(g) はモニタ画
面を相似縮小せずに重畳処理を行った場合のモニタ透
視顔画像である.
(f) では,3.1 (1) で述べたように,頬などに大きな
非同期型 e-learning 環境における学習者の顔情報把握のための視覚的インタフェース
(a) 左上カメラの画像
(a) Image of camera A
(c) モニタ後方視点顔画像
(c) Virtual-view image
(b) 右上カメラの画像
(b) Image of Camera B
(d) 教材画像
(d) Course material
(e) モニタ透視顔画像
(e) Overlaid image
(f) 二次元アフィン変換によるモニタ後方視点顔画像
(f) Virtual-view image by 2D affine transform
(g) モニタを相似縮小せずに合成したモニタ透視顔画像
(g) Overlaid image without down-scaling the monitor
図7
合成結果
Fig. 7 Resultant images
歪みが生じているが,本手法により得られた (c) は歪
みの小さい画像が得られている.また,(g) では,3.2
で述べたように教材画像に対して顔画像が小さすぎる
ため顔情報が把握しづらいものとなっているが,本手
法でモニタ画面を相似縮小した (e) では,顔画像と教
材画像が適切な大きさで重畳されており,顔情報が把
握しやすいものとなっている.なお,これらの図は静
止画像であるため顔とモニタとの位置関係が分かりづ
らいが,実際にはモニタ透視顔画像は動画として得ら
れており,対象物体が動くと奥行き感を感じる運動視
の効果により,顔とモニタが同一平面上に知覚されて
しまうことはない.
4. 3 学習ログの表示例
前節で得られたようなモニタ透視顔画像を,顔情報
把握のためのインタフェースとして用い,学習者を視
覚的に観察できる学習ログを作成した.その表示例を
図 8 に示す.
図 8 学習ログ表示例
Fig. 8 An example of proposed learning logs
この学習ログでは,左部に教材の各ページのサムネ
イル画像が表示されており,これをクリックすること
で,学習者がその教材を閲覧していた時刻におけるモ
ニタ透視顔画像(右上部)に直接アクセスできるよう
になっている.なお,本稿では焦点を当てなかった身
振りや手振りなどの顔情報以外の非言語情報について
は,現時点ではモニタ透視顔画像の下にステレオカメ
ラで撮影された実写画像を用いて表示している.
4. 4
評価
4.2 で得られたようなモニタ透視顔画像から期待し
たような顔情報が把握できるかどうかを検証するため
に,被験者の学習の様子を提案システムで実際に記録
し,次の実験 (1),(2) を行った.2.2 で述べたように,モ
ニタ後方視点の顔画像の合成に関する従来手法ではモ
ニタに対する顔の相対的な大きさが小さくなるのに対
して,本手法では 3.2 で述べたような工夫により,こ
の点が改善されている.そこで,まず,この効果につ
いて検証した.従来手法による顔画像は,3.2 の処理
ヒューマンインタフェース学会論文誌 Vol.0, No.0, 2002
においてモニタ画面の相似縮小を行わずに合成したモ
ニタ透視顔画像と同様となるので,この画像と,相似
縮小を行い合成したモニタ透視顔画像とで,顔情報把
握の容易さがどの程度違うかを比較した.なお,この
実験ではモニタ透視顔画像のみを用いており,ステレ
オカメラによる実写画像は被験者には提示していない.
(1) 表情・顔の動きの把握
教材として,英単語および英熟語に関する選択形式
の問題を収めた教材ページを 12 種類作成した.その問
題を 4 名の学習者に解答してもらい,その様子を提案
システムで撮影した.学習中に見られる表情やしぐさ
は,個人や状況によっても異なり,様々なものが考え
られるが,少なくとも難しさや退屈感によって見かけ
が変化する可能性は想定される.そこで,このような
表情・しぐさを捉えるために,作成した教材には様々
な難易度の問題を含め,かつ,同様の傾向の問題を連
続して提示することで次第に退屈感を感じやすいよう
なものとした.また,撮影後,各学習者の正答率を教
材ごとに集計するとともに,各被験者に,閲覧した教
材が難しかったかどうかについて回答してもらった.
このような教材を用いて学習した際にどのような表
情・しぐさが見られるかを観察した結果,学習者ごと
に表れやすい顔情報と表れにくい顔情報とがあったも
のの,一般的な傾向として,難しい問題に解答する際
には首を傾げる,眉間にしわを寄せる,口を引き結ぶ,
といったような表情・しぐさが見られた.このとき学
習者が実際に問題を難しいと感じていたことは,問題
の正誤や事後アンケートからも確認できた.また,興
味を惹かれればモニタ画面に顔を近づけ,退屈を感じ
ればモニタ画面から離れる,といった行動も生じた.
そこで,本実験で生じたこのような実際の顔情報が,
本研究で提案したモニタ透視顔画像によってどのよう
に把握できるのかを調べた.まず図 9 は,同傾向の問
題を約 20 分間解答し続けた学習者が,問題に退屈し
て次第にモニタから顔を遠ざけていったときのモニタ
透視顔画像である.顔画像が徐々に小さくなっていく
様子から,“顔が画面から離れた” という顔情報が把
握できる.また,図 10, 11 は,図 9 とは別の学習者
が,難しい問題に解答して “首を傾げる”,“口を引き
結ぶ” といった表情・しぐさを行っているときに得ら
れたモニタ透視顔画像である(このときの問題に対す
るこの学習者の正答率は実際に低かった).教材画像
に対する顔画像の傾きや顔画像そのものから,これら
の表情・しぐさを把握することができる.
上記の表情・しぐさに関して,モニタ画面の相似縮
小処理を行い合成したモニタ透視顔画像(図 7(e) に相
当)と行わずに合成したモニタ透視画像(図 7(g) に相
当)とで,どちらの方がより把握しやすいかを 7 人の
被験者にアンケートにより尋ねた.ただし,このとき
の教材画面の大きさは 2 種類の画像とも同じであり,
顔の大きさのみが異なっている.アンケートの結果,
(a) 学習開始直後
(a) Right after the beginning
↓
(b) 学習開始から約 12 分後
(b) About 12 minutes later
図 9 モニタから遠ざかっていくときの画像
Fig. 9 The learner backing away from the monitor
図 10
首を傾げて考え込んでいるときの画像
Fig. 10 The learner inclining his head
6 人がモニタ画面縮小処理を行う方が把握しやすいと
回答した(図 12).このことから,提案手法の方が,
従来のようにカメラ・モニタ間の距離を考慮しない場
合よりも,学習者の表情・しぐさを把握しやすいこと
が確認できた.
(2) 注視対象の把握
先程の実験から,学習中に表出される表情・しぐさ
がモニタ透視顔画像により把握できることは確認でき
たが,さらにそのような表情・しぐさが生じたときに学
習者が教材上のどの対象を見ているのか,ということ
も同時に把握できるかどうかを調べるため,(1) に用
いたものとは別の教材を用いて,以下の実験を行った.
非同期型 e-learning 環境における学習者の顔情報把握のための視覚的インタフェース
を把握しにくいためと考えられる.
なお,4.1 で述べたように,本実験では 20 インチ
のモニタを用いたが,この大きさのモニタ画面を 6 等
分したときの各領域は,モニタから 60cm 離れている
人間には縦横 15 度の大きさで視認されることになる.
このときのモニタ透視顔画像による注視対象の推定精
度は 85.4%となっているが,画像処理による視線検出
手法の精度が最新のもの [16] でも 81%(許容誤差 15
度時)であることを考えると,本手法はやや高い精度
を実現できているといえる.
図 11 口元を引き結んでいるときの画像
Fig. 11 The learner closing his lips tightly
図 13 指定領域と推定領域の一致率
Fig. 13 Accuracy rate of teachers’ answer
図 12 表情・しぐさの把握しやすさ
Fig. 12 Readablity of facial expressions and gestures
5.
むすび
本研究では,非同期型 e-learning の環境において,
教材表示の詳細さが与える注視対象の把握精度
へ の 影 響 を 調 べ る た め に ,表 示 画 面 を そ れ ぞ れ
4,6,9,12,16,20 個の領域に等分割した 6 種類の教材を用
意した.これらの教材を,見てもらう領域をあらかじ
め指定した上で,学習者役の被験者 2 名にそれぞれ 6
回ずつ閲覧してもらい,その様子を提案システムで撮
影した.撮影された画像から,
「顔が小さく見える」問
題に対して,(A) モニタ画面を相似縮小する方法(提
案手法,図 7(e) に相当),(B)3.2 で挙げた重畳前に一
旦顔画像を拡大する方法,および,(C) 何らの拡大縮
小をも行わず重畳する方法(図 7(g) に相当)をそれぞ
れ用いて,3 種類のモニタ透視顔画像を合成した.合
成された画像を教師役の被験者 4 名に提示し,学習者
役被験者が教材中のどの領域を見ていたかについて回
答を求めた.ただし,このときの教材画面の大きさは
3 種類の画像とも同じであり,顔の大きさも (A),(B)
では同じである.ただし,(B) では,教材画面に対す
る顔画像の位置がずれている.一方,(C) では顔の大
きさが (A),(B) より小さくなっている.
学習者役被験者にあらかじめ指定しておいた領域と,
教師役被験者の推定した領域とを比較した結果,両者
の一致率は図 13 のようになった.図 13 の結果から,
教材をある程度細かい領域に分割した場合には,提案
手法がその他の手法よりも高い注視対象把握精度を実
現することが分かる.(B) や (C) の方法で把握精度が
低くなる理由は,(B) では,3.2 で述べたように学習
者の視線方向と注視対象の関係が保存されないためで
あり,一方 (C) では,眼領域の解像度が低く視線方向
教師が学習者を直接視覚的に観察でき,学習者の発す
る表情,注視,顔の動きに関する情報が同時かつ継続
的に把握できるようなインタフェースとして,モニタ
の裏側からモニタ越しに学習者の顔を透視したような
画像(モニタ透視顔画像)を合成・利用する手法を提
案した.本研究では,顔を多面体で近似した 3 次元顔
モデルとステレオカメラを用いてモニタ後方視点での
顔画像を復元し,その上に教材画像を重畳することで
このような顔画像を合成した.
今後の課題としては,学習者全体としての学習の様
子が把握できるような視覚表現の追加が挙げられる.
対面講義の環境においては,教師は学習者全員の顔情
報を一度に把握することができるのに対し,本手法で
は,一度に一人の学習者の顔情報しか把握できない.
この点に関しては,対面講義においても教師は全ての
学習者をつぶさに観察しているわけではなく,ポイン
トとなる数人の学習者のみを観察し,それを手がかり
に全体の理解状況などを把握している,という報告も
あるため [17] ,本手法により一人の学習者を継続的に
観察することができるだけでも充分に有用とは考えら
れるが,学習者全体の大局的な様子の把握が可能な視
覚表現があれば,学習の様子を把握する上での教師の
負担を現状より軽減することができると考えられる.
そのため,今後はそれが可能であるような視覚表現に
ついても検討していく予定である.また,本研究では,
学習者の発する非言語情報として顔情報のみに焦点を
当てたため,それ以外の身振り・手振りなどについて
ヒューマンインタフェース学会論文誌 Vol.0, No.0, 2002
は実写の顔画像で表示するという形の学習ログを作成
したが,実用上は,このような身振り・手振りなども
一つのモニタ透視顔画像から同時に把握できるような
[17]
ステム”; 画像の認識・理解シンポジウム (MIRU2006)
講演論文集, DS-06, pp.1381-1382, (2006).
吉崎 静夫: “成長する教師――教師学への誘い‐6 章
授業の流れを予測する”; 金子書房, (1998).
インタフェースが望ましい.そのため,今後はモニタ
(2002 年 1 月 1 日受付,1 月 1 日再受付)
透視顔画像に髪や胴体部分などを追加することも検討
していく予定である.
著者紹介
謝辞
顔特徴点抽出に際して,OKAO Vision を提供して
中村
和晃
頂いたオムロン株式会社に感謝する.
平成 17 年京都大学工学部情報学科卒
業.現在,同大大学院情報学研究科修
士課程在学中.画像処理に関する研究
に従事.
参考文献
[1] 牟田 博光: “授業改善システムの構築とその成果”; 京
都大学高等教育研究第 9 号, p.1-11, (2003).
[2] 京都大学高等教育教授システム開発センター編: “大学
授業のフィールドワーク―京都大学公開実験授業―”;
玉川大学出版部, (1997).
[3] 鈴木 克明: “e-Learning 実践のためのインストラク
ショナル・デザイン”; 日本教育工学会論文誌, vol.29,
no.3, pp197-205, (2005).
[4] 五味 真理子, 村上 真, 米山 正秀:“ユーザの集中状態
に応じた仮想講義型 e-learning システム構築のための
動作分析”; 2006 年電子情報通信学会総合大会講演論
文集, D-15-33, (2006).
[5] 吉田 文, 田口 真奈, 中原 淳: “大学 e ラーニングの経
営戦略 成功の条件”; 東京電機大学出版局, (2005).
[6] 志和 新一, 大庭 有二: “新しい視線一致表示方式の提
案’
’; 1990 年電子情報通信学会秋季全国大会講演論
文集, SA-6-2, p.236, (1990).
[7] Hiroshi Ishii, Minoru Kobayashi: “ClearBoard: a
seamless medium for shared drawing and conversation with eye contact”; Proceedings of SIGCHI
conference on Human factors in Computing Systems, pp.525-532, (1992).
[8] 安田 浩, 青木 輝勝, ウィドヨ クスタルト, 坂本信樹,
鈴木一徳, 佐分淑樹: “文殊の知恵システム:意思決定
可能な視線一致型テレビ会議システム”; 情報処理学
会研究報告 98-AVM-23, no.111, pp.6-8, (1998).
[9] 岡田 謙一, 松下 温: “臨場感のある多地点テレビ会議
システム:MAJIC ’
’; 情報処理学会論文誌, vol.36,
no.3, pp.775-783, (1995).
[10] 出口 光一郎: “ロボットビジョンの基礎”; コロナ社,
(2000).
[11] 岸野 文郎: “ヒューマンコミュニケーション‐臨場感通
信”; テレビジョン学会誌, vol.46, no.6, pp.698-702,
(1992).
[12] 森島 繁生, 八木 康史, 金子 正秀, 原島 博, 谷内田 正
彦, 原 文雄: “顔の認識・合成のための標準ソフトウェ
アの開発”; 電子情報通信学会技術研究報告 PRMU,
vol.97, no.282, pp.129-136, (1998).
[13] 佐竹 純二, 尺長 健: “階層的注視点制御と拡張カルマ
ンフィルタを用いた人物顔の姿勢・形状同時推定”; 画
像の認識・理解シンポジウム(MIRU2002)論文集,
vol.1, pp.439-446, (2002).
[14] Zhang Zhengyou: “A Flexible New Technique for
Camera Calibration”; Microsoft Research Technical Report MSR-TR-98-71, (1998).
[15] Dorin Comaniciu, Visvanathan Remesh, Peter
Meer: “Kernel-Based Object Tracking”; IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol.25, pp.564-577, (2003).
[16] 木下 航一, 勞 世 , 川出 雅人: “単眼カメラによる
キャリブレーション不要な頭部姿勢・視線方向推定シ
村上 正行
(正会員)
平 9 京大・総合人間・基礎科学卒.平
14 同大大学院情報学研究科博士後期
研究指導認定退学.同年京都外国語大
学外国語学部講師.平 15 同大学マル
チメディア教育研究センター講師.高
等教育における遠隔教育,e-Learning,
CALL 等の教育実践を対象とした授業
研究,評価研究に従事.博士(情報学).
電子情報通信学会,日本教育工学会,人
工知能学会,情報処理学会,教育シス
テム情報学会,日本教育メディア学会,
AACE 各会員.
角所
考
昭 63 名大・工・電気卒.平 5 阪大大
学院工学研究科通信工学専攻博士課程
修了.平 4∼6 日本学術振興会特別研
究員.平 5∼6 スタンフォード大学ロボ
ティクス研究所客員.平 6 大阪大学産
業科学研究所助手.平 9 京都大学総合
情報メディアセンター助教授.平 14 同
大学学術情報メディアセンター助教授.
視覚メディア処理,コミュニケーショ
ン,インタラクションに関する研究に
従事.博士(工学). IEEE,ACM,
情報処理学会,人工知能学会各会員.
美濃
導彦
(正会員)
昭 53 京大・工・情報工学卒.昭 58 同
大大学院博士課程了.同年工学部助手,
昭 62∼63 マサチューセッツ州立大学客
員研究員,平元京都大学工学部附属高
度情報開発実験施設助教授,平 7 同教
授,平 9 京都大学総合情報メディアセ
ンター教授,平 14 京都大学学術情報メ
ディアセンター教授.画像処理,人工
知能,知的コミュニケーション関係の
研究に従事.工博.IEEE,ACM,情
報処理学会,画像電子学会,日本ロボッ
ト学会各会員.
Fly UP