Comments
Description
Transcript
博士論文審査結果報告書
早稲田大学大学院情報生産システム研究科 博士論文審査結果報告書 論 文 題 目 Study on Hilbert-Scan based Bag-of-Features for Image Description and Retrieval 申 請 者 Pengyi HAO 情報生産システム工学専攻 イメージメディア 研究 2013 年 1 9 月 近年,情報通信,セキュリティなどの発展に伴い,コンピュータビジョン に お け る 画 像 検 索 技 術 の 需 要 が 高 ま っ て き て い る .1 9 8 0 年 代 か ら 画 像 デ ー タ ベースに関する研究が盛んとなり,これまでに様々な画像記述法が提案され て き た . そ の 中 で 2000 年 初 め に 画 像 検 索 に お い て 局 所 特 徴 量 を 用 い た 画 像 記 述 法 と し て Csurka ら (2004)に よ る Bag-of-Features( BoF) が 提 案 さ れ , 当 該 分 野 の 研 究 が 大 き く 発 展 し た .こ れ は ,Salton ら (1983)に よ る 文 書 分 類 手 法 で あ る B a g - o f - Wo r d s を 画 像 に 適 用 し た も の で あ り , 画 像 を 局 所 特 徴 量 の集合とみなし,局所特徴量のヒストグラムを使って画像検索を行うもので あ る . BoF は そ の 後 , Fei-Fei ら (2005)に よ る SIFT 特 徴 量 を 利 用 し た も の , Wi n n ら ( 2 0 0 5 ) に よ る Te x t o n 特 徴 量 を 利 用 し た も の な ど ,様 々 な 改 良 研 究 が なされてきた.しかし,これらの研究では画像特徴を局所特徴量のヒストグ ラムとして記述するため,局所特徴量の空間的位置情報が欠落してしまうと い う 問 題 が あ っ た .こ れ は ,B a g - o f - Wo r d s に お け る 単 語 間 の 関 係 を 無 視 し て い る 問 題 と 同 じ で あ る .こ の 問 題 に 対 し て ,L a z e b n i k ら ( 2 0 0 6 ) に よ る S p a t i a l Pyramid Matching( SPM) や , Marcin ら (2006)に よ る 重 み 分 布 ベ ク ト ル 量 子化法が提案されているが,空間的位置情報の導入が十分に検討されている と は 言 い 難 い .本 研 究 で は ,本 来 の B o F に 対 し て 局 所 特 徴 の 空 間 的 位 置 関 係 を積極的に導入することにより,従来研究に対して検索精度および速度を向 上させる方法を提案している.具体的には,空間充填曲線の一種であるヒル ベルト曲線を画像走査に用いて,空間的近傍情報を可能な限り保存する Hilbert-Scan based BoF( HS-BoF) を 考 案 し て い る . 本 研 究 で は ,画 像 や ビ デ オ に 写 っ て い る 顔 を 対 象 と し て 顔 画 像 の ク ラ ス タ リ ン グ に よ る グ ル ー プ 化 を 高 精 度 に 実 現 し , 画 像 記 述 法 HS-BoF に 基 づ く 高 速画像検索技術の確立を行っている. また,顔画像の高速検索において主要 な要素技術である粗検索法に関してシグネチャという新たな方法を考案して いる. 本研究は, コンピュータビジョンにおける画像検索の分野において, 空間的位置情報を取り込んだ画像記述法を提案している点でその意義は高く, 画像検索研究の新たな展開を示すものと言える.以下,各章ごとにその概要 を示し評価を与える. 第 1 章 「 Introduction」 で は , 画 像 検 索 に お け る 画 像 記 述 法 の 主 要 な 従 来 技術について概説し,画像記述法の問題点とその対策を明らかにしている. また, 顔画像を対象とした画像/ビデオ検索手法の従来研究との相違点を明 らかにしている. 第 2 章「 H i l b e r t - S c a n b a s e d B a g - o f - F e a t u r e s f o r I m a g e R e t r i e v a l 」で は , 画像検索における画像記述法として,ヒルベルト走査を用いて空間的位置情 報 を B o F に 導 入 し た H S - B o F を 提 案 し て い る .こ れ は ,画 像 上 で コ ー ナ ー 点 などの特徴点群を抽出し,ヒルベルト走査を利用して2次元の画像平面上の 特徴点群を1次元直線上に展開し,その1次元直線上に列んだ各特徴点の局 2 所特徴量の集合を木構造化して表現するものである.また,これはヒルベル ト 走 査 に よ り 1 次 元 に 展 開 す る と ,2 次 元 空 間 上 で の 近 傍 性 が 他 の 走 査 法( 例 えば,ラスタ走査,Z 走査など)に比べてより保持されるという特徴を利用 したものである.木構造表現は,上位層に背景情報を少なくした対象物の大 局的な特徴を含むようにし,また下位層には局所的な特徴を詳細に記述する よ う に 設 計 す る . し た が っ て , HS-BoF は , 色 , 形 状 な ど を 表 す 局 所 特 徴 量 がヒルベルト走査順に並んだ下位層ヒストグラム,建物,鳥などの構造的な カテゴリレベルの特徴量がヒルベルト走査順に並んだ上位層ヒストグラムに よ り 構 成 さ れ る .2 5 6 種 類 の 対 象 物 体 を 含 む C a l t e c h - 2 5 6 デ ー タ セ ッ ト や 1 0 0 万 枚 の 画 像 を 含 む 大 規 模 デ ー タ セ ッ ト ImageNet な ど を 用 い た 画 像 検 索 実 験 を 行 っ た 結 果 , 提 案 手 法 は , 従 来 手 法 の BoF や SPM な ど を 用 い た 場 合 よ り , m A P ( m e a n Av e r a g e P r e c i s i o n ) に お い て 約 2 % ~ 7 % の 精 度 向 上 が 得 ら れることがわかった.本研究は,ヒルベルト走査による空間的位置情報を生 かした画像記述法の着想により,高精度の画像検索を可能にしたことが評価 できる. 第 3 章 「 F a c e C l u s t e r i n g f r o m Vi d e o D a t a s e t w i t h H i l b e r t - S c a n b a s e d Bag-of-Features」で は ,HS-BoF を 利 用 し て ,膨 大 な ビ デ オ デ ー タ セ ッ ト か ら人物の顔を効率的に特定するためのクラスタリング手法を検討した.これ は,ビデオから顔の部分を抽出した顔トラックを生成し,同じような顔トラ ックが並んだ部分をクラスタリングにより分割するシーントラック,さらに ある人物の顔が並んでいるシーントラック部分を抽出する人物トラックとい った階層的な組織化を行うことにより,高速検索を可能にするものである. 階層的な組織化により,一人の人物が現れている複数のシーントラックを見 つけることができ,またその下位層の複数の顔トラックで見つけることがで き る . 標 準 デ ー タ ベ ー ス と し て 公 開 さ れ て い る 複 数 の ビ デ オ ( 映 画 , TV シ ョ ウ , NASA,イ ン タ ビ ュ ー な ど ) を 使 っ て ク ラ ス タ リ ン グ 精 度 に 関 す る 評 価 実験を行った結果,提案手法は,従来手法の階層的クラスタリング手法 Agglomerative clustering や kmeans な ど と 比 較 し た 場 合 に , 約 7%~ 9%の 精 度 向 上 が 得 ら れ て い る . こ の よ う に 第 2 章 で 述 べ た HS-BoF を , ビ デ オ に おける顔画像のクラスタリングに適用して, 識別精度の良い顔画像クラスタ リング法を実現できたことが評価できる. 第 4 章 「 F a c e R e t r i e v a l f r o m Vi d e o D a t a s e t b a s e d o n D i c t i o n a r y Learning」 で は , 第 3 章 の 提 案 方 法 を 拡 張 し , 新 た な 辞 書 学 習 法 を 用 い て ビ デオデータセットから表情変化を吸収する顔画像クラスタリングを行うこと で,さらに高精度化できることを示している.ここでは膨大なビデオデータ セットからの人物を効率的に特定するための辞書学習法を開発した.これは L1 ノ ル ム を ベ ー ス と し た 従 来 手 法 の ス パ ー ス 辞 書 学 習 に , Maximum C o r r e n t r o p y C r i t e r i o n ( M C C ) に よ る 区 分 的 拘 束 条 件 を 設 定 し て ,学 習 用 ビ デ 3 オからシーントラック,人物トラックの再組織化を行い,高精度のクラスタ リングを可能にするものである.まず,同一人物かどうかを特定する方法を 比 較 評 価 す る 公 開 ベ ン チ マ ー ク テ ス ト を 行 っ た 結 果 ,2009 年 か ら 2012 年 ま で の 代 表 的 な 7 種 類 の 従 来 手 法 に 対 し て ,提 案 手 法 は 2 ~ 5 % の 精 度 向 上 が 見 ら れ た . 次 に , 第 3 章 に お い て 利 用 し た 複 数 の ビ デ オ を 使 っ て , 100 万 枚 の 顔 画 像 を 含 ん だ 218,786 個 の 顔 ト ラ ッ ク か ら 検 索 す る こ と を 試 み た .従 来 手 法 と し て 代 表 的 な K e y - F a c e s( N g u y e n ら ,2 0 1 0 )や F a c e - Tr a c k( S i v i c ら , 2005) に 対 す る 比 較 実 験 を 行 っ た 結 果 , 提 案 手 法 が mAP に お い て 従 来 手 法 よ り 4~ 8% 向 上 す る こ と を 確 認 し ,ま た 検 索 時 間 は ,従 来 手 法 よ り 約 1/ 10 以 下 に 短 縮 で き る こ と を 示 し て い る .H S - B o F の 拡 張 と し て 新 た な M C C に よ る区分的拘束条件を導入した辞書学習法を考案することにより, 高精度な顔 検索アルゴリズムを実現できたことが評価できる. 第 5 章「 F a s t F a c e R e t r i e v a l f r o m Vi d e o D a t a s e t Vi a S i g n a t u r e s 」で は , 前章において述べた顔画像検索を,いかにして高速化できるかを検討してい る . 本 章 で は , 顔 画 像 の 粗 検 索 法 と し て MCC に よ る 線 形 判 別 関 数 を 利 用 し た シ グ ネ チ ャ を 提 案 し て い る . シ グ ネ チ ャ は , 顔 に 対 す る HS-BoF の 次 元 数 Nの特徴空間を,探索性能をできるだけ保持するように次元縮退させ,低次 元 K ( N>>K) の 特 徴 空 間 に 変 換 す る も の で あ る . 前 章 で 述 べ た 複 数 の ビ デ オ ( 100 万 枚 の 顔 画 像 を 含 ん だ 218,786 個 の 顔 ト ラ ッ ク ) を 使 っ た 評 価 実 験 の 結 果 , 提 案 手 法 は mAP に よ る 検 索 性 能 を 劣 化 さ せ る こ と な く , 検 索 時 間 に お い て 従 来 手 法 の K e y - F a c e s や F a c e - Tr a c k よ り 6 ~ 1 3 % と 大 幅 に 改 善 で きることを確認した.シグネチャによる高速検索が可能な新たな画像検索手 法を考案したことが評価できる. 第 6 章「 Conclusions and Future Work」で は ,本 論 文 を ま と め ,HS-BoF の拡張の可能性,および顔画像解析への応用分野において更なる検索性能の 高精度化に関して今後の課題を挙げている. 以 上 要 す る に 本 論 文 は ,従 来 の B o F に 対 し て ヒ ル ベ ル ト 走 査 を 用 い て 空 間 的 位 置 情 報 を 導 入 し た HS-BoF を 確 立 す る こ と を 目 的 と し , 顔 を 対 象 と し て シグネチャなどによる高精度かつ高速な画像検索手法を検討し, 従来法に対 する検索性能向上を示したもので,画像工学上価値ある業績と言える.よっ て本論文は博士(工学)の学位論文に値するものと認める. 2013 年 主査 8 月 20 日 早稲田大学 教 授 博 士 (工 学 )(九 州 工 業 大 学 ) 早稲田大学 教 授 博 士 (情 報 工 学 )(九 州 工 業 大 学 ) 古 月 早稲田大学 教 授 博 士 (工 学 )(グ ル ノ ー ブ ル 大 学 ) ル パ ー ジ ュ ・ イ ブ 九 州 工 業 大 学 教 授 工 学 博 士 (東 北 大 学 ) 4 鎌田 江島 清一郎 敬之 俊朗