博士論文審査結果報告書

by user

on 28 марта 2017

Category: Documents

>> Downloads: 1

views

Report

Comments

Description

Download 博士論文審査結果報告書

Transcript

博士論文審査結果報告書

早稲田大学大学院情報生産システム研究科
博士論文審査結果報告書
論
文
題
目
Study on Hilbert-Scan based
Bag-of-Features for
Image Description and
Retrieval
申
請
者
Pengyi HAO
情報生産システム工学専攻
イメージメディア研究
2013 年
1
9 月
近年，情報通信，セキュリティなどの発展に伴い，コンピュータビジョン
における画像検索技術の需要が高まってきている．1 9 8 0 年代から画像データ
ベースに関する研究が盛んとなり，これまでに様々な画像記述法が提案され
てきた．その中で 2000 年初めに画像検索において局所特徴量を用いた画像
記述法として Csurka ら (2004)による Bag-of-Features（ BoF）が提案され，
当該分野の研究が大きく発展した．これは，Salton ら (1983)による文書分類
手法である B a g - o f - Wo r d s を画像に適用したものであり，画像を局所特徴量
の集合とみなし，局所特徴量のヒストグラムを使って画像検索を行うもので
ある． BoF はその後， Fei-Fei ら (2005)による SIFT 特徴量を利用したもの，
Wi n n ら ( 2 0 0 5 ) による Te x t o n 特徴量を利用したものなど，様々な改良研究が
なされてきた．しかし，これらの研究では画像特徴を局所特徴量のヒストグ
ラムとして記述するため，局所特徴量の空間的位置情報が欠落してしまうと
いう問題があった．これは，B a g - o f - Wo r d s における単語間の関係を無視して
いる問題と同じである．この問題に対して，L a z e b n i k ら ( 2 0 0 6 ) による S p a t i a l
Pyramid Matching（ SPM）や， Marcin ら (2006)による重み分布ベクトル量
子化法が提案されているが，空間的位置情報の導入が十分に検討されている
とは言い難い．本研究では，本来の B o F に対して局所特徴の空間的位置関係
を積極的に導入することにより，従来研究に対して検索精度および速度を向
上させる方法を提案している．具体的には，空間充填曲線の一種であるヒル
ベルト曲線を画像走査に用いて，空間的近傍情報を可能な限り保存する
Hilbert-Scan based BoF（ HS-BoF) を考案している．
本研究では ,画像やビデオに写っている顔を対象として顔画像のクラスタ
リングによるグループ化を高精度に実現し , 画像記述法 HS-BoF に基づく高
速画像検索技術の確立を行っている. また，顔画像の高速検索において主要
な要素技術である粗検索法に関してシグネチャという新たな方法を考案して
いる. 本研究は, コンピュータビジョンにおける画像検索の分野において,
空間的位置情報を取り込んだ画像記述法を提案している点でその意義は高く，
画像検索研究の新たな展開を示すものと言える．以下，各章ごとにその概要
を示し評価を与える．
第 1 章「 Introduction」では，画像検索における画像記述法の主要な従来
技術について概説し，画像記述法の問題点とその対策を明らかにしている．
また, 顔画像を対象とした画像／ビデオ検索手法の従来研究との相違点を明
らかにしている.
第 2 章「 H i l b e r t - S c a n b a s e d B a g - o f - F e a t u r e s f o r I m a g e R e t r i e v a l 」では ,
画像検索における画像記述法として，ヒルベルト走査を用いて空間的位置情
報を B o F に導入した H S - B o F を提案している．これは，画像上でコーナー点
などの特徴点群を抽出し，ヒルベルト走査を利用して２次元の画像平面上の
特徴点群を１次元直線上に展開し，その１次元直線上に列んだ各特徴点の局
2
所特徴量の集合を木構造化して表現するものである．また，これはヒルベル
ト走査により１次元に展開すると，２次元空間上での近傍性が他の走査法（例
えば，ラスタ走査，Z 走査など）に比べてより保持されるという特徴を利用
したものである．木構造表現は，上位層に背景情報を少なくした対象物の大
局的な特徴を含むようにし，また下位層には局所的な特徴を詳細に記述する
ように設計する．したがって， HS-BoF は，色，形状などを表す局所特徴量
がヒルベルト走査順に並んだ下位層ヒストグラム，建物，鳥などの構造的な
カテゴリレベルの特徴量がヒルベルト走査順に並んだ上位層ヒストグラムに
より構成される．2 5 6 種類の対象物体を含む C a l t e c h - 2 5 6 データセットや 1 0 0
万枚の画像を含む大規模データセット ImageNet などを用いた画像検索実験
を行った結果，提案手法は，従来手法の BoF や SPM などを用いた場合よ
り， m A P （ m e a n Av e r a g e P r e c i s i o n ）において約 2 % ～ 7 % の精度向上が得ら
れることがわかった．本研究は，ヒルベルト走査による空間的位置情報を生
かした画像記述法の着想により，高精度の画像検索を可能にしたことが評価
できる．
第 3 章「 F a c e C l u s t e r i n g f r o m Vi d e o D a t a s e t w i t h H i l b e r t - S c a n b a s e d
Bag-of-Features」では，HS-BoF を利用して，膨大なビデオデータセットか
ら人物の顔を効率的に特定するためのクラスタリング手法を検討した．これ
は，ビデオから顔の部分を抽出した顔トラックを生成し，同じような顔トラ
ックが並んだ部分をクラスタリングにより分割するシーントラック，さらに
ある人物の顔が並んでいるシーントラック部分を抽出する人物トラックとい
った階層的な組織化を行うことにより，高速検索を可能にするものである．
階層的な組織化により，一人の人物が現れている複数のシーントラックを見
つけることができ，またその下位層の複数の顔トラックで見つけることがで
きる．標準データベースとして公開されている複数のビデオ（映画， TV シ
ョウ， NASA,インタビューなど）を使ってクラスタリング精度に関する評価
実験を行った結果，提案手法は，従来手法の階層的クラスタリング手法
Agglomerative clustering や kmeans などと比較した場合に，約 7%～ 9%の
精度向上が得られている．このように第２章で述べた HS-BoF を，ビデオに
おける顔画像のクラスタリングに適用して, 識別精度の良い顔画像クラスタ
リング法を実現できたことが評価できる.
第
4 章「 F a c e R e t r i e v a l f r o m Vi d e o D a t a s e t b a s e d o n D i c t i o n a r y
Learning」では，第３章の提案方法を拡張し，新たな辞書学習法を用いてビ
デオデータセットから表情変化を吸収する顔画像クラスタリングを行うこと
で，さらに高精度化できることを示している．ここでは膨大なビデオデータ
セットからの人物を効率的に特定するための辞書学習法を開発した．これは
L1 ノルムをベースとした従来手法のスパース辞書学習に， Maximum
C o r r e n t r o p y C r i t e r i o n ( M C C ) による区分的拘束条件を設定して，学習用ビデ
3
オからシーントラック，人物トラックの再組織化を行い，高精度のクラスタ
リングを可能にするものである．まず，同一人物かどうかを特定する方法を
比較評価する公開ベンチマークテストを行った結果，2009 年から 2012 年ま
での代表的な 7 種類の従来手法に対して，提案手法は 2 ～ 5 ％の精度向上が見
られた．次に，第 3 章において利用した複数のビデオを使って， 100 万枚の
顔画像を含んだ 218,786 個の顔トラックから検索することを試みた．従来手
法として代表的な K e y - F a c e s（ N g u y e n ら，2 0 1 0 ）や F a c e - Tr a c k（ S i v i c ら，
2005）に対する比較実験を行った結果，提案手法が mAP において従来手法
より 4～ 8％向上することを確認し，また検索時間は，従来手法より約 1／ 10
以下に短縮できることを示している．H S - B o F の拡張として新たな M C C によ
る区分的拘束条件を導入した辞書学習法を考案することにより, 高精度な顔
検索アルゴリズムを実現できたことが評価できる．
第 5 章「 F a s t F a c e R e t r i e v a l f r o m Vi d e o D a t a s e t Vi a S i g n a t u r e s 」では，
前章において述べた顔画像検索を，いかにして高速化できるかを検討してい
る．本章では，顔画像の粗検索法として MCC による線形判別関数を利用し
たシグネチャを提案している．シグネチャは，顔に対する HS-BoF の次元数
Ｎの特徴空間を，探索性能をできるだけ保持するように次元縮退させ，低次
元Ｋ（ N>>K）の特徴空間に変換するものである．前章で述べた複数のビデ
オ（ 100 万枚の顔画像を含んだ 218,786 個の顔トラック）を使った評価実験
の結果，提案手法は mAP による検索性能を劣化させることなく，検索時間
において従来手法の K e y - F a c e s や F a c e - Tr a c k より 6 ～ 1 3 ％と大幅に改善で
きることを確認した．シグネチャによる高速検索が可能な新たな画像検索手
法を考案したことが評価できる．
第 6 章「 Conclusions and Future Work」では，本論文をまとめ，HS-BoF
の拡張の可能性，および顔画像解析への応用分野において更なる検索性能の
高精度化に関して今後の課題を挙げている．
以上要するに本論文は，従来の B o F に対してヒルベルト走査を用いて空間
的位置情報を導入した HS-BoF を確立することを目的とし，顔を対象として
シグネチャなどによる高精度かつ高速な画像検索手法を検討し, 従来法に対
する検索性能向上を示したもので，画像工学上価値ある業績と言える．よっ
て本論文は博士（工学）の学位論文に値するものと認める．
2013 年
主査
8 月
20 日
早稲田大学
教授博士 (工学 )(九州工業大学 )
早稲田大学
教授博士 (情報工学 )(九州工業大学 ) 古月
早稲田大学
教授博士 (工学 )(グルノーブル大学 ) ルパージュ・イブ
九州工業大学教授工学博士 (東北大学 )
4
鎌田
江島
清一郎
敬之
俊朗