Comments
Description
Transcript
メタデータの不均質性を考慮した画像検索結果のクラスタリング手法
SURE: Shizuoka University REpository http://ir.lib.shizuoka.ac.jp/ Title Author(s) メタデータの不均質性を考慮した画像検索結果のクラス タリング手法に関する研究 廣田, 雅春 Citation Issue Date URL Version 2014-06 http://doi.org/10.14945/00008266 ETD Rights This document is downloaded at: 2017-03-29T05:15:06Z (課程博士・様式7)(Doctoral qualification by coursework, Form 7) 学 位 論 文 要 旨 Abstract of Doctoral Thesis 専 攻: 情報科学専攻 Course: Major in Information Science and Technology 氏名: 廣田 雅春 Name: Masaharu Hirota 論文題目:メタデータの不均質性を考慮した画像検索結果のクラスタリング手法に 関する研究 Title of Thesis: Research on Clustering Method for Image Search Results Considering Heterogeneous Metadata 論文要旨: 近年,スマートフォンや,デジタルカメラなどのモバイルデバイスが爆発的に普及した 結果,一般のユーザが撮影した写真が Flickr などのソーシャルメディアサイト上に大量 にアップロードされている.それらの画像を検索する際に,画像検索結果に含まれる画像 数の増加に伴い,ユーザが目的の画像を探すための負担が増加している.そのため,ユー ザが画像検索結果を効率的に閲覧するための技術の必要性が高まっている.画像クラスタ リング・リランキングは,画像検索結果を効率的に閲覧するための技術の 1 つである. しかし,画像に付与されているメタデータを用いて画像クラスタリング・リランキング を行う際に,ウェブ上に存在する画像に付与されているメタデータの不均質さへの対処が 重要な課題となる.たとえば,ソーシャルタギングの場合,タグが 1 つも付与されていな い場合や,付与されていたとしても,タグと画像の内容に関連性がない場合や,タグの表 記ゆれなどがあげられる.そのようなメタデータを用いて画像クラスタリングを行なった 場合,クラスタリングの性能が低下し,ユーザの期待するクラスタリング結果が生成され ない可能性が高い.メタデータが付与されていない画像は,その画像とメタデータを含む 他の画像間の類似度の値を算出することはできない.また,メタデータの一部のみが欠損 していた場合,それらの画像間の類似度の算出にメタデータの欠損が強い影響を与えてし まい,本来の意図とは,異なる類似度が算出される場合がある.そのため,画像に付与さ れているメタデータの修正や,メタデータの欠損を補うことは,ウェブ上の画像をクラス タリングする際の重要な課題の 1 つである.本論文では,画像検索結果に含まれる画像に 対して,欠損しているメタデータの推定,およびメタデータの修正を行い,推定されたメ タデータを用いて画像検索結果のクラスタリングを行う手法を提案した.提案手法では, 画像検索の検索クエリと,検索結果の画像に付与されているメタデータのそれぞれの多様 性に対処するため,画像検索結果のみを用いて学習することで,メタデータの推定・修正 を行った.実験により,メタデータが欠損している場合に,提案手法によって推定された メタデータを用いて画像クラスタリングを行うことで,クラスタリングの性能の低下を抑 えることが可能であることを確認した. 加えて,本論文では,画像検索結果を効率的に閲覧するためのメタデータを用いたクラ スタリング手法と,リランキング手法の 2 つを提案した. 1 つは,写真の審美的評価に基づいたリランキング手法である.一般ユーザの写真の撮影 技術や,撮影機材の多様さにより,ウェブ上に存在する写真の見た目の美しさも不均質で ある.そのため,画像検索結果から,審美的評価の高い写真を抽出する技術の必要性が高 まっている.提案手法では,画像検索結果において,高価な撮影機材を用いているユーザ は,写真の撮影技法に詳しいという仮説を用いて,高価な撮影機材で撮影された写真から 得た写真の撮影状況を表すメタデータを用いて,審美的評価に基づいて写真を抽出する手 法を提案した.また,人手によるリランキング結果との類似度を評価することで,提案手 法の有効性を評価した.結果として,提案手法は,既存手法と比較して,非常に高速に審 美的評価に基づいたリランキングが可能であることを示した. もう 1 つは,写真の撮影地点の分布に基づいて,地理的なクラスタを抽出し,そのクラ スタ間の関連性を抽出する手法である.人々の興味・関心の可視化するため,ソーシャル メディアサイトから取得した撮影地点を表すメタデータである緯度経度情報が付与されて いる写真を用いて,多くの写真が撮影されている地域をホットスポット(クラスタ)として 抽出する.単純にホットスポットを撮影位置情報の密度に基づいて抽出した場合,本来, 何らかの関連性があるホットスポットが分離して抽出される場合がある.たとえば,1 つの イベントに関連するホットスポットが複数抽出された場合である.これは,単純に撮影位 置情報の密度に基づいてホットスポットを抽出した場合,ホットスポットが生成される原 因が考慮されていないためである.そのため,本論文では,ホットスポット間の位置関係 や,写真に付与されているタグを用いて,独立して抽出されるホットスポット間の関連性 を抽出,および可視化する手法を提案した.提案手法では,撮影スポットと被写体の関連 性と,タグに基づいた関連性の 2 種類である.実際に,ソーシャルメディアサイトから取 得した画像に提案手法を適用し,地図上に抽出した関連性を可視化することで,その結果 を考察した.