...

コンピュータビジョン特論 コンピュ タビジョン特論

by user

on
Category: Documents
15

views

Report

Comments

Transcript

コンピュータビジョン特論 コンピュ タビジョン特論
コンピュ タビジョン特論
コンピュータビジョン特論
Advanced Computer
p
Vision
2010年度前期
第2回
今回の内容
画像処理・認識・理解研究の歴史・現状(続)
像
続
 コンピュ
コンピュータビジョンについて学ぶ準備として
タビジョンについて学ぶ準備として
、画像の撮影のしくみ、コンピュータ上での画
像の扱いについて学ぶ

アクティブビジョン
アクティブビジョン、
イメ ジメディア の展開
イメージメディアへの展開
1990年代になると、
2D画像データから3Dシーンへの情報変換ア
ルゴリズムの研究という“狭い”研究領域から抜
け出し、より広い視点から視覚情報処理研究を
行おうとする試みが進められるようになった
・知能システムの構成
知能システムの構成
・イメージメディアの世界
イ
ジ ディア 世界
アクティブビジョン1
・「知能システムの構成」という観点から視覚認識の問題を考える
代表例:「知覚と行動の統合」を目指すアクティブビジョン
・アクティブビジョンでは:
アクティブビジョンでは:
◎撮像装置や照明の位置、方向、
配置を能動的に制御
◎撮像→認識・理解→シーン記
述→撮像装置の制御→撮像とい
う処理ループを繰り返す
◎多視点からの能動的観測や注
視制御に基づいて複雑なシーン
の3次元構造の理解を目指す
アクティブビジョンの例
撮像→追跡→運動分析→撮像装置の制御→撮像
アクティブビジョンの例
撮像→追跡→運動分析→撮像装置の制御→撮像
アクティブビジョン2
実世界で有効に機能する知能システムの実現を目指した
研究としては、
研究としては
・多種多様なセンサからの情報を統合することによって、
システムの信頼性の向上を目指すセンサフュージョン
センサフ
ジョン
例:デジカメラ+距離センサ+赤外線カメラ+…
→人物・車の検出と追跡
人物 車の検出と追跡
・複数の処理モジュールが並列に入力データを解析し、
得られた出力(行動制御命令)を統合 調整することによ
得られた出力(行動制御命令)を統合、調整することによ
り、動的環境に対する適応能力の向上を図ろうとする包
摂ア キテクチャ
摂アーキテクチャ
最近の追跡研究例:MCMC+Adaboost、
Meanshift Adaboost
Meanshift+Adaboost
といった考え方も提案されている
イメ ジメディアの世界
イメージメディアの世界
もう一つ別の方向への研究分野・対象領域の拡張:
「イメージメディアの世界」における視覚情報処理
・イメージメディアでは、
デ
◎画像・映像を介した、
人間同士、人間←→機械の間の
正確な情報伝達・豊かなコミュニケーション
の実現するために:
◎2D画像→3Dシーンの写像を行うCV
◎3Dシーン→2D画像の写像を行うCG
という相補的な情報変換プロセスを統合化
した視覚情報処理が行われる
画像・映像の処理、認
画像・映像の処理
認
識、理解研究の歴史と
現状
→全体像
CVとCGの統合化
の統合化
の基本方式
・3Dシーンをカメラで
撮った画像をCVアルゴ
リズムによって解析し、
ズ
解析
シーン記述を求める
・得られたシーン記述を
“編集・加工”し、仮想的
なシーン記述を作成
・仮想的シーン記述から
CGアルゴリズムによ て
CGアルゴリズムによって
新たな画像を生成
顔特徴点の追跡・頭部姿勢の推定・CG
顔特徴点の追跡・頭部姿勢の推定・
CGで表示
で表示
CVアルゴリズムによ て解析し シ ン記述
CVアルゴリズムによって解析し、シーン記述
編集 加工の具体例
編集・加工の具体例
・画像から得られた3Dシーン記述を基に
画像から得られた3Dシ ン記述を基に、撮影時
撮影時
とは別の視点からシーンを見たときの画像を生成
・画像から得られた3Dシーン記述と人工的に生
成したシーン記述を組み合わせ
成したシ
ン記述を組み合わせ、実写画像とCG
実写画像とCG
画像を合成した画像を生成
・画像に記録された色情報を、CVアルゴリズムに
よって物体色成分と光源色成分に分離し、物体色
のみを変化させた画像を生成
研究例 白とび補正
研究例:
白とび補
撮影時とは別の視点から
シーンを見た時の画像を生成
を見 時 画像を 成
カメラのパラメータが分かれば
そのカメラから取った画像から
任意方向から見た画像を合成
Wakayama University
複数枚の画像より広視野の画像を合成
実写とCGの融合
CGによるリアルな人物の表現(2000年代~)
 イメージベースド・レンダリング(モデリング)

• 実際の人間のデータを計測し、
CGに利用
• 実写とCGの融合
Matrix
Warner Bros.
Spider Mann 2
Spider-Mann
Sony Pictures
◎CV(+画像処理)
→編集
→CG(+画像処理)
という一連の処理プロセスは、送
り手(撮影者)から受け手(観賞
者)に至る通信路と見なすことが
できる
◎CVとCGの統合により
画像
ビデオ映像
3D物体イメージ
を情報伝達メディアとした豊かな
コミュニケーションが実現できる
が
送り手
撮影者
受け手
観賞者
超臨場感のあるスポ ツ中継
超臨場感のあるスポーツ中継
マルチメディア情報処理の基本技術
CGの拡張としての仮想現実感(Virtual
拡
仮想 実感
Reality)に対して
対
生の画像・映像を基に仮想化された画像・映像を生成す
生の画像
映像を基に仮想化された画像 映像を生成す
る技術(Image-Base Rendering)は、
・仮想化現実感(Virtualized
仮想化現実感
Reality)
・拡張現実感(Augmented
拡張現実感(Augmented Reality)
・複合現実感(Mixed Reality)
など
などと呼ばれ、現在活発な研究開発が行われている
ばれ
在 発な 究開発が行われ
る
21世紀の研究課題
一般物体認識

制約のない実世界シーンの画像に対して計算機がそ
の中に含まれる物体を一般的な名称で認識する
一般物体認識
PASCAL Challenge

ヨーロッパ画像処理コミュニティーのPASCALによって
主催されているコンテスト:PASCAL Challenge:
g
http://www.pascal-network.org/challenges/VOC/

与えられた学習画像を用いて与えられたテスト画像か
ら10種類の物体を認識する
bicycle,
bi
l b
bus, car, cat,
t cow, d
dog, h
horse, motorbike,
t bik person,
sheep

PASCAL Challengeの2006年の結果はclassification
Ch ll
の2006年の結果は l
ifi i
課題で最高9割以上、detection課題で最高4割程度と
なっている
PASCAL Challenge
g の結果例
結果例
Bicycles
y
Buses
PASCAL Challengeの結果例
Cars
Cats
PASCAL Challengeの結果例
Cows
Dogs
PASCAL Challengeの結果例
Horses
Motorbikes
PASCAL Challengeの結果例
People
p
Sheep
出席チェック1
1)画像処理とコンピュータビジョンの違い
1)画像処理と
ンピ
タビジョンの違い
2)興味のある研究テーマ・方向
について述べなさい
述 なさ
名前・学籍番号・今日の日付を記入
参考書リスト
[1] 松山隆司、久野義徳、井宮淳:
「コンピュータビジョン --技術評論と将来展望--」、
新技術
新技術コミュニケーションズ、1998
ズ
[2] デビット・マー(乾敏郎、安藤広志訳):
デビ ト マ (乾敏郎 安藤広志訳)
「ビジョン --視覚の計算理論と脳内表現--」、
算
表
産業図書、1987
画像の撮影のしくみについて

カメラで画像を撮影して、コンピュータに取り込
カメラで画像を撮影して
コンピュ タに取り込
む仕組み
• 今回では取り込みまでの仕組みの概要について
• 色についての詳細は第10回
• カメラモデルや幾何的なしくみの詳細は第7-10回
デジタル画像とは

アナ グ情報 (フィルム,絵,実世界)
アナログ情報
(
ム 絵 実世界)
標本化 量子化
標本化&量子化

デジタル画像
•
•
•
•
デジタルカメラ
携帯電話
PCデータ,
デ
IT
デジタル放送
画像の撮影のしくみ(モノクロ)
カメラ
同期信号(30Hz、24Hzなど)
絞り
メモリ
同軸ケーブル(NTSC)
IEEE1394(DCAM DV)
IEEE1394(DCAM,
USB(motion jpeg)など
レンズ
エンコーダ
キャプチャカード
インタフェース
デコーダ
被写体
受光素子が二次元配
列上に並んでいる
受光素子:フォトトランジスタ
など光を電荷に変換する素子
撮像素子(CCD, CMOS)
メモリに取り込む
受光素子の数を画素数と呼ぶ
画像の撮影のしくみ(カラー、3CCD方式)
絞り レンズ
CCD(赤)
入射光
CCD(緑)
分光器(プリズム)
CCD(青)
3CCD方式:分光器(プリズム)で分光
し、赤、緑、青の光を3個のCCDで撮影
各色の解像度が高い(色にじみがない)
コストがかかる
小型化が困難
光学素子(プリズム)の分光作用
プリズムは光の屈折や反射を用いて三稜鏡(さんりょうきょう)
の頂角や入射角などによって光の進む方向をコントロー
ルできる
白色光はプリズムによって虹色(単色光の集まり)に開
けられる これを分光(
けられる。これを分光(spectral)作用という
t l)作用という
画像の撮影のしくみ(カラー 単版式)
画像の撮影のしくみ(カラー、単版式)
カラーフィルタの例
(ベイヤ 配列)
(ベイヤー配列)
絞り レンズ
CCD カラーフィルタ
入射光
2.各画素ごとに3色均等配置する
各画素ごとに3色均等配置する
のが理想的だが3倍の素子が必要
3.画素数Nに対して
赤と青はN/4の解像度
緑はN/2の解像度
変換式によって各画素をRGBに変換
(フィルタの配列と変換式は
各メーカーがしのぎを削っている)
各色不均 な配列
各色不均一な配列
→ベイヤー配列、ベイヤーパターン
低コスト、小型化が容易
低コスト
小型化が容易
人間の目には自然(色の分解能が低い)
1.単版式:CCDの前にカラーフィル
1
単版式 CCDの前にカラ フ ル
タを置いて1個のCCDで各色を撮影
コンピュータ上での画像の取り扱い
左上が原点
の場合が多い 幅(width)
画像は、二次元配列上に並んだデータの集まり
高さ(heig
ght)
1個のデータを、画素(pixel)と呼ぶ
画像サイズ:幅×高さや画素数で表す
640x480 ~ 300万画素
カラー画像は、複数の画像の重ね合わせで表現
それぞれの画像のことを、プレーン(plane)、or、
れぞれ
像
を プ
チャンネル(channel)と呼ぶ
RGBの3プレーンを用いることが多い
他にも、YUVやHSVなどや
αチャンネル(透明度)を用いる場合がある
チャンネル(透明度)を用いる場合がある
画像のメモリ配置
1つの画素の1つのチャンネルのデータ
のビット数をデプスと呼ぶ
例:256段階
例
段階 → デ
デプスは8ビット
は ット
R G B
1画素のビット数を
bps(ビットパーピクセル)と呼ぶ
bps = デプス×チャンネル数
一行目の情報: R G B R G B
(0 0)
(0,0)
ラスタスキャン:
(1,0)
R G B R G B
(n,0)
(0,1)
次の行の先頭までのバイト数を
ラインステップ(widthStep)と呼ぶ
(
p)
左上から右に順番にメモリ上に配置され
右端までくると一段下の左端から順に配置される
複数チャンネルの場合は画素ごとに各チャンネルを並べることが多い
複数チ
ンネルの場合は画素ごとに各チ ンネルを並べることが多い
チャンネルごとに並べる場合もある
動画の取り扱い
フレーム
t




画像が時間軸上に並んでいる
一枚一枚の画像をフレームと呼ぶ
1秒間のフレーム数をフレームレート(fps=30)と呼ぶ
必要なメモリが膨大になるので、通常1から数フレー
ム分の画像のみメモリにおいて処理する
標本化(1D)

アナログデ タを離散的に領域分割
アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリングデータ
(時間軸は離散的)
サンプリング間隔
t
t
標本化(2D)

2-D デジタル画像の場合
アナログデータ
(x-y軸と数値は連続)
サンプリングデータ
(x-y軸は離散的)
サンプリング間隔によって画像解像度が決まる
ピクセル (Pixel)
2-Dデジタル画像の単位
2
Dデジタル画像の単位
 空間分割
columns

0
1
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化(解像度)
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化(1D)

サンプリングされたデ タの数値を離散的に
サンプリングされたデータの数値を離散的に
分ける
サンプリングデータ
(時間軸は離散的) 量子化ビット数:
3 bit = 8 level
8 bit = 256 level
t
デジタルデータ
(時間軸と数値の両方が離散的)
t
量子化(2D)

2-Dデジタル画像の場合
デジ
像
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビ ト数によ て色数が決まる
量子化ビット数によって色数が決まる
1 2
1
リンゴの画像例 2
(解像度10×10)
(解像度
)
3
4
5
6
7
8
9
10
Y
3 4 5
6
7
8 9 10
X
36
44
42
43
43
52
54
55
54
47
39
44
42
44
51
39
46
63
59
52
44
47
43
41
54 184
171
39
65
58
49
47
49
59 254 246
251 170
48
61
48
51
40 140 233 162
143 249
39
63
40
55
41
96 228 243
253 217
38
61
38
47
44
19 146 213
230
67
58
56
38
44
42
35
10
5
3
49
53
49
35
44
45
47
48
44
47
45
47
46
24
28
30
33
37
39
40
43
42
41
赤成分の明るさ
標本化・量子化
各々の画素における濃淡信号を取り出し(標本化)、連続値として得た信号を離散値
各々の画素における濃淡信号を取り出し(標本化)
連続値として得た信号を離散値
に変換(量子化)することで、ラスタ表現のディジタル情報を得ます。
ディスプレイで利用するカラー画像
ディ
プ イで利用するカラ 画像
は、通常R信号・G信号・B信号毎に
256(=28)階調に量子化され、1ピク
セル当り24bitの情報量を持ちます。
この方法で28 × 28 × 28 ≒1670
万色を表現できます。
表現の色数

何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
CVのプログラムに必要なもの
カメラ
パソコン(OS)
開発環境(コンパイラ)
VisualStudio2005(無料公開)
gcc (オープンソース、無料)
Xcode ((MacOSXについてくる))
USBカメラ、DVカメラなど
2000円
2000円~
Windows
Linux
Mac
そして…
OpenCV ライブラリ(オープンソース、無料)
アンチエイリアシング
赤100% 赤100% 赤95%
赤100% 赤100% 赤55%
赤95% 赤55%
赤5%
輪郭の明確な物をデジタルカメラで撮影するとき、1つ
輪郭の明確な物をデジタルカメラで撮影するとき
1つ
の画素の中に極端に色の違う輪郭が入ると、標本化に
よって両方の色を平均した信号が得られます。
一方、幾何学図形など輪郭の明確な物を描画すると、
描
描画した部分とそうでない部分とに目立つギザギザが
部
う な 部
ギザギザが
現れます。この現象をエイリアシングと言います。
そこで、直線が通る画素に対して、『塗る』もしくは『塗ら
ない』といった2通りの方法を用いるのではなく どのく
ない』といった2通りの方法を用いるのではなく、どのく
らい通ったかに応じて、色の濃淡をつけることにします。
画素の端をかすった程度なら淡く、画素の中心を抜け
るようなら濃く描画します。このようにして、直線のふち
に濃淡がつくことによって、ギザギザを目立たなくする
方法を『アンチエイリアシング』と呼びます。
アンチエイリアシング有り
アンチエイリアシング無し
Fly UP