コンピュータビジョン特論コンピュタビジョン特論

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download コンピュータビジョン特論コンピュタビジョン特論

Transcript

コンピュータビジョン特論コンピュタビジョン特論

コンピュタビジョン特論
コンピュータビジョン特論
Advanced Computer
p
Vision
2010年度前期
第2回
今回の内容
画像処理・認識・理解研究の歴史・現状（続）
像
続
 コンピュ
コンピュータビジョンについて学ぶ準備として
タビジョンについて学ぶ準備として
、画像の撮影のしくみ、コンピュータ上での画
像の扱いについて学ぶ

アクティブビジョン
アクティブビジョン、
イメジメディアの展開
イメージメディアへの展開
1990年代になると、
２Ｄ画像データから３Ｄシーンへの情報変換ア
ルゴリズムの研究という“狭い”研究領域から抜
け出し、より広い視点から視覚情報処理研究を
行おうとする試みが進められるようになった
・知能システムの構成
知能システムの構成
・イメージメディアの世界
イ
ジディア世界
アクティブビジョン１
・「知能システムの構成」という観点から視覚認識の問題を考える
代表例：｢知覚と行動の統合｣を目指すアクティブビジョン
・アクティブビジョンでは：
アクティブビジョンでは：
◎撮像装置や照明の位置、方向、
配置を能動的に制御
◎撮像→認識・理解→シーン記
述→撮像装置の制御→撮像とい
う処理ループを繰り返す
◎多視点からの能動的観測や注
視制御に基づいて複雑なシーン
の3次元構造の理解を目指す
アクティブビジョンの例
撮像→追跡→運動分析→撮像装置の制御→撮像
アクティブビジョンの例
撮像→追跡→運動分析→撮像装置の制御→撮像
アクティブビジョン２
実世界で有効に機能する知能システムの実現を目指した
研究としては、
研究としては
・多種多様なセンサからの情報を統合することによって、
システムの信頼性の向上を目指すセンサフュージョン
センサフ
ジョン
例：デジカメラ＋距離センサ＋赤外線カメラ＋…
→人物・車の検出と追跡
人物車の検出と追跡
・複数の処理モジュールが並列に入力データを解析し、
得られた出力（行動制御命令）を統合調整することによ
得られた出力（行動制御命令）を統合、調整することによ
り、動的環境に対する適応能力の向上を図ろうとする包
摂アキテクチャ
摂アーキテクチャ
最近の追跡研究例：MCMC+Adaboost、
Meanshift Adaboost
Meanshift+Adaboost
といった考え方も提案されている
イメジメディアの世界
イメージメディアの世界
もう一つ別の方向への研究分野・対象領域の拡張：
「イメージメディアの世界」における視覚情報処理
・イメージメディアでは、
デ
◎画像・映像を介した、
人間同士、人間←→機械の間の
正確な情報伝達・豊かなコミュニケーション
の実現するために：
◎2D画像→3Dシーンの写像を行うＣＶ
◎3Dシーン→2D画像の写像を行うＣＧ
という相補的な情報変換プロセスを統合化
した視覚情報処理が行われる
画像・映像の処理、認
画像・映像の処理
認
識、理解研究の歴史と
現状
→全体像
ＣＶとＣＧの統合化
の統合化
の基本方式
・３Ｄシーンをカメラで
撮った画像をＣＶアルゴ
リズムによって解析し、
ズ
解析
シーン記述を求める
・得られたシーン記述を
“編集・加工”し、仮想的
なシーン記述を作成
・仮想的シーン記述から
ＣＧアルゴリズムによて
ＣＧアルゴリズムによって
新たな画像を生成
顔特徴点の追跡・頭部姿勢の推定・CG
顔特徴点の追跡・頭部姿勢の推定・
CGで表示
で表示
ＣＶアルゴリズムによて解析しシン記述
ＣＶアルゴリズムによって解析し、シーン記述
編集加工の具体例
編集・加工の具体例
・画像から得られた３Ｄシーン記述を基に
画像から得られた３Ｄシン記述を基に、撮影時
撮影時
とは別の視点からシーンを見たときの画像を生成
・画像から得られた３Ｄシーン記述と人工的に生
成したシーン記述を組み合わせ
成したシ
ン記述を組み合わせ、実写画像とＣＧ
実写画像とＣＧ
画像を合成した画像を生成
・画像に記録された色情報を、ＣＶアルゴリズムに
よって物体色成分と光源色成分に分離し、物体色
のみを変化させた画像を生成
研究例白とび補正
研究例：
白とび補
撮影時とは別の視点から
シーンを見た時の画像を生成
を見時画像を成
カメラのパラメータが分かれば
そのカメラから取った画像から
任意方向から見た画像を合成
Wakayama University
複数枚の画像より広視野の画像を合成
実写とCGの融合
CGによるリアルな人物の表現（2000年代～）
 イメージベースド・レンダリング（モデリング）

• 実際の人間のデータを計測し、
CGに利用
• 実写とCGの融合
Matrix
Warner Bros.
Spider Mann 2
Spider-Mann
Sony Pictures
◎ＣＶ（＋画像処理）
→編集
→ＣＧ（＋画像処理）
という一連の処理プロセスは、送
り手（撮影者）から受け手（観賞
者）に至る通信路と見なすことが
できる
◎ＣＶとＣＧの統合により
画像
ビデオ映像
３D物体イメージ
を情報伝達メディアとした豊かな
コミュニケーションが実現できる
が
送り手
撮影者
受け手
観賞者
超臨場感のあるスポツ中継
超臨場感のあるスポーツ中継
マルチメディア情報処理の基本技術
CGの拡張としての仮想現実感(Virtual
拡
仮想実感
Reality)に対して
対
生の画像・映像を基に仮想化された画像・映像を生成す
生の画像
映像を基に仮想化された画像映像を生成す
る技術(Image-Base Rendering)は、
・仮想化現実感(Virtualized
仮想化現実感
Reality)
・拡張現実感(Augmented
拡張現実感(Augmented Reality)
・複合現実感(Mixed Reality)
など
などと呼ばれ、現在活発な研究開発が行われている
ばれ
在発な究開発が行われ
る
21世紀の研究課題
一般物体認識

制約のない実世界シーンの画像に対して計算機がそ
の中に含まれる物体を一般的な名称で認識する
一般物体認識
PASCAL Challenge

ヨーロッパ画像処理コミュニティーのPASCALによって
主催されているコンテスト：PASCAL Challenge:
g
http://www.pascal-network.org/challenges/VOC/

与えられた学習画像を用いて与えられたテスト画像か
ら10種類の物体を認識する
bicycle,
bi
l b
bus, car, cat,
t cow, d
dog, h
horse, motorbike,
t bik person,
sheep

PASCAL Challengeの2006年の結果はclassification
Ch ll
の2006年の結果は l
ifi i
課題で最高9割以上、detection課題で最高4割程度と
なっている
PASCAL Challenge
g の結果例
結果例
Bicycles
y
Buses
PASCAL Challengeの結果例
Cars
Cats
PASCAL Challengeの結果例
Cows
Dogs
PASCAL Challengeの結果例
Horses
Motorbikes
PASCAL Challengeの結果例
People
p
Sheep
出席チェック１
１）画像処理とコンピュータビジョンの違い
１）画像処理と
ンピ
タビジョンの違い
２）興味のある研究テーマ・方向
について述べなさい
述なさ
名前・学籍番号・今日の日付を記入
参考書リスト
[1] 松山隆司、久野義徳、井宮淳：
「コンピュータビジョン --技術評論と将来展望--」、
新技術
新技術コミュニケーションズ、1998
ズ
[2] デビット・マー（乾敏郎、安藤広志訳）：
デビトマ（乾敏郎安藤広志訳）
「ビジョン --視覚の計算理論と脳内表現--」、
算
表
産業図書、1987
画像の撮影のしくみについて

カメラで画像を撮影して、コンピュータに取り込
カメラで画像を撮影して
コンピュタに取り込
む仕組み
• 今回では取り込みまでの仕組みの概要について
• 色についての詳細は第10回
• カメラモデルや幾何的なしくみの詳細は第7-10回
デジタル画像とは

アナグ情報 (フィルム，絵，実世界)
アナログ情報
(
ム絵実世界)
標本化量子化
標本化＆量子化

デジタル画像
•
•
•
•
デジタルカメラ
携帯電話
PCデータ,
デ
IT
デジタル放送
画像の撮影のしくみ（モノクロ）
カメラ
同期信号（30Ｈｚ、２４Ｈｚなど）
絞り
メモリ
同軸ケーブル（NTSC）
IEEE1394(DCAM DV)
IEEE1394(DCAM,
USB(motion jpeg)など
レンズ
エンコーダ
キャプチャカード
インタフェース
デコーダ
被写体
受光素子が二次元配
列上に並んでいる
受光素子：フォトトランジスタ
など光を電荷に変換する素子
撮像素子（CCD, CMOS）
メモリに取り込む
受光素子の数を画素数と呼ぶ
画像の撮影のしくみ（カラー、３ＣＣＤ方式）
絞りレンズ
ＣＣＤ（赤）
入射光
ＣＣＤ（緑）
分光器（プリズム）
ＣＣＤ（青）
3CCD方式：分光器（プリズム）で分光
し、赤、緑、青の光を3個のCCDで撮影
各色の解像度が高い（色にじみがない）
コストがかかる
小型化が困難
光学素子（プリズム）の分光作用
プリズムは光の屈折や反射を用いて三稜鏡（さんりょうきょう）
の頂角や入射角などによって光の進む方向をコントロー
ルできる
白色光はプリズムによって虹色（単色光の集まり）に開
けられるこれを分光(
けられる。これを分光(spectral)作用という
t l)作用という
画像の撮影のしくみ（カラー単版式）
画像の撮影のしくみ（カラー、単版式）
カラーフィルタの例
(ベイヤ配列）
(ベイヤー配列）
絞りレンズ
ＣＣＤカラーフィルタ
入射光
２．各画素ごとに3色均等配置する
各画素ごとに3色均等配置する
のが理想的だが3倍の素子が必要
３．画素数Ｎに対して
赤と青はN/4の解像度
緑はN/2の解像度
変換式によって各画素をＲＧＢに変換
（フィルタの配列と変換式は
各メーカーがしのぎを削っている）
各色不均な配列
各色不均一な配列
→ベイヤー配列、ベイヤーパターン
低コスト、小型化が容易
低コスト
小型化が容易
人間の目には自然（色の分解能が低い）
１．単版式：ＣＣＤの前にカラーフィル
１
単版式ＣＣＤの前にカラフル
タを置いて1個のＣＣＤで各色を撮影
コンピュータ上での画像の取り扱い
左上が原点
の場合が多い幅（width）
画像は、二次元配列上に並んだデータの集まり
高さ（heig
ght）
１個のデータを、画素（pixel）と呼ぶ
画像サイズ：幅×高さや画素数で表す
640x480 ～ 300万画素
カラー画像は、複数の画像の重ね合わせで表現
それぞれの画像のことを、プレーン（plane）、or、
れぞれ
像
をプ
チャンネル(channel)と呼ぶ
ＲＧＢの3プレーンを用いることが多い
他にも、ＹＵＶやＨＳＶなどや
αチャンネル（透明度）を用いる場合がある
チャンネル（透明度）を用いる場合がある
画像のメモリ配置
１つの画素の１つのチャンネルのデータ
のビット数をデプスと呼ぶ
例：256段階
例
段階 → デ
デプスは8ビット
はット
R G B
１画素のビット数を
bps(ビットパーピクセル)と呼ぶ
bps = デプス×チャンネル数
一行目の情報： R G B R G B
(0 0)
(0,0)
ラスタスキャン：
(1,0)
R G B R G B
(n,0)
(0,1)
次の行の先頭までのバイト数を
ラインステップ(widthStep)と呼ぶ
(
p)
左上から右に順番にメモリ上に配置され
右端までくると一段下の左端から順に配置される
複数チャンネルの場合は画素ごとに各チャンネルを並べることが多い
複数チ
ンネルの場合は画素ごとに各チンネルを並べることが多い
チャンネルごとに並べる場合もある
動画の取り扱い
フレーム
t




画像が時間軸上に並んでいる
一枚一枚の画像をフレームと呼ぶ
1秒間のフレーム数をフレームレート（fps=30）と呼ぶ
必要なメモリが膨大になるので、通常1から数フレー
ム分の画像のみメモリにおいて処理する
標本化（１D）

アナログデタを離散的に領域分割
アナログデータを離散的に領域分割
アナログデータ
(時間軸と数値は連続)
サンプリングデータ
(時間軸は離散的)
サンプリング間隔
t
t
標本化（２D）

2-D デジタル画像の場合
アナログデータ
(x-y軸と数値は連続)
サンプリングデータ
(x-y軸は離散的)
サンプリング間隔によって画像解像度が決まる
ピクセル（Pixel）
2-Dデジタル画像の単位
2
Dデジタル画像の単位
 空間分割
columns

0
1
n
N-1
0
1
rows
m
M-1
Digital image
M x N pixels
空間的標本化（解像度）
40 x 30
pixels
80 x 60
pixels
160 x 120
pixels
320 x 240
pixels
量子化（１Ｄ）

サンプリングされたデタの数値を離散的に
サンプリングされたデータの数値を離散的に
分ける
サンプリングデータ
(時間軸は離散的) 量子化ビット数:
3 bit = 8 level
8 bit = 256 level
t
デジタルデータ
(時間軸と数値の両方が離散的)
t
量子化（２Ｄ）

2-Dデジタル画像の場合
デジ
像
色は数値として表される
(行列形式)
0
0
0
0
0
0
0
0
0
0
2
2
1
1
0
1
2
3
3
2
1
1
2
3
5
3
2
1
1
2
3
3
3
2
0
1
2
2
2
2
0
0
1
1
1
0
0
0
0
量子化ビト数によて色数が決まる
量子化ビット数によって色数が決まる
1 2
1
リンゴの画像例 2
（解像度10×10）
（解像度
）
3
4
5
6
7
8
9
10
Ｙ
3 4 5
6
7
8 9 10
Ｘ
36
44
42
43
43
52
54
55
54
47
39
44
42
44
51
39
46
63
59
52
44
47
43
41
54 184
171
39
65
58
49
47
49
59 254 246
251 170
48
61
48
51
40 140 233 162
143 249
39
63
40
55
41
96 228 243
253 217
38
61
38
47
44
19 146 213
230
67
58
56
38
44
42
35
10
5
3
49
53
49
35
44
45
47
48
44
47
45
47
46
24
28
30
33
37
39
40
43
42
41
赤成分の明るさ
標本化･量子化
各々の画素における濃淡信号を取り出し（標本化）、連続値として得た信号を離散値
各々の画素における濃淡信号を取り出し（標本化）
連続値として得た信号を離散値
に変換（量子化）することで、ラスタ表現のディジタル情報を得ます。
ディスプレイで利用するカラー画像
ディ
プイで利用するカラ画像
は、通常R信号・G信号・B信号毎に
256(=28)階調に量子化され、１ピク
セル当り24bitの情報量を持ちます。
この方法で28 × 28 × 28 ≒1670
万色を表現できます。
表現の色数

何色で十分か?
16.7 million
colors
256
colors
16
colors
4
colors
ＣＶのプログラムに必要なもの
カメラ
パソコン（ＯＳ）
開発環境（コンパイラ）
VisualStudio2005(無料公開)
gcc (オープンソース、無料)
Xcode ((MacOSXについてくる))
ＵＳＢカメラ、ＤＶカメラなど
2000円
2000円～
Windows
Linux
Mac
そして…
OpenCV ライブラリ（オープンソース、無料）
アンチエイリアシング
赤100％赤100％赤95％
赤100％赤100％赤55％
赤95％赤55％
赤5％
輪郭の明確な物をデジタルカメラで撮影するとき、１つ
輪郭の明確な物をデジタルカメラで撮影するとき
１つ
の画素の中に極端に色の違う輪郭が入ると、標本化に
よって両方の色を平均した信号が得られます。
一方、幾何学図形など輪郭の明確な物を描画すると、
描
描画した部分とそうでない部分とに目立つギザギザが
部
うな部
ギザギザが
現れます。この現象をエイリアシングと言います。
そこで、直線が通る画素に対して、『塗る』もしくは『塗ら
ない』といった２通りの方法を用いるのではなくどのく
ない』といった２通りの方法を用いるのではなく、どのく
らい通ったかに応じて、色の濃淡をつけることにします。
画素の端をかすった程度なら淡く、画素の中心を抜け
るようなら濃く描画します。このようにして、直線のふち
に濃淡がつくことによって、ギザギザを目立たなくする
方法を『アンチエイリアシング』と呼びます。
アンチエイリアシング有り
アンチエイリアシング無し

コンピュータビジョン特論 コンピュ タビジョン特論

Comments

Description

Transcript

コンピュータビジョン特論コンピュタビジョン特論