映像文法に基づいた実時間使用可能ショット識別による

by user

on 28 марта 2017

Category: Documents

>> Downloads: 2

views

Report

Comments

Description

Download 映像文法に基づいた実時間使用可能ショット識別による

Transcript

映像文法に基づいた実時間使用可能ショット識別による

社団法人電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
TECHNICAL REPORT OF IEICE.
映像文法に基づいた実時間使用可能ショット識別による
撮影ナビゲーションシステム
熊野
雅仁†
天野
美紀††
有木
康雄†††
上原
邦昭†††
† 龍谷大学理工学部〒 520–2194 大津市瀬田大江町横谷 1–5
†† NTT ドコモ関西〒 530–0001 大阪市北区梅田一丁目 10–1
††† 神戸大学工学部〒 657–8504 神戸市灘区六甲台町 1–1
E-mail: †[email protected], ††[email protected], †††{ariki,uehara}@kobe-u.ac.jp
あらまし
本論文では，編集を意識した映像撮影を支援，教示することを目的として，映像文法を背景とするリアル
タイムカメラワーク判定に基づいた撮影ナビゲーションシステムを提案する．カメラワークの解析法についてはいく
つかの研究が行われているが，本システムでは，カメラワーク解析のリアルタイム性が要求されるため，処理速度が
速く，また，手ぶれやカメラワークの安定性を十分に検証できる方法として投影法を用いた手法を採用した．カメラ
ワーク解析により出力された結果からショット検出を行い，ショットを 16 通りの状態に分類し，編集には使用できな
い使用不能区間の表示，また，映像文法に従って編集に最も適した映像区間の表示を行う．これにより，撮影者は効率
的に取り直しの作業を行うことができ，また，撮影した映像で編集に適した部分を瞬時に把握することが可能となる．
キーワードディジタルコンテンツ，コンテンツ生成，撮影ナビゲーション，映像文法
Video Shooting Navigation System by Real-Time Useful Shot
Discrimination on Video Grammar
Masahito KUMANO† , Miki AMANO†† , Yasuo ARIKI††† , and Kuniaki UEHARA†††
† Faculty of Science and Technology, Ryukoku University, Otsu, 520–2194 Japan
†† NTT DoCoMo Kansai, Inc, Osaka, 520–2194 Japan
††† Faculty of Engineering, Kobe University, Nada, Kobe 657–8504 Japan
E-mail: †[email protected], ††[email protected], †††{ariki,uehara}@kobe-u.ac.jp
Abstract In this paper, we propose a video shooting navigation system by real-time useful shot discrimination
based on video grammar to support and instruct users shooting nice shots for the later editing work. In this system,
the processing speed must be very high so that we use a gray value projection method to extract the camerawork
parameters in real-time. From the result of camerawork and gray value analysis, the shots are classified into 16
states and the system issues alarm and instructions about the usefulness and uselessness of the shots in real-time
just after shooting the shot. Thereby, users can retake a shot necessary for later editing efficiently.
Key words Digital Contents, Contents Production, Shooting Navigation, Video Grammar
1. はじめに
放送の多チャンネル化とディジタル技術の発展，またイン
このコンテンツ不足に対し，放送局では，必ずしもプロのカメ
ラマンや編集者を必要とせず，またディジタル技術を導入する
ことで，これまで制作コストが見合わなかった，同好者 (fellow
ターネットやブロードバンドの普及により，映像メディアに関
some enthusiast) や個人 (Person) を対象とした，映像コンテ
して様々なサービスを展開できる基盤が整いつつある．また，
ンツの自動生成技術，または生成支援技術が着目されている．
日本のコンテンツが海外で評価されたことを契機に，国策とし
このような背景のもと，サッカー等，スポーツを対象にした
てコンテンツ業界を支援する動きがある．しかし，コンテンツ
例では，プロのカメラマンの撮影技法を研究し [1]，プロのカメ
業界における絶対的な人材不足、教育プログラムの欠如が以前
ラマンをロボットで代替する研究や [2]，複数のカメラによる３
から指摘されており，コンテンツの不足も問題となっている．
次元復元を行い，新たな見せ方によるディジタルコンテンツを
—1—
A
B
C
C
B
A
Score is 80
Pan is fast.
図 1 撮影ナビゲーションカメラ
Fig. 1 Shooting Navigation Camera.
図2
モンタージュとクレショフ効果
Fig. 2 Montage and Kuleshov effect.
提供する自由視点スタジアム [3]，また高解像度の固定映像の
一部をクリッピングする方法により撮影を模倣するディジタル
れぞれ異なる意味を持っているが，図 2 の上側の接続は，(A)
シューティング [4] による映像コンテンツ生成技術．この他に
手をつないだ二人→ (B) お菓子→ (C) 喧嘩（仲が良かったの
も，講義 [5]∼[7] や料理番組 [8]，ロボットカメラの協調による
にお菓子が原因で喧嘩した）を意味し，図 2 の下側の接続は，
自動番組撮影 [9]，仮想空間中の仮想撮影を行ってＣＧ番組コ
(C) 喧嘩→ (B) お菓子→ (A) 手をつないだ二人（喧嘩していた
ンテンツを生成する TVML [10] など，プロの放送技術者をロ
のにお菓子をきっかけに仲直りをした）となり，ショットの接
ボットやコンピュータで代替する自動撮影・自動編集システム
続が新たな意味を発生させ，その接続の仕方の違いが異なる意
等の研究が行われており，コンテンツ不足や人材不足の問題を
味を発生させることがわかる．このショットの接続が新たな意
軽減させる技術として注目され得る．しかしコンテンツ業界で
味を発生する課程は，特にクレショフ効果と呼ばれており，こ
は，人材が不足しているため，人材の育成も重要な課題である．
の効果を含めてショットとショットを結合することを，一般に
近年，安価なディジタルビデオカメラが広く普及し，携帯に
モンタージュと呼んでいる [16]．モンタージュを用いることに
おいても簡易な映像が撮影できるなど，一般ユーザが気軽に映
より，映像は時間と空間の制約を超えた往来が可能となる．こ
像を撮影できるようになり，ニュース等でも，一般ユーザが撮
のモンタージュを行う作業こそが編集の本来の意味である．
影したスクープ映像等が放送用に用いられる事例が増えている．
ただし，編集は，情報操作が可能であるだけに慎重でなけれ
技術が進歩すれば，携帯等のカメラにおいても，放送品質に耐
ばならない．例えば，１つのショットに” 赤い花が（散って黄
える映像が撮影できることも期待でき，一般ユーザにおいても，
色い花が）咲いた” という意味があるとき，部分的なショット
質の良い映像コンテンツを生成でき得る基盤が整う可能性もあ
の切断を行って（）内を省くと，赤い花が咲いたことになり事
る．しかし，ここで問題になることは，撮影機器の使用法や照
実を曲げてしまう．このような情報操作上の倫理や意味上の問
明・レンズ等に関する操作技術 [11] は別として，情報の意図を
題点をアドバイスするには，高度な意味解析が必要となるため，
正確に伝える撮影の仕方にある．一般ユーザの場合，基本的に
撮影ナビゲーションシステムの立場からは，今後の課題と位置
は映像編集の知識がなく，撮影された映像中に制作者の意図を
づける．しかし，プロのカメラマンは，このような編集による
正確に伝える編集に適した映像が少ない等の問題が発生する．
効果を想定して，与えられた映像の意図を反映するショットを
これらは，映像制作のリテラシーがないためである．放送局で
撮影しなければならないため，コンテンツ制作の教育プログラ
は，撮影や編集の背景として，映画の文法 [12], [13] を源流とす
ムとしては，重要な要素である．
る映像文法 [14] が意識されている．これは，映像制作者の意図
2. 2 映画文法
を正確に伝えることを目的として培われた経験則であり，普遍
言語学において，文法は「非連続要素の結合体系」の一例で
的な基本則である．
あるとされ，
「文法は認知に依存せずに自立した規則として存
本研究では，図 1 のように，撮影中に映像を評価し，アド
在し，非連続要素としての単語をどう組み合わせて意味を表
バイス等の教示を行うなど，人材育成を可能とし，映像文法を
現するかを既定するが，話し手が個々の単語によって通常伝え
背景として，編集を意識した映像の撮影技術の習得を支援す
る具体的な意味からは独立している」と説明される [17]．映像
る撮影ナビゲーションシステムに着目する．本研究では，撮影
においても，ショットを非連続要素と同様の扱いにより同じよ
ナビゲーションシステムを実現する要素技術の中で，特に投影
うな議論が展開されており，映画の出現当時から記号学的な立
法 [15] を用いたリアルタイムカメラワーク判定に基づき，手ぶ
場 [18] や言語学的・心理学的な立場 [19] などによる研究が行わ
れやカメラワークの質を 16 個のクラスに分類し，評価を行い，
れている．このような映画に対して言語活動を想定する著しい
使用可能なショットを提示するシステムの提案を行う．そこで，
不明瞭さから，映画の言語，映画の文法，映画の文体論，映画
まず 2. で映像文法について述べ，3. で本研究での撮影ナビゲー
の修辞法 (レトリック)」等，様々な概念が生み出されたとされ
ションの位置づけを説明し，4. でカメラワークの解析法と評価
ている [19]．本研究で取り扱う映像文法の根底となる概念は，
法を示す．また，5. で実験と評価を行い，6. でまとめを行う．
ロジェ・オダンが示した以下の定義が近い [19]．
2. 映像文法
「映画文法とは，映画作品を構成する動く映像の連続によっ
て正しく観念を伝達するための技能を統轄する諸規則を研究す
2. 1 モンタージュとクレショフ効果
るものである．映画文法の目的は，映画作品の組み立てを支配
図 2 は，異なる 3 つのショット (A,B,C) の接続の仕方につい
する基本原則や不変の規則を学ばせることによって，正しい映
て横方向に２通り示されている．個々のショット (A,B,C) はそ
画スタイルや調和の取れたスタイルを習得させることにある．
」
—2—
(A) ᕆỗ䈭䉲䊢䉾䊃䉰䉟䉵䈱ᄌൻ
Bad!
(A) ห䉲䊢䉾䊃䉰䉟䉵䈱ធ⛯
䇭䇭䇭6s
LS䇭
(C) ᕆỗ䈭ᄌൻ䉕⿠䈖䈜ធ⛯
FIX
ZOOM
PAN
MS
4s
TS
2.5s
(D) 䉦䊜䊤䊪䊷䉪䈏䈅䉎 ႐ว䈱ᱜ䈚䈇 ធ⛯
FIX
FIX ZOOM
FIX
FIX PAN FIX
Bad!
図 3 ショット接続の禁則
図 4 ショットサイズの接続ルール
Fig. 3 Bad connection rule example.
Fig. 4 Connection rule with shot size.
2. 3 基本スタイルとしての映像文法
「詩 (ポエム)」が「文章」に対して芸術性を付加した概念を
持つように，映画の文法では，基本則に加え芸術性に対する論
旨も展開される．しかし，本研究での映像文法は，制作者の意
3. 撮影ナビゲーションシステム
3. 1 撮影規則
映像文法の編集規則 Rule(E1)∼(E8) を背景とするとき，撮
図を正確に伝える上で，撮影・編集上の最も基本的な規則集合
影者が最低限守るべき規則が導出される．
であり，非連続要素の接続による映像を自然に感じさせるため
Rule(S1) 使用の有無に関係なく，Scene ことに LS,MS,TS を撮影しておく
の規則，不要な意図の発生を抑制する規則，正確な意図の伝達
Rule(S2) Shot Size に対応したショットの撮影時間長は余裕を持たせる
に障害となる禁則事項などを抜粋した規則集合である．
Rule (E1) 1 つの Scene は基本的に視聴者と被写体との視覚的な距離に依存
する相対的な Shot Size として全体像を映す LS(Loose Shot), 注目対象を示
す TS(Tite Shot), その中間の MS(Middle Shot) の接続で構成される
Rule(S3) カメラワークを用いるときは前後に FIX ショットを撮影する
Rule(S4) カメラワークはなめらかに動かすこと
Rule(S5) 適切な明るさで撮影すること
Rule(S1)∼(S5) は，映像文法を背景として導出された撮影
Rule(E2) FIX ショットで LS,MS,TS の時間長は原則として 6s,4s,2.5s
規則である．Rule(S1) は，編集者がどのようなショットの接続
Rule(E3) Scene の冒頭は Master Shot(通常 LS)
を行うか撮影時では不明であるため，映像文法を最大限に考慮
Rule(E4) 原則として LS から TS への接続はできない (急峻な変化の抑制)
Rule(E5) 被写体,Shot Size, 向き等が同じショットは接続できない
して 3 つの Shot Size を撮影しておくという実務上の規則であ
Rule(E6) 原則として MS から MS は接続できない (冗長性の排除)
る．Rule(S2) は，編集作業上，時間の微調整が必要なことか
Rule(E7) カメラワークの前後には 1 秒以上の FIX ショットが必要
ら，Shot Size に依存した時間長に余裕を持たせるための規則
Rule(E8) 質の悪い不要な意図を発生させるショットは用いない
である．Rule(S3) は，編集規則 Rule(E7) に対応するための規
音楽が，音符という非連続要素に音価 (長短)，音高 (高低)，
則であり，カメラワークの前後に FIX がなければ原則として
音量 (強弱) を与えて旋律やリズムを形成させるように，上
ショットとしては使用不能となる．Rule(S4),(S5) は，ショット
記 Rule(E1)∼(E8) は，ショットに Shot Size と時間長を与え，
の質に関する規則であり，手ぶれやカメラワークの不安定な動
ショットの接続に制限を加えることで映像に自然な流れやリズ
き，明るさが適切でない質の悪いショットは使用不能となる．
ムを形成させる編集ルールである．Rule(E1)(E2) のように，
このような撮影規則から，映像の撮影ナビゲーションを行う
ショットは，基本的に３つの相対的な関係を持つ Shot Size と
観点として，(1)Scene ごとに LS,MS,TS が撮影されているか
それぞれに対応する時間長で制限される．Shot Size に対応す
の判定と，足りない場合の通知，教示．(2) ショットの時間長が
る時間長の違いは，人間の画像理解に要する時間を考慮した経
守られているかの判定と通知，教示．(3) カメラワークの前後
験値であり，より多くの物体が映る LS が最も長い．Rule(E3)
に FIX ショットが 1 秒以上存在するかについての判定と通知，
は，ショットの接続による映像の内容理解を視覚的に助けるた
教示．(4) 撮影されたカメラワークの評価と使用可能・不能の
め，Scene を区切りとし，冒頭で全体像を見せてから詳細に入
判定と通知，教示．(5) 適切な明るさで撮影されているかにつ
るというスタイルを形成する．Rule(E4) は，図 3 の (A) に対
いて使用可能・不能の判定と通知，教示．という５つが考えら
応し，Shot Size の急激な変化による不要な意図の発生を避け
れる．(1),(2) については，ショットの Shot Size 判定が必要に
るためにある．Rule(E5) は，ジャンプカット（注 1）による場合も
なる．また，(3) についてもカメラワーク前後の FIX ショット
同様であるが，必要以上に余計な仮現運動のβ運動（注 2）を生起
と Shot Size の関係を検証する必要がある．これまで，我々は，
させてしまうため避けられる [16]．Rule(E6) は，映像に間延び
映像文法を背景としてプロのカメラマンが撮影した素材映像を
感を与えてしまうため避けられる．最後に，Rule(E7) は，図
対象に Shot Size を自動付与する研究を行っている [20] が，初
3(C) のように，ショットの接続点直後にカメラワークが生じて
心者の撮影についてはその前提が成り立たないため，この Shot
いる場合も急激な変化を与えてしまうため，図 3(D) のように
Size の判定を必要とする (1),(2),(3) の通知，教示法については
カメラワークを含んだショット間の自然な接続を保つための規
別の機会に報告する．そこで，本研究では，撮影ナビゲーショ
則である．これらの制約から図 4 のようなショット接続の基本
ンシステムの部分システムとして，(4),(5) の観点に基づく機能
規則が導かれる．これらの基本スタイルに例外の導入や制約を
に焦点をあてる．ただし，本研究では (2) に通じる規則として，
緩めることが豊かな映像表現を生み出すものと考えられる．
短すぎるショットに警告を与えるため，FIX 区間の時間長につ
（注 1）
：連続して撮影した１ショットの一部を省くことにより起こる不連続点
（注 2）
：視覚の運動知覚に関する現象で，2 つの異なる動きを持つ対象を連続的に
いて，TS の時間長に少し余裕を持たせた「FIX 区間は 3 秒以
上」という規則を導入する．
動く物体として知覚すること．この知覚により N コマ/s の映像が自然に見える
—3—
表 1 ショットの状態
Start
Table 1 Shot states.
Camerawork extraction
& Intensity average
Scoring
Shot state classification
Guide message
Navigation message
No
Display of useful sections
Yes
Shooting
end?
End
図5
処理過程
Fig. 5 Flow in the navigation system.
State number:Name
01:Fix
02:Left-pan
03:Right-pan
04:Up-pan
05:Down-pan
06:Zoom-in
07:Zoom-out
08:Too fast left-pan
09:Too fast right-pan
10:Too fast up-pan
11:Too fast down-pan
12:Too fast zoom-in
13:Too fast zoom-out
14:Too bright
15:Too dark
16:Can’t use
Explanation
The camera doesn’t move.
The camera moves smoothly to the left.
The camera moves smoothly to the right.
The camera moves smoothly to the upward.
The camera moves smoothly to the downward.
The camera zooms in smoothly.
The camera zooms out smoothly.
The camera moves too fast to the left.
The camera moves too fast to the right.
The camera moves too fast to the upward.
The camera movet too fast to the downward.
The camera zooms in too fast.
The camera zooms out too fast.
The shot is too bright.
The shot is too dark.
The shot can’t be used for editing.
3. 2 撮影ナビゲーションシステムの処理過程
図 5 は，撮影ナビゲーションシステムの処理過程を示して
条件を満足するとき，対応する状態名がその区間に付与される．
いる．まず，撮影者の映像を撮影規則 Rule(S4),(S5) 評価を行
ただし，もし１秒間内で少なくとも１フレームの条件が以下
う上で実時間処理を行うために，6 フレーム (0.2s) ごとの画像
の条件を満足する場合，以下の状態名が付与される．ここで，
を抽出する．これらのフレーム画像を対象として，上下左右の
Light(f ), θdark , θbright はそれぞれ，フレーム f の輝度平均値
動きを持つパンとズームイン・アウトのカメラワークパラメー
と予備実験により得られた閾値を表している．
タと各画像ごとの輝度平均値を求める．我々が開発した映像文
08:Too fast left-pan
θlr < P anlr (f )
法に基づく映像編集支援システム [21] の部分システムとして，
09:Too fast right-pan
P anlr (f ) < − θlr
投影法を用いたカメラワーク抽出法による使用可能・不能区間
10:Too fast up-pan
θud < P anud (f )
11:Too fast down-pan
P anud (f ) < − θud
の推定法を提案している [22]．しかし，この方法では，カメラ
12:Too fast zoom-in
Zoom(f ) < − θz
ワークを一度解析した後に使用可能・不能区間を推定するため，
13:Too fast zoom-out
θz < Zoom(f )
オフライン処理となっており，例えば撮影時にパンが早すぎる
などの警告を与えたりすることができない．そこで，オンライ
ン処理を目指す立場から，単位時間ごとに状態判定を行うアル
ゴリズムを用いる．本研究では，実時間のオンライン処理を考
14:Too bright
θbright < Light(f )
15:Too dark
Light(f ) < θdark
3. 4 状態の通知と教示
クラス分類に従い，撮影者に状態の通知と教示が示される．
慮して処理単位の区間を１秒間と定義し，この１秒区間ごとに，
図 6 は，撮影ナビゲーション時の状態の通知と教示の例を示し
カメラワークパラメータと輝度平均値を用いて表 1 のような 16
ている．図の例では，“Fixed camerawork”, “Slow right-pan”,
の状態へクラス分類を行う．この 16 状態へのクラス分類に従っ
“Too fast right-pan”等が提示されている．また，撮影者には，
て，ユーザーに表 1 の状態名が通知される．
表 1 に従い，以下に示す２つの教示内容も提示される．
撮影が終了すると，単位時間ごとに評価された状態からスコ
(1) もし連続する固定ショットの区間が３秒に満たなければ，
アが計算され，そのスコアの結果や教示，また使用可能な区間
映像文法の規則１に従い，メッセージとして「固定ショットは
が表示される．
３秒より長くなくてはならない」と教示される．
3. 3 ショットのクラス分類
(2) もし連続するショットが “left-pan”, “right-pan”, “up-
表 1 のショットの状態のうち，状態番号 01∼07 は使用可能な
pan”, “down-pan”, “zoom-in” ,“zoom-out” であるとき，その
状態を示す区間として通知され，状態番号 08∼16 は使用不能
前後に固定ショットが無ければ，映像文法の (2) に従い，メッ
な区間として通知される．ただし，状態番号 16(Can’t use) は，
セージとして「パンとズームの区間の前後には，１秒以上の固
01∼15 までに含まれない手ぶれを含む区間として定義される．
定ショットが必要です」と教示される．
次に，クラス分類の使用可能区間に対する条件を以下に示す．
01:Fix
02:Left-pan
P anud (f ) = 0 && P anlr (f ) = 0 && Zoom(f ) = 0
0 < P anlr (f ) < θlr
図 7 は，撮影ナビゲーションシステムの様子を示している．
左側は，ショットごとに最初のフレームを並べて表示した “Shot
window” である．“Shot view” は，ショットの状態をカラー
03:Right-pan
−θlr < P anlr (f ) < 0
で示している．“Fix”, “Left-pan”, “Too fast left-pan”, “Too
04:Up-pan
0 < P anud (f ) < θud
dark”, “Too bright”, “Can’t use” は，それぞれ黄色，青，橙，
05:Down-pan
06:Zoom-in
07:Zoom-out
−θud < P anud (f ) < 0
−θz < Zoom(f ) < 0
0 < Zoom(f ) < θz
黒，白，赤で示されている．“Edit view” は，使用可能なショッ
トをピンクで表示している．“Comment” は，警告と教示を表
示する窓である．
ここで，P anlr (f ) はフレーム f の left/right-Pan，P anud (f )
は up/down-Pan，Zoom(f ) は Zoom-in/out の推定量を表し
4. メタ情報の抽出
ている．θlr , θud and θz は，予備実験により得られた閾値であ
4. 1 カメラワーク情報の抽出
る．もし，6 フレームごとに計算される１秒間の区間が以上の
カメラワークパラメータの抽出法として，我々は，[15] に示さ
—4—
Fixed camerawork
4. 2 輝度情報の抽出
Too fast right-pan
各対象フレームごとの輝度平均値は，Light(f )
1
w
Pw
i=1
=
PY (f, i) により計算される．
5. 実験結果
Slow right-pan
我々は，Pentium III (700 MHz) のパソコン上で Java を用
図 6 撮影ナビゲーションシステム上のメッセージ例
いて映像撮影ナビゲーションシステムを実装した．そして，映
Fig. 6 A message example from the navigation system.
像文法を知らない３人の被験者には 15 秒間の映像を 3 種類
Prev
Next
Show
（人，静物，風景）撮影してもらうよう依頼した．映像データは
Clear
320x240,29.92fps の QuickTime フォーマットの映像である．
5. 1 処理速度
Select File
Judge
Recommend
表 2 は，映像撮影ナビゲーションシステムにおいて，各処理
ごとに１フレームごとの処理測度を求めたものである．Java に
Shots window
よる実装では，画像の抽出に多くの時間を費やしていることが
Screen
分かる．しかしながら，輝度値の計算からクラス分類までの処
理時間約 44ms は，ほぼ 0.2 秒のフレーム画像のサンプリング
Shot view
間隔と一致するため，実時間であると言える．
Edit view
Control bar
Coment
表2 処理時間
Table 2 Processing speed of the system.
図 7 撮影ナビゲーションシステムの外観
Process
Fig. 7 Display of the video shooting navigation system.
Time(msec)
Frame capture
67.7
Gray value projection
35.7
Panning computation
0.8
判定を行う手法を採用している．画像の横軸の投影量 PY (f, i)
Zooming computation
6.7
と縦軸の投影量 PX (f, j) は，式 (1) と式 (2) にそれぞれ示され
Intensity average
0.0
れる濃淡値の投影量を平行移動，もしくは拡大縮小することで
Shot classification
る．ただし，Gray(f, i, j) は，縦 h，横 w のフレーム画像 f 上
0.6
Others
の位置 i, j での濃淡値である．
37.0
Total
h
1X
PY (f, i) =
Gray(f, i, j)
h
(1)
j=1
148.5
5. 2 ショットのクラス分類についての実験結果
表 3 は，ショットの状態に対するクラス分類の実験結果を
示している．ここで，C を検出対象の正解数，D を正解を検
w
1 X
Gray(f, i, j)
PX (f, j) =
w
(2)
出できなかった数として「未検出数」，E を正解でないもの
を過剰に検出した数として「過剰検出数」とするとき，再現
i=1
撮影時の左右，上下方向のパンの量は，式 (5) と式 (6) に従
率 (Recall)=C/(C+D)，適合率 (P recision)=C/(C+E) と定
い求められる. ここで，縦と横方向の投影距離は，現在フレーム
義される．再現率は，検出対象を漏れなく検出できたかという
と 0.2 秒先のフレーム間で計算され，δp がパンの推定量となる．
完全性を表現し，適合率は，検出結果の中にどれだけ必要な対
象が存在するかという正確性を表現する指標である．システム
DPY (f, i, δp ) = {PY (f, i) − PY (f + 1, i − δp )}2
2
DPX (f, j, δp ) = {PX (f, j) − PX (f + 1, j − δp )}
(3)
の性能を評価する場合，漏れがなく，必要な対象だけを抽出す
(4)
ることが目的となるため，この再現率と適合率ともに高い値を
示すことが求められる．
w (δp >
= 0)
w−δp (δp <0)
P anlr (f ) = arg min
δp
X
DPY (f, i, δp )
表3
(5)
i=1+δp (δp >
= 0)
i=1 (δp <0)
h (δp >
= 0)
h−δp (δp <0)
P anud (f ) = arg min
δp
X
DPX (f, j, δp )
(6)
j=1+δp (δp >
= 0)
j=1 (δp <0)
フレーム f でのズーム量も同様に計算されるが，投影量を用
ショット抽出の結果
Table 3 Results of shot detection.
Fix
Pan
Zoom
Bright
Can’t use
Total
C
24
12
8
2
2
47
D
3
5
0
0
0
8
E
1
2
1
0
4
8
Recall (%)
88.9
70.6
100.0
100.0
100.0
85.5
Precision (%)
96.0
85.7
88.9
100.0
33.3
85.5
表 3 より，パンに関する精度が悪いことがわかる．これは，
いたパン・ズームパラメータの解析法については [22] に詳しく
１秒に満たないパンをアルゴリズム上，検出できなかったこと
記載しているため，ここでは省略する．
が原因である．また，人物の撮影で，フィックスと判定すべきと
—5—
ころを，人物が横切っていたため，誤ってパンや “Can’t use”
㪩㪸㫋㫀㫆㩷㫆㪽㩷㫌㫊㪼㪽㫌㫃㩷㫊㪼㪺㫋㫀㫆㫅㫊
であると判定してしまう未見出のショットであった．他にも，
ショットの最後がしっかりと静止しておらず，厳しい FIX の条
件を満たさなかったため，ショットの境界であると判別できず
に “Can’t use” と判断してしまった区間が複数存在した．これ
らの誤検出が “Can’t use” の適合率が低い原因である．
5. 3 スコア
㪐㪇㪅㪇㪇㩼
㪏㪇㪅㪇㪇㩼
㪎㪇㪅㪇㪇㩼
㪍㪇㪅㪇㪇㩼
㪌㪇㪅㪇㪇㩼
㪋㪇㪅㪇㪇㩼
㪊㪇㪅㪇㪇㩼
㪉㪇㪅㪇㪇㩼
㪈㪇㪅㪇㪇㩼
㪇㪅㪇㪇㩼
㪘
㪙
㪚
㪛
㪈
撮影者へのスコアの提示は，撮影ごとに行われる．例えば，
一連の撮影で，表 4 のようなクラス分類が行われた場合，スコ
アの計算例としては，数値のある項目のみを計算対象として，
図8
以下のように計算される．
Score = {(F ix :
6
)
6+4
9
)
9+3
スコ
+ (Zoom :
[3]
ア
[4]
No. of sections
使用可能な区間の含有率
3
)}/3
3+7
Table 4 Score.
States
㪊
Fig. 8 Ratio of useful sections.
+ (P an :
表4
㪉
㪫㫉㫀㪸㫃㩷㫅㫌㫄㪹㪼㫉
States
No.of sections
Pan
9
Too fast pan
3
Zoom
3
Too fast zoom
7
Fix
6
Too bright
0
Can’t use
4
Too dark
0
[5]
[6]
[7]
5. 4 撮影ナビゲーションシステムによる効果
以上のように，撮影者は，単位時間ごとの撮影評価，教示，
スコアの点数を見ることで各自の問題点を把握し，撮影ナビ
ゲーションによる通知と教示を繰り返すことにより，映像文法
を背景とした撮影方法を学習していくことになる．
そこで撮影の際，撮影ナビゲーションシステムがどれほど学
習過程の撮影者に効果を与えているかを判定するために，撮影
[8]
[9]
[10]
[11]
[12]
[13]
[14]
ナビゲーションシステムを用いて撮影を繰りかえすごとに撮影
区間に含まれる使用可能区間の含有率がどれほど増加していく
かについて実験を行った．被験者は４人であり，いずれも人物，
静物，風景についてカメラワークを含めた 15 秒の映像を撮影
してもらい，それらの撮影区間全体に対する使用可能区間の含
有率を求めた３回の繰り返し実験の結果を 8 に示す．
図より，全ての映像において，撮影ナビゲーションシステム
[15]
[16]
[17]
[18]
[19]
[20]
を用いる回数が増加するごとに使用可能区間が増える結果が得
[21]
られた．
[22]
6. まとめ
NHK 技研 R ＆ D,No.48, pp.34-47, 1998.
大田友一，北原格，斉藤英雄，秋道慎志，尾野徹，金出武雄: “仮想化現実技術による自
由視点映像スタジアムの構築”, 映像情報メディア学会技術報告, Vol.25, Num.76,
pp.57-62 (2001.11)
熊野雅仁，有木康雄，塚田清: “ボールと選手に着目したディジタルカメラワークの
実現法–ディジタルシューティングによるサッカー解説映像生成システムに向けて–”，
画像の認識・理解シンポジウム (MIRU2004), pp.341-346, 2004-07.
大西正輝泉正夫福永邦雄: “講義映像における板書領域のブロック抽出とその自動撮
影”, 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解, Vol.
99 Num. 448 pp.197-204 (1999.11)
綿織, 菅沼他: “黒板講義を対象とした遠隔講義のための講義自動撮影システムの
構築”, 電子情報通信学会技術研究報告. ET, 教育工学, Vol. 100 Num. 352
pp.63-70 (2000.10).
石塚, 亀田他: “講義の自動撮影系における音声・映像インデキシング”, 電子情報通
信学会技術研究報告. PRMU, パターン認識・メディア理解, Vol. 99 Num. 709
pp.91-98 (2000.03)
尾関基行，中村裕一，大田友一: “机上作業シーンの自動撮影のためのカメラワーク”,
電子情報通信学会論文誌, Vol.DII-J86, No.11, pp.1606-1617, (2003).
津田, 吉村他: “ネットワーク接続されたロボットカメラを用いた自動番組制作 (ハイビ
ジョンおよび一般)”, 映像情報メディア学会技術報告, Vol. 26 Num. 17 pp.37-42
(2002.02)
道家, 林他: “TVML を用いた番組情報からのニュース番組自動生成”, 映像情報メ
ディア学会誌, Vol. 54 Num. 7 pp.1097-1103 (2000.07)
ポール・ウィーラー, 石渡均 (訳), ディジタル映画撮影術,(2003).
Daniel Arijon: ”Grammar of the Film Language“,1991.
今泉容子,“映画の文法 (日本映画のショット分析)”, 彩流社 (2004).
“Video Editing Support System Based on Video Content Analysis”,
Proc. of Asian Conference on Computer Vision (ACCV) pp.628-633,
2002.
Akio Nagasaka, Takafumi Miyatake:
“Real-Time Video Mosaics Using Luminance-Projection Correlation”, IEICE,Vol.J82DII,No10,pp.1572-1580,1999.
中島義明, 映像の心理学 (マルチメディアの基礎), サイエンス社 (1996).
スティーブン・ピンカー, 椋田直子 (訳): “言語を生み出す本能 (上)”, 日本放送出
版会 (1995).
クリスチャンメッツ，浅沼圭司 (監訳),“映画記号学の諸問題”, 水声社 (1987).
Ｊ・オーモン, Ａ・ベルガラ, Ｍ・マリー, Ｍ・ヴェルネ, 武田潔 (訳), 映画理論講義,
勁草書房 (2000).
熊野, 有木, 上原，下條，春藤，塚田：“映像編集支援システムのためのショットサイズ
自動付与”，電子情報通信学会論文誌，Vol.J85-D-I，No.7，pp.592-602，2002
天野, 上原, 熊野, 有木, 下條, 春藤, 塚田：“映像文法に基づく映像編集支援システム
” 情報処理学会論文誌，第 44 巻，第 3 号，pp.915-924，2003
熊野雅仁，有木康雄，春藤憲司，塚田清: “映像文法に基づいた映像編集支援システム
のための使用可能なショット区間の自動抽出”, 映像メディア学会誌, Vol.57, No.7,
pp.829-839, 2003.
本研究では，カメラワークの実時間判定と輝度平均を用いて
使用可能・不能なショットを実時間で評価し，１秒ごとの撮影
状態と教示を通知することができる映像撮影ナビゲーションシ
ステムについて報告した．また，再現率と精度によってショッ
トのクラス化を評価し，両方とも 85.5%の精度を得た．最後に，
撮影ナビゲーションシステムの使用を繰り返すことで撮影者の
技量が好転したことを示した．今後，我々は実際のカメラにこ
れらの手法を実装することを検討している．
文
[1]
[2]
献
加藤, 山田他: “被写体を追尾撮影時の放送カメラマンのカメラワーク特性分析 (¡論文
小特集¿生体計測応用)”, テレビジョン学会誌, Vol. 50 Num. 12 pp.1941-1948
(1996.12)
加藤大一郎: “新しい番組制作支援技術知的ロボットカメラと放送番組への応用”,
—6—