...

高品質なユビキタス通信を実現する スケーラブル音声符号化技術

by user

on
Category: Documents
16

views

Report

Comments

Transcript

高品質なユビキタス通信を実現する スケーラブル音声符号化技術
簡単,快適,便利なコミュニケーション環境のための音声・音響処理技術
音声符号化
VoIP
高品質通信
高品質なユビキタス通信を実現する
スケーラブル音声符号化技術
ひ わ さ き
日和
ブロードバンドの普及により,高品質な音声通信を可能とする環境が整っ
ゆ う す け も り た け し
祐介 /森 岳至
お お む ろ ひとし
い け ど じょうたろう
てきましたが,従来の電話に取って代わるサービスを実現するためには,回
大室
線容量と再生環境の多様化に対応する必要があります.ここでは,再生品質
と く も と だ い す け かたおか
が自在に制御可能となるスケーラブル音声符号化技術を紹介します.その設
徳元 大輔 /片岡 章俊
仲 /池戸 丈太朗
あきとし
計方針はネットワーク制御技術とも親和性が高く,さまざまなシーンでの応
NTTサイバースペース研究所
用を可能とします.
表される高速なブロードバンドIPネッ
て,音声通信の高品質高臨場感化を
トワークの普及も加速して,条件さえ
達成するためにクリアしなければならな
スケーラブル(エンベデッド)符号
そろえば,より多くのデータを伝送す
い事項を整理すると,次の3つとなり
化は,高品質かつ使い勝手に優れた
ることが可能となります.また音声会
ます.
音声通信を実現するための核となる技
議通信などのリアルタイム双方向音声
①広帯域化
術です.この技術を用いると,従来狭
通信の利用場面などでは,遠隔地の
②多チャネル化
帯域モノラル音声伝送しかできなかっ
様子を高臨場に再生したいという要求
③低歪み化
たものが,広帯域多チャネルな臨場感
も高まってきており,従来の3.4 kHz
「広帯域化」とは,従来の3.4 kHz
あふれる音環境の伝送を可能とします.
帯域モノラルの音声に代わる高品質な
までの電話帯域に加え,7 kHzまで
またその設計方針は再生品質を環境
音声伝送方式が必要とされています.
のA Mラジオ帯域やCD並みの20 kHz
に応じて制御することを可能とするた
固定電話における音声品質の変遷と期
帯域などをサポートすることを表しま
め,次世代ユビキタス通信環境を達成
待される方向性について,図1に示し
す.「多チャネル化」とは従来のモノ
する強力なツールとして期待できます.
ます.
スケーラブル音声符号化技術とは
高品質なVoIPサービスへの期待
ラル1チャネルに対してステレオ音声
ここで,今までの電話通信と比べ
(2チャネル)などの複数チャネルをサ
従来から用いられている電話では伝
∼1980 年代 1990 年代 2000 年代∼
送帯域の制限により,アナログ 3.4 kHz
帯域のモノラル音声しか伝送できませ
周波数帯域
3.4 kHz(狭帯域)7kHz(AM ラジオ並み)20 kHz(CD並み)
チャネル数
モノラル ステレオ 多チャネル
んでした.1980年代から始まった交換
機や伝送路のディジタル化は,アナロ
グ伝送をディジタル伝送に置き換えた
だけに過ぎず,近年普及してきたVoIP
(Voice over IP)などの音声通信サー
ビスでも,この基本的な枠組みに変わ
りはありません.また伝送帯域に制限
端
末
伝
送
路
黒電話
IP 電話 高機能IP電話
アナログ伝送路
ディジタル伝送路
IPネットワーク
RENA
がある場合,圧縮符号化を用いること
もあり,音質劣化も避けられません.
一方,光ファイバやADSLなどに代
10
NTT技術ジャーナル 2004.1
図1 固定電話の音声品質の方向性
特
集
がります.
ポートすることを意味します.また「低
不可欠です.しかし,トランスコーディ
一方,再生環境には電話機,P C,
歪み化」とは,より広い伝送帯域を活
ングには大きな演算処理能力が必要
用することによって従来の圧縮符号化
会議用専用端末など,さまざまなもの
とされ,異なる符号化方式を接続する
方 式 では達 成 できなかったP C M
が混在しており,各機器が扱える周波
ためのゲートウェイなどへの負担は大
(Pulse Code Modulation)方式に
数帯域やチャネル数も異なります.ま
きくなるという欠点があります.また
肉薄するSNR(信号対量子化雑音比)
たアクセス網には光ファイバやADSL,
音声信号は非可逆な圧縮方法を用い
の向上を達成することです.
無線LANと最大伝送帯域も多様化し
て符号化されるため,トランスコーディ
てきました.こうして,利用者の環境
ングで復号して再度符号化する処理を
高品質音声通信の課題
によって異なった通信および再生条件
のもと,相互接続性を確保しなければ
新世代通信の礎としてめざましい発
ならないという課題もあります.
達を遂げているIPネットワークは,基
経ると音質の劣化は避けられません.
スケーラブル音声符号化の機能と
メリット
本的にベストエフォートな設計に基づ
従来の符号化方式では,符号化の
いたネットワークなので,データ転送
際 に周 波 数 帯 域 や 符 号 化 データ量
従来の符号化法とスケーラブル符号
量,遅延やパケット損失率などの通信
(ビットレート),チャネル数が一通り
化法の違いを図2に,NTTサイバー
品質が変動します.リアルタイム双方
に決まってしまうため,接続された回
スペース研究所で開発したスケーラブ
向音声通信では,QoS(Quality of
線の速度や求める品質ごとに別々の符
ル化の構成を図3に示します.従来の
Service)制御技術を用いないかぎり,
号化方式を用いて符号化データ(ビッ
符号化ではエンコーダ(符号化器)が
伝送路の中継点(ノード)の1個所
トストリーム)を作成する必要があり
1つのビットストリームしか出力しな
でも輻輳すると,パケットの伝送遅延
ました.また異なる符号化方式しかサ
いのに対し,スケーラブル符号化では
が生じます.すると,期待する時間内
ポートしない端末どうしが通信する場
基本符号データの上に積み上げるかた
に音声データが到着しないために音の
合は,ビットストリームを変換するト
ちで複数のレイヤ(層)からなるビッ
途切れが生じ,大きな音質劣化につな
ランスコーディングという技術が必要
トストリームを出力します.従来の符
符号
データ
符号
データ
ビットレート固定
周波数帯域,
音質,チャネル数は
固定
(a) 従来の符号化方式
拡張符号データ2
拡張符号データ1
広帯域ステレオ再生
(CD並みの音質)
基本符号データ
拡張符号データ2
拡張符号データ1
拡張符号データ1
基本符号データ
ビットレート可変
(データの一部から
再生が可能)
広帯域再生
(AMラジオ並みの音質)
基本符号データ
狭帯域再生
(電話並みの音質)
基本符号データ
(b) スケーラブル符号化方式
図2 従来符号化法とスケーラブル符号化法の比較
NTT技術ジャーナル 2004.1
11
簡単,快適,便利なコミュニケーション環境のための音声・音響処理技術
号化方式では,エンコーダから出力さ
れるビットストリームは,周波数帯域,
チャネル数およびビットレートが一通
りに限定されますが,スケーラブル技
ステレオ化
高音質化
(電話帯域モノラル)
拡張レイヤ4
広(FM)帯域化
術では符号化データの一部からも音声
の再生が可能なため,ビットストリー
拡張
レイヤ1
ムのすべてを用いれば CD並みの広帯
域ステレオの音が再生でき,一部だけ
基本データ
(電話帯域モノラル)
拡張
レイヤ2
拡張
レイヤ3
でもAMラジオ並み,または従来電話
並みの音質で再生できるというような
構成にすることが可能になります.
NTTサイバースペース研究所で開発
SNR 向上
チャネル数増加
コア
レイヤ
広(AM)帯域化
周波数帯域拡張
したスケーラブル符号化方式は,各レ
イヤはコアを中心にSNR向上方向,周
図3 スケーラブル音声符号化データの構成
波数帯域方向とチャネル方向に高品
質に拡張するかたちに構成されていま
ワー)やメモリを持ち合わせていない
がありますが,双方ともネットワーク
す.コアレイヤは狭帯域音声を符号化
ときは,符号化または復号するレイヤ
内で輻輳が起きても優先度の高いパ
したデータで,拡張レイヤ1はこの音
を限定することにより処理演算量を低
ケットを保護することにより一定の通
声をさらにPCM相当までSNRを向上
減することが可能となります.またそ
信品質で伝送することを可能とする仕
します.また拡張レイヤ2は音声を
もそもエンコーダに入力される音声が
組みです.スケーラブル音声符号化は
AM帯域(4∼7 kHz)まで,レイ
モノラルや狭帯域に制限されている場
前述のとおり,設計方針が柔軟なた
ヤ3はさらに上の周波数帯域(FM帯
合,すべてのレイヤを構築することは
め,従来の符号化方式と比べてこのよ
域,8∼15 kHz)を符号化したデー
無駄なので,ビットレートと演算量を
うなネットワーク機能との親和性が非
タです.拡張レイヤ4はステレオ信号
低減することができます.
常に高くなります.
スケーラブル符号化はこのように利
スケーラブル符号化にQoS制御機能
このような構成にするメリットの1
用場面に応じて柔軟なサービスを提供
を適用した例を図4に示します.ここ
つは,伝送路が何らかの理由で十分
できるため,幅広い応用分野が期待で
ではコアレイヤだけ保護し,他の拡張
なスループット(データ転送量)を確
きます.このような構成のスケーラブ
レイヤを通常の優先度で伝送します.
保できない場合,コアレイヤを含む一
ル符号化方式を用いると,回線速度
従来の符号化方式ではパケット損失が
部のレイヤのみ伝送することによって,
や受信側の端末の再生能力に応じて
起きると音切れの原因となりましたが,
ビットレートを調整することができるこ
ビットストリームの一部のみを送信す
この使用法では混雑しているときでも
とです.これは多様なアクセス網に対
ることが可能になります.トランスコー
パケット損失が起きるのは拡張レイヤ
応できることを意味します.特にベス
ディングを使用することなく,さまざ
のデータ部分なので音切れは発生せ
トエフォートなIPネットワークではス
まな回線間での音声通信に容易に対
ず,損失が起きたことが気づきにくく
ループットがリアルタイムで変動しま
応することができます.
なります.実際にこれを従来法と同じ
情報を含みます.
すが,そのような事態にも容易に適応
可能となります.
もう1つのメリットは,送信または
QoS制御機能対応の
IPネットワークへの適用
パケット損失率(1%,5%,10%)
でシミュレーションした結果,音質が
図5に示すとおり向上することが確認
できました.
受信側の状況に応じてビットストリー
IPネットワークの通信品質の変動を
ムを構築することが可能となることで
解消すべく,近年では QoS制御技術
これらのほかにも,非音声区間など
す.例えば,端末が PDAなどの携帯
が開発されています.この技術には大
音声の状態によってはコアレイヤまで
端末で十分な演算処理能力(CPUパ
きく分けて帯域保証型と優先転送型
も保護対象から外すことにより保護す
12
NTT技術ジャーナル 2004.1
特
集
のための応用は数多く考えられます.
パケット損失
パケット損失
今後の展開
QoSによる
保護なし
音切れ発生
拡張レイヤ2
新世代IPネットワークにスケーラブ
拡張レイヤ1
ル音声符号化を応用し,音切れのな
い高品位なVoIPサービスの実現に向
QoSによる
保護
時間
(a) 従来の符号化方式で
保護がない場合
コアレイヤ
けた手法の検討をさらに進めていきま
時間
(b) スケーラブル符号化にQoS制御
による保護を適用した場合
図4 スケーラブル符号化にQoS制御による保護を適用する例
す.またPDAなどにより外出先のホッ
トスポットなどで多地点音声会議に参
加できるようなユビキタス音声通信サー
ビスなどへの展開も検討していきます.
最後にスケーラブル音声符号化技術を
用いた高品質 VoIPサービスのサービ
良い
主
観
評
価
値
︵
M
O
S
︶
5
スイメージを図6に示します.ここで
は,BフレッツどうしではAM品質の
パケット損失なしの音質
4
ステレオ音声による高品質通信,また
ADSLやISDNなど低速度の接続では
損失率1%
3
回線速度に応じた品質での音声通信
損失率5%
と,対地ごとにさまざまな速度の回線
2
で 接続された多地点の音声会議にお
損失率10%
悪い
1
従来符号化
いてそれぞれ最適な品質で通信するこ
とが可能となります.
スケーラブル符号化+QoS保護
MOS: Mean Opinion Score
図5 同パケット損失率時の音質比較
A地点
広帯域
ステレオ音声
電話帯域
モノラル音
Bフレッツ
従来回線
C地点
(左から)池戸 丈太朗(左下)/
徳元 大輔/ 大室
IP網
広帯域
ステレオ音声
森 岳至/ 日和
仲/
祐介/
片岡 章俊
ADSL
B地点
今後はネットワーク技術やアプリケーショ
ンとの連携を密に行い,多彩なサービス応
用の具現化に積極的に取り組んでいきます.
Bフレッツ
広帯域
モノラル音声
D地点
◆問い合わせ先
図6 IP網を用いた多地点音声会議のサービスイメージ
べきデータの平均スループットを低減
の拡張レイヤも保護して最低保証音質
する方法や,コアレイヤのほかに下位
を向上する方法など,音声品質の制御
NTTサイバースペース研究所
メディア処理プロジェクト
TEL 0422-59-4815
FAX 0422-60-7811
E-mail [email protected]
NTT技術ジャーナル 2004.1
13
Fly UP