...

トラヒックパターン分類による ネットワークサービスの識別手法に関する研究

by user

on
Category: Documents
4

views

Report

Comments

Transcript

トラヒックパターン分類による ネットワークサービスの識別手法に関する研究
 年度修士論文
トラヒックパターン分類による
ネットワークサービスの識別手法に関する研究
指導:
小松 尚久 教授
年 月 日
早稲田大学理工学術院 基幹理工学研究科 情報理工学専攻
山下 剛史
目次
第
章
序論
本研究の背景と目的 本論文の構成 トラヒックパターン分類に関する従来研究
ポート番号による分類手法 ペイロード情報による分類手法 フローの統計情報による分類手法 第章
第章
ネットワークサービス識別手法の提案
提案手法の概要 識別器の概要と構成 識別用コードブックに求められる要件 提案手法における特徴量の有効性評価
評価対象とするトラヒックデータ 第章
第章
抽出する特徴量 トラヒックデータの特徴
クラスタリングによる定量的評価 ベクトル量子化を用いた評価手法 評価結果 考察 ネットワークサービス間の類似度を用いたコードブック作成手法の検討
類似度の評価手法
類似度に基づくコードブックの再作成 コードブック再作成後の識別率評価実験 第章
実験結果 考察 トラヒックデータ取得環境と識別結果
取得環境に依存しないコードブックの作成 コードブックの作成手法による識別率比較実験 作成手法1:単一の環境によるコードブック 目次
第章
作成手法2:複数の環境によるコードブック 識別率の評価
考察 結論
まとめ 今後の課題 謝辞
参考文献
付録 パケットキャプチャリング
使用した スペック キャプチャリング手順 研究室内でのキャプチャリング環境 ノイズフィルタリング
付録 関連業績
第
章
序論
本研究の背景と目的
インターネットの急速な普及・高速化により,通信トラヒックが急増すると共に動画や音声,
ファイル転送に関するものなどネットワーク上で利用されるサービスの多様化が進んでいる.例
えば,音声・映像通信等の一定レートを要求するアプリケーションから,ファイル交換のように
長時間帯域を使い切るアプリケーションまで様々な品質条件のアプリケーションが同じ品質クラ
スとして混在している.また,技術が成熟化するとともに,新たな付加価値としてインターネッ
トの通信品質を高めることが期待されているが,トラヒックの運用管理のために何を測定するべ
きかといった基準は明確にはされていない.
特に 網では,様々なサービスのトラヒック変動特性を考慮した上で,ネットワーク運用管理
を行う必要があるが,トラヒックをサービスごとに分類する技術というものは確立されていない
ため,現段階の運用管理では,ネットワーク内の各装置におけるトラヒック総量把握にとどまっ
ている.そのためサービスの利用形態や構造の変化が起こった場合でも,その原因の詳細が不明
瞭となるのでネットワーク管理者の対応が後追いとなる問題が発生する.
こういった問題を解決し,かつ低コストでユーザの要求に叶うよう通信品質を高める手法とし
て,ネットワーク上を流れるアプリケーション・サービス区分毎に品質を提供するという形態が
有力である.これは,特に広帯域を必要とする映像トラヒックなどの,重要性の高いサービスや
品質要求の厳しいサービスを優先的に転送することで,限られた帯域を有効的に使っていくとい
う考えに基づいている.サービス毎に区別した品質提供を行う場合,ネットワーク管理者はサー
ビス毎のトラヒック管理に基づく品質監視・品質設計を行うため,サービス毎の通信トラヒック
量を把握しておくことが望ましい.このため,トラヒック情報をサービス毎に分類する技術が必
要だと考えられる.
そこで本研究では,ネットワーク上を流れるトラヒックの連続入力データに対して,パターン
認識技術を適用することでサービス毎に分類する手法の提案を行う.本手法の利点としては,ペ
イロード情報を参照せずにサービス分類が可能である,フローの終了を待つ必要が無くリアルタ
イムな処理が可能である,未知のサービスが出現した場合,コードブック(識別辞書)を追加し
なくても,サービスの挙動などを確認することでサービス分類を推測できる,といった点などが
挙げられる.また,分類を行う際コードブックに求められる要件を抽出し,適切なサービス区分
第
章 序論
の見直しとして,サービス間の類似度算出手法の提案・評価を行う.さらに,環境に依存しない
コードブックの作成を目的とした,トラヒック取得環境の変化による識別率の低下について評価・
検討を行う.以上より,トラヒック内に混在するサービス・アプリケーションの可視化手法によ
るネットワーク品質の向上を目的とする.
本論文の構成
本論文の構成
本論文の構成と,各章の概要を以下に示す.
第 章
序論
研究を行うにあたっての社会的,技術的背景と,本論文の構成を述べる
第 章
トラヒックパターン分類に関する従来研究
本研究に関連する事柄として,トラヒックをサービス毎に分類する従来手法を挙げ,それ
らの手法の特長について述べる.
第 章
ネットワークサービス識別手法の提案
本研究で提案する,連続入力データを特徴量としたサービス分類手法及び,ベクトル量子
化による量子化誤差の算出方法と識別辞書の作成方法について述べる.また,トラヒック
のサービス分類における識別辞書の要件について述べる.
第 章
提案手法における特徴量の有効性評価
本研究で提案する連続入力データを用いたサービス分類において,有効な特徴量の評価実
験諸元,実験結果及びその考察について述べる.
第 章
ネットワークサービス間の類似度を用いたコードブック作成手法の検討
ネットワークサービス間の類似度によるコードブック再作成手法を提案する.また,再作
成後の識別率評価実験及びその考察について述べる.
第 章
トラヒックデータ取得環境と識別結果
複数の環境でトラヒックデータを取得し,学習と識別に異なるトラヒックデータを用いた
場合の識別率の比較実験及びその考察について述べる.
第 章
結論
本研究に関するまとめと,今後の課題を述べる
第章
トラヒックパターン分類に関する従来
研究
従来における,トラヒックからサービス・アプリケーションを結びつける手法は,利用する特徴
量によって大きく分類することができる.ここでの特徴量とは,取得したトラヒックデータ(パ
ケット)が保有している情報であり,パケットサイズや到着時間などの値そのものや,それらの
統計値などが特徴量として挙げられる. パケットが保有する主な情報を図 に示す.
Version
Header
Type of Service
Length
Identification
Time to Live
Total Length
Flags
Protocol
IP ヘッダ
Flagment Offset
Header Cheacksum
Source IP Address
Destination IP Address
Source Port
Destination Port
UDP ヘッダ
Sequence Number
Acknowledgment Number
Data
Offset
Reserved
Flags
Window
Checksum
TCP ヘッダ
Source
Port
Destination
Port
Total
Length
Checksum
Urgent Pointer
ペイロード
図 パケット内に保持されている情報 図 において,色がついている部分は従来手法でよく用いられている情報である.以下に代
表的なサービス分類手法をまとめる.
第 章 トラヒックパターン分類に関する従来研究
ポート番号による分類手法
これは, に登録されている,ポート番号とアプリケーションの対応表で分類する手法
である .トラヒックのサービス分類手法としては最も単純な手法であり,多くのサービスで
は,通信に使用するポート番号が ポートとして予め固定されているため,ポート番
号をパケットヘッダから参照することで,そのデータがどのサービスから送信されたものかを確
認することが出来る.しかし, をはじめとした近年問題となっているサービスには使用する
ポート番号をランダムに決定したり,意図的にポート番号を変更するものが存在する .その
ため,こういったサービスに対してポート番号による分類は信頼性に欠ける可能性がある.また,
ポートを使用しないサービスや, !"" などの,同じポート上で複数サービスが提
供されている場合などに分類が不可能である,といった問題点が挙げられる.図 にポート番
号による分類手法の概要図を示す.
Network
Node A
Node B
Link
identify
Packet a : p
port number = ##
Protocol
identify
Packet b : port number = ##
・
・・
identify
FTP
20
SSH
22
Telnet
23
SMTP
25
POP3
110
・・・
・・・
List of portnumbers
Packet n : port number = ##
図 ポート番号によるサービス分類手法
Portnumber
ペイロード情報による分類手法
ペイロード情報による分類手法
ポート番号を用いないサービス分類手法としては,パケットからヘッダ部分を除いたデータで
あるペイロードを利用した手法が提案されている .この手法では,ペイロードに表れるサー
ビス特有の文字列から生成したビットパタン(シグネチャ)をパターンマッチングすることでサー
ビスを特定することが出来る.この検討は主にポート番号で分類できない トラヒックの識別
に利用されており,企業の脅威管理用のコンプライアンス等で使用されている.しかし,ペイロー
ド情報を参照することは,プライバシーやセキュリティの面で問題となることと,暗号化された
トラヒックに対しては,事前に復号化キーが必要となり処理負荷が増加する点が問題として挙げ
られ,大規模ネットワークに適用することが困難であると考えられる.図 にペイロードを用
いた分類手法の概要図を示す.
Network
Node A
Node B
Link
identify
Protocol
Signature
Gnutella
GNUTELLA
OK¥n¥n
Packet a : signature= ##
eDonkey
$command_type
field1 field2
・・
・
Packet a : signature = ##
Bittorrent
<1byte><19byte>
Kazaa
X-KazaaUsername: ¥r¥n
・・・
・・・
identify
Packet a : signature= ##
identify
List of signatures
図 ペイロードによるサービス分類手法
第 章 トラヒックパターン分類に関する従来研究
フローの統計情報による分類手法
ポート番号やペイロードを参照しない手法として,フローにおけるパケットの到着間隔やパ
ケットサイズなどの統計情報に基づいた手法が提案されている .ここで,フローとは
送信 アドレス
送信ポート番号
受信 アドレス
受信ポート番号
プロトコル
の つの組み合わせが一致するパケットの集合と定義される.この手法は,サービス毎にフロー
群から統計情報を取得し,サービス毎のパターンを予めデータベース内にテンプレート #雛形$ と
して保管した後に,観測したフローの統計情報とテンプレートを比較することでサービスを特定
する.ペイロードを参照する必要が無く,ポート番号とアプリケーションの対応表も必要ないと
いった利点がある.図 にフローの統計情報を用いた分類手法の概要図を示す.
Network
Node A
Node B
Link
Flow a
identifyy
Flow b
identify
・
・
・
Template
Flow n
identify
図 フローの統計情報によるサービス分類手法
フローの統計情報による分類手法
学習の手法としては,決定木 ,単純ベイズ分類器 ,ニューラルネットワーク 等複数の手法が存在する.フローの統計情報を用いたサービス分類手法で多く利用されている特
徴量は,表 の通りである.
表 サービス分類に利用される特徴量
特徴量
統計情報
パケットサイズ %&'
平均値( 標準偏差など
パケット
到着間隔 )
平均値( 標準偏差など
パケット数
フローにおける
総バイト数 %&'
フローの
持続時間 )
また,使用する統計情報の違いで複数の検討が存在しており検討によってこれらのフロー情報
の組み合わせは異なっている.しかしフローによるサービス分類手法は,トラヒックデータから
の連続的な入力が期待できるにも関わらず,トラヒックの時間的な変化を一まとめにして扱って
しまっている.そのため,トラヒックの時間的な変化に着目することにより,さらにサービス分
類性能が向上する可能性がある.例えばバイオメトリクスでは,発話時における唇動作個人認証
において複数のアルゴリズムが提案されているが,時系列情報を使用しないアルゴリズムと使用
するものを比較した際,後者のアルゴリズムの方がより高い精度で認証が可能であることが報告
されている .
また,サービス分類に利用されている特徴量が識別器の設計という点においてサービス分類に
適切かどうかの評価は十分には行われていない.そこで本研究では,トラヒックから得られる特
徴量の連続入力データに着目し,どの特徴量を用いることがトラヒックのサービス分類に有効か
評価を行った.次にサービス区分についても,現在用いられている区分 #動画,音声,テキスト通
信など$ が同様の特徴を持ったパケットで構成されているかの検討はあまり行われていない.そ
こでサービス間の類似性を比較し,類似性の高いサービスを統合することで,共通コードブック
の作成を行った.
第章
ネットワークサービス識別手法の提案
提案手法の概要
既存のサービス分類手法で多く用いられているフローの統計情報は,トラヒックの時間的な変
化を一まとめにして扱っており,サービス毎のパケットによる連続入力が期待出来るにも関わら
ず,それらについてはほとんど考慮していない.そこで,本研究ではトラヒックの微小時間毎の
変化に着目し,トラヒックの連続入力データ #特徴量$ とベクトル量子化を用いたサービス分類手
法を提案する.連続入力データを使用することは,従来の手法と比較して
フローの終了を待つ必要が無い
処理量を軽減することが可能
サービス毎に得られるパターン数の増加
パケットの推移情報による,未知サービスの推測が可能
といった点で有効であると考えられる.
本研究では,サービス毎に発生させたトラヒックに対して以下の手順で特徴量の抽出を行う.
■特徴量抽出手順
パケットアナライザソフトによる *)* データの取得
本研究では,パケットキャプチャリングにフリーのアナライザソフトである を用いる.
前処理:ノイズ #広告,名前解決など$ の除去
のフィルタリング機能を用いて, アドレス,ポート番号の指定を行う.
単位時間 #任意に指定$ ごとに含まれるパケットの抽出
前処理後のパケットデータから,指定した時間幅 #フレーム$ に含まれるパケット数,総パ
ケットサイズ,到着間隔といった特徴量を連続的に取り出す.その後,各特徴量における統
計情報などの算出を行う.この際,フレーム内に一つもパケットが存在しない場合は値を出
力しない.図 に特徴量抽出の概要を示す.
第 章 ネットワークサービス識別手法の提案
Feature data
packets
3
size
182
pai
0.08
3
2
272
0.002
・・・
・・・
・・・
・・・
Time
1
Leave out
1
3
2
n
・・・
Time
: packet
: sampling rate
図 特徴量抽出方法
次に,得られた特徴量に対してベクトル量子化 を用いることで各サービスのコードブック
(識別辞書)を作成する.本研究では,サービスを表す特徴として 種類の特徴量を抽出している
ため,一つのサービスのコードブックには{ ×コードブックのレベル数}個の値が登録される.
サンプルデータの数は特徴量ごとに異なるため,コードブック作成時のベクトル量子化レベルに
対して十分なデータ量が得られた時点でテンプレートを作成する.これをサービスの特徴データ
として用いる.テンプレートデータの概念図を図 に示す.
Num of Service
Codebook:Service C
feat feat Codebook:Service
feat feat feat feat Bfeat
Codebook:Service
1 feat2 feat3 feat
4 feat5 feat6 feat7 A
feat
-
1 -feat2
- - 1- - -- - ---
-feat3
2
- - - --
-feat4
3
- - - --
-feat5
4
- - - --
-feat6
5
- - - --
-
-
-
-
図 -feat7 feat
6
7
- - - --
-
テンプレートデータ概念図
VQ Level
提案手法の概要
以上が登録過程である.次に識別過程の手順について述べる.
■識別過程
取得トラヒックデータに対して前処理・特徴抽出
テンプレート内のコードブックと取得データ間のベクトル量子化誤差を算出
,要素 における特徴量の値を
,コードブック の要素 を # $ と定義すると,入力 における最小誤差 は式 # $ で,取得データとコードブック との量子化誤差 は式 #$ で算出される.
+ # # $$ + … # $
,ベクトル量子化レベルを
ここで,取得データ数を
+
#$
処理 を登録されている全コードブックに対して行い,
の最小値
を算出.
が所属するサービスを結果として出力.
図 に識別過程の流れを,図 に本提案手法の概念図を示す.
Feature data
Time
1
Codebook:Service A~N
Feat1
Feat2 ・・・
feat1-1 feat2-1
3
feat1-3 feat2-3
・・・
・・・
・・・
M
feat1-M feat2-M
min1-1
min1
1
min1-3
・・・
min1-M
feat
1
feat
2
feat
3
feat
4
feat
5
feat
6
feat
7
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
A~N
÷M
Da
Db
Dc
min
Distance of Service A~N
A~N
図 識別過程の流れ
Damin
第 章 ネットワークサービス識別手法の提案
Enrollment
Identification
Traffic data for Enrollment
Traffic data for identification
preprocessing
Time-sampling Extraction
Traffic-feature Extraction
Vector Quantization
Features Match
Template
Result
図 提案手法の流れ
識別器の概要と構成
トラヒックデータからサービスを分類する場合には,パターン認識技術を用いて入力された
データと登録したテンプレートを比較し識別を行う.パターン認識とは入力したパターン #文字画
像や時系列信号,センサーから得た情報など$ が,予め定めたクラスの集合のうちどのクラスに対
応するかを出力する処理である .
入力されたパターンから数値化して抽出した特徴量は,それらを組み合わせた特徴ベクトルと
して扱われる.いま, 個の特徴を用いるとすると特徴ベクトルは以下の式で定義される.
+ # … $
この特徴ベクトルによって張られる空間のことを特徴空間と言い,同じクラスを持つ特徴ベク
トルは特徴空間上でまとまったクラスタとなる.パターン認識によるトラヒックパターン分類シ
ステムを構成する場合,一般的に図 の形式が用いられる.前処理部では得られたトラヒック
データをフロー化したり,ノイズの除去を行うことで特徴を抽出しやすい形に出力する.次に特
徴抽出部では各種特徴量(パケットサイズや到着間隔など)の抽出を行う.最後に、トラヒック
データから抽出された特徴を事前に与えたトラヒックデータから作成したコードブックと比較す
ることで,入力パターンがどのサービスに所属するかを決定する.
識別用コードブックに求められる要件
入力パターン
出力
特徴
抽出部
識別
演算部
サービスA
前処理部
識別辞書
サービスB
サービスC
識別部
図 認識系の構成
以上の処理の中でも、特に特徴抽出部ではトラヒックデータからサービスを適切に分類できる
特徴を抽出する必要があり,この処理は認識系の性能を大きく左右する重要な部分である.その
ため,特徴量の性質や特徴空間での分布を明確にする必要がある.そこで本研究では,トラヒッ
クから取得された連続入力データがサービス分類においてどの程度有効であるかの検討を行った.
検討の具体的な方法については第 章で説明する.
識別用コードブックに求められる要件
通信トラヒックのサービス分類において,識別辞書に求められる要件としては以下のものが挙
げられる.
ペイロードを参照せずにサービスが分類できる.
リアルタイム上での処理が可能である.
処理にかかる負荷が小さい.
取得環境に依存することなくサービスが分類できる.
識別辞書を追加することなく新規のサービスを分類できる.
ここで,識別辞書を追加することなく新規のサービスを分類できるとは,今後ネットワーク上に
発生すると考えられる未知のサービスに対しての要件であり,例えば,既存のトラヒックパター
ンの集合に対して未知サービスのトラヒックデータがどのように推移するかによって推測が可能
だと考えられる.推移パターンによる未知サービス分類の概念図を図 に示す.
第 章 ネットワークサービス識別手法の提案
Traffic Pattern
Pattern-moving List of Service
α
Service A (α⇒β⇒γ)
Service B (β⇒δ)
Service C (δ⇒γ)
・・・
β
S i
Service
X (β⇒δ⇒γ)
(β δ γ)
γ
δ
Service B+C
図 未知サービスの推定
そこで,本研究では以上の要件について検討を行うために,ペイロードを参照しない,単位時
間ごとの特徴量を用いたサービス分類手法に着目する.また,サービス分類に使用する共通的な
コードブックの作成における,コードブック同士の類似度について第 章で検討を行う.
第章
提案手法における特徴量の有効性評価
本研究では,ネットワーク上に混在するサービスのトラヒックを分類する手段として,連続入
力データとパターン認識を用いたネットワークサービス識別手法を提案する.パターン認識にお
ける識別器の構成については 節で述べたが,その中でも特徴抽出部は最終的な識別結果に大
きな影響を及ぼす重要な箇所であり,サービス分類に使用する特徴量はトラヒックごとの特徴を
充分に表していることが望まれる.
しかし,トラヒックパターン分類に関する従来研究では,多くの特徴量が提案されているにも
関わらず,それらの特徴量がトラヒック分類においてどれだけ有効であるかといった検討はあま
り行われていない.そこで本研究では,識別器設計の観点から今回提案した特徴量がどれだけ有
効であるかの検討を行う.
評価対象とするトラヒックデータ
本研究では,ネットワークサービスとして主に提供するデータの内容から音声通信,映像通信,
テキスト通信,ファイル通信,ゲームの 種類を定義し,実際に稼働しているサービスを利用す
ることでトラヒックデータの取得を行う.具体的なトラヒックデータの取得方法については付録
に掲載する.また,サービスに直接関係の無いパケットはノイズとして扱い,データ取得後に
除去を行う.ノイズと判定するパケットの具体的な内容は付録 , に掲載する.サービスの定義と
本研究で使用したトラヒックデータの一覧( 種類)を表 に示す.
ネットワークサービスのトラヒックに表れる特徴を確認するため,トラヒックデータの取得は
一回のサービスの開始∼終了までと定義する.しかし,ストリーミングやオンラインゲームと
いった,ユーザの利用形態によってサービス終了のタイミングが異なるサービスにおいては,一
定の時間経過をサービス終了とみなし,トラヒックデータの取得を行う.本研究で使用したデー
タにおける,サービスの開始から終了までの概要と取得回数について表 に示す.以下,サー
ビス名の表記は表 に従うものとする.
第 章 提案手法における特徴量の有効性評価
表 使用したトラヒックデータ
定義
ネットワークサービス
音声ストリーミング(" と -")
音声通信
音声ストリーミング(" のみ)
ニコニコ動画
映像通信
)',./'/%
0&*(チャット機能使用時)
テキスト通信
10 12
メール送受信
,'''
ファイル通信
ファイル転送(!"")
ファイル転送(3")
種類
オンラインゲーム
表 サービス概要と取得回数
サービス
概要
回数
,'''
クライアントソフトを起動させてから終了させるまで
, ゲーム
クライアントソフトを起動させてから終了させるまで
ファイルのダウンロード開始から終了まで
4 メール受信
一通のメール受信が開始してから終了するまで
5 メール送信
一通のメール送信が開始してから終了するまで
312
クライアントソフトを起動させてから終了させるまで
動画のダウンロード開始から終了まで
! ゲーム クライアントソフトを起動させてから終了させるまで
)'
動画の視聴開始から終了させるまで
クライアントソフトを起動させてから終了させるまで
8 音声ストリーミング(" + -")
音声の聴取開始から終了させるまで
9 音声ストリーミング(")
音声の聴取開始から終了させるまで
ファイルのダウンロード開始から終了まで
動画のダウンロード開始から終了まで
ファイル転送(3")
6 ニコニコ動画
70&*()')
1 ファイル転送(!"")
./'/%
評価対象とするトラヒックデータ
抽出する特徴量
サービス分類に用いる特徴量を評価するため,従来研究で一般的に用いられている特徴量から
連続入力が考慮できるものを選択し,それぞれの特徴量について単位時間当たりの値と統計値の
連続入力データを抽出する.今回検討を行った特徴量を表 に示す.
表 使用した特徴量
# $ 単位時間当たりの総数
パケット数
#$ 総数 %&':';
#$ 平均値 %&':';
パケットサイズ
#$ 標準偏差 %&':';
#$ 総数 ):';
パケットの到着間隔
#$ 平均値 ):';
#$ 標準偏差 ):';
トラヒックデータの特徴
今回取得したサービスにおける,パケットサイズの推移を図 ,,, に示す.縦軸
はパケットサイズであり,横軸は時間を表している.
Peercast
Streaming1
Streaming2
80000
40000
packe
ket size[byte]
packe
ket size[byte]
100000
Bittorrent
Online2
Online1
50000
30000
20000
60000
40000
20000
10000
0
0
0
20
40
60
80
100
120
0
140
図 20
40
60
80
100
120
140
time[sec]
time[sec]
図 サービス におけ
サービス における
パケットサイズの推移
るパケットサイズの推移
図 より,サービス ではサービス開始時からほとんどパケットが発生していないが,)
前後からファイルの転送と接続要求による大量トラヒックのやりとりがあることが分かる.また,
第 章 提案手法における特徴量の有効性評価
1.4e+006
FTP
Nico
Filetrans
Youtube
1e+006
Skype
Msn
12000
10000
packe
ket size[byte]
packe
ket size[byte]
1.2e+006
800000
600000
400000
8000
6000
4000
2000
200000
0
0
0
10
20
30
40
0
50
図 10
20
30
40
50
time[sec]
time[sec]
図 サービス にお
サービス におけるパ
ケットサイズの推移
けるパケットサイズの推移
サービス ,(! ではクライアントソフト起動時のトラヒックに対して実際にゲームをしている最中
のトラヒックは非常に小さいという特徴が表れている.図 より,サービス ,8,9 では動画
や音声を受信する際に要求とデータ転送による一定サイズの連続したパケット発生が見られる.
図 より,サービス ,6 では,パケット数が他のサービスに比べて明らかに多く,サービス 6
の波形も連続的ではなく間隔を空けて大容量のパケットをやり取りしている事が分かる.図 より,サービス 3,7 ではサービス ,,! と同様サービス開始時と比較してテキストデータをやり
取りするチャット部分のパケットサイズが小さいといった特徴がある.
以上のことから,サービスごとに異なる特徴推移の波形が確認出来る.さらにサービス同士の
差異を定量的に判断するため,本研究ではベクトル量子化による特徴量の評価を行う.
クラスタリングによる定量的評価
ベクトル量子化を用いた評価手法
ベクトル量子化アルゴリズムに 9,6<0*''2 を用いてコードブックの作成を行い,コー
ドブックとトラヒックデータの距離を測定する.このとき,距離は式 #$ で表される.ベク
トル量子化とは,入力されたデータを任意の次元のコードブック値で置き換える処理であり,
9,6<0*''2 アルゴリズムは適当な初期コードブックから出発した後で,学習系列に分割条件
と代表点条件を繰り返し適用することで良好なコードブックに収束させるコードブック設計アル
ゴリズムである.なお,ベクトル量子化による評価手法は特徴量の順序を考慮しないため,今回
の検討では表 の特徴量を順番に関係の無い連続入力データとして扱う.ここで,評価プロセ
スの概要を図 に示す.このプロセスによって算出される距離が,同一サービス間では小さく,
異なるサービス間では大きい特徴量はサービスを分類する上で有効であると考えられる.評価を
クラスタリングによる定量的評価
行ったデータについて表 に示す.
コードブック
サービスC
サービスB
サービスA
ベクトル
量子化
トラヒックデータ
距離
算出
特徴量抽出
図 ベクトル量子化による評価プロセス
表 評価データ諸元
評価用
データ数
コードブック
作成用データ数
サービス × 回数
サービス × 回数
ベクトル
量子化レベル
サンプリング
レート
評価結果
入力コードブック間距離の一例として,特徴量にパケット数を用いた場合の結果を表 に示
す.これはサービスのトラヒックデータから抽出した特徴量を同じくサービスのトラヒックデー
タからベクトル量子化によって作成したコードブックと比較した結果を示している.各行は入力
サービスを,各列はコードブックを表し,直交座標は距離を表す.入力に対して最小の距離を算
出したコードブックは下線で表す.
パケット数以外の特徴量に対しても入力コードブック間距離を算出した結果を表 に示す.
これは各特徴量で 節で述べた定量的評価を行ったとき,正しいサービス同士の距離が全サー
ビスの中で何番目に小さかったかを表している.つまり,表 において値が
であるサービス
と特徴量の組み合わせにおいては,実際にサービス分類を行う際も正しく識別することができる
と考えられる.また= は距離の値が全て同値であり比較が不可能であったことを示す.ここで,
特徴量の番号は表 に従うものとする
第 章 提案手法における特徴量の有効性評価
表 入力
サービス
A
B
C
D
E
F
G
H
I
J
K
L
M
N
A
7.6
0.998
31.9
9.49
0.516
2.e-1
5.e+3
0.735
2.88
0.46
1.09
0.838
2.e+5
43
B
235
0.151
380
13.7
2.44
2.e-2
4.e+4
9.85
18.7
0.433
0.198
0.744
4.e+5
456
入力サービス−コードブック間における距離 特徴量パケット数
C
164
12.5
1.84
7.91
50.7
2.e+1
4.e+4
21.7
18.6
13.3
7.4
17
4.e+5
20.6
D
E
150
484
0.317
16.3
6.73 2260
404
0.503
5.81 0.0763
1.e-1 2.e-2
4.e+4 5.e+4
4.88
23.8
6.69
80.8
0.39
1.56
3.11
2.8
1.37
3.22
4.e+5 4.e+5
16.9 1710
表 0>):,
F
570
26.8
2790
594
0.962
4.e-3
5.e+4
27.9
117
1.81
4.55
7.68
4.e+5
2030
コードブック
G
H
26.4
52.8
7.92
3.69
78.4
70.4
107
51.7
18.1
4.52
7.e-1 4.e-2
202 2.e+4
1.17 0.794
16.3
7.62
1.59 0.119
3.45 0.439
7.09
1.04
2.e+4 3.e+5
23.5
88.9
I
120
0.581
150
4.18
0.594
1.e-1
3.e+4
3.29
2.64
0.304
0.459
0.416
4.e+5
110
J
K
139
226
5.66
3.76
133
297
102
58.8
1.22 0.728
3.e-2 1.e-2
3.e+4 4.e+4
3.66
9.16
13.2
17.7
0.36
0.102
0.459 0.0339
1.78 0.543
4.e+5 4.e+5
60.7
378
正しいサービス同士の距離を比較した結果
3'/
# $
#$
#$
#$
#$
#$
#$
?
=
4?4
5?5
=
?
,?,
3?3
6?6
!?!
?
7?7
8?8
=
=
=
=
9?9
1?1
?
L
313
0.89
999
67.9
1.17
5.e-3
5.e+4
14.4
34.1
0.73
0.686
0.69
4.e+5
917
M
94.1
5.01
311
65.6
93.6
2.e+0
4.e+2
5.36
75.1
2.66
30.7
31.7
271
49.3
N
133
0.415
4.58
1.72
1.91
2.e-1
4.e+4
3.89
8.53
0.182
0.859
2.05
4.e+5
3.96
クラスタリングによる定量的評価
考察
表 より,特徴量にパケット数を用いた場合はサービス !,9 を除く 種類のサービスに対
して正しいサービス同士を比較したときの距離が最小となった.特にサービス ,1,の場合は
異なるサービスとの距離と比べて正しいサービス同士の距離が小さく,特徴量にパケット数を用
いることがこれらのサービスを分類する場合に有効だと考えられる.また,サービス ,3,,7
の場合は距離が小さいコードブックが正しいサービス以外にも複数出現するという結果が得られ
た.これは,コードブック同士が類似しているため距離の算出結果が近いものになったと考えら
れる.また,サービス !,9 においては距離の小さいコードブックが複数存在し,かつ正しいサー
ビス同士が最小距離とはならなかった.こういったサービスに対しては特徴量が十分にサービス
の特性を表せていないため誤識別をする可能性が高く,あまりサービス分類には適さない特徴量
だということが確認できる.
表 より,特徴量 #1$ と #2$ は距離が最小であるサービスにあまり違いが無く, つの特徴
量の有効性はほぼ同じだと考えられる.また,特徴量(1),
(2)はサービス 9 に適さないこと
が分かるが,特徴量(3),(4)を用いることで距離を最小にすることができる.しかし特徴量
(5),(6),(7)(パケット到着間隔)を用いた場合はほとんどのサービスについて正しくない
コードブックが最小となっており,これらの特徴量はサービスごとの特徴を正しく表せていない.
これは,サービスの特性に対して適切なベクトル量子化レベルやサンプリングレートを設定でき
ていないためだと考えられ,パラメータの適切な値については今後検討する必要がある.
以上より,入力サービスによっては正解ではないコードブックに対しても小さい距離が算出さ
れる場合があることが分かる.そこで本研究では,サービス区分(音声通信,映像通信,テキス
ト通信,ファイル通信,オンラインゲーム)が同種であり,かつコードブック同士が類似している
組み合わせを統合することによるコードブック再作成手法を提案する.サービス同士の類似性に
よるコードブック再作成手法については第 章で検討を行った. を
第章
ネットワークサービス間の類似度を用
いたコードブック作成手法の検討
節で述べた,本研究におけるサービス区分(./'/%,ニコニコ動画,12 など)は
コードブック間の類似性を考慮しておらず,類似度の高い異なるサービス同士が誤識別される恐
れがある.また,ネットワークサービス識別手法における識別用コードブックはお互いが十分に
分離されていることが望まれる.そこで本章では,ネットワークサービス同士の類似度を評価し
コードブック再作成手法の提案を行う.
類似度の評価手法
コードブック同士の類似度評価手法として本研究では,クラス間分散とクラス内分散の比を用
いる .これは2クラス間の分離度を評価する手法であり,一般的には,パターン認識におい
てある特徴量が クラスをどれだけ分離出来ているかの評価に用いる.ここで,クラス内分散
とクラス間分散
はそれぞれ式 # $,式 #$ で表される.
+
$ # $
¾
#
+ #
クラス
$ #
$
に属するパターンの集合:
に含まれるパターン数:
平均ベクトル:
全パターン数:
全パターンの平均ベクトル:
# $
#$
第 章 ネットワークサービス間の類似度を用いたコードブック作成手法の検討
クラス内分散はクラスの平均的な広がりを表し,クラス間分散はクラス間の広がりを表してお
り,クラス内分散とクラス間分散の比
分散の概要を図 に示す.
は式 #$ と表せる.ここで,クラス内分散とクラス間
¾
¾
Class A
クラス内分散
Class B
クラス間分散
図 より,
図 クラス内分散とクラス間分散
が大きい程クラス間が分離されていると判定できる.そこで,今回使用した
サービス同士に対して分散比
の値を算出した.今回使用したデータを表 に,コードブック
間の分散比算出結果を図 ,図 に示す.
表 コードブック
作成用データ数
使用したデータ諸元
(サービス)× (回数)
ベクトル
量子化レベル
サンプリング
レート
!""#
ファイル転送 $,ファイル転送 $$
メール送信,受信
サービス
種類
#%",&'()*+ 音声ストリーミング $,-$,$
ニコニコ動画,.!/ /0
"+
オンラインゲーム 類似度の評価手法
図 分散比の相対値マトリクス 数値
図 分散比の相対値マトリクス グラフ
図 は, を最大値とした場合の分散比の相対的な大きさをセル内部の帯の長さで表してい
る.図 より,特に分散比が小さい組み合わせは サービス ,サービス サービス である.
ービス ,サ
,サービス 第 章 ネットワークサービス間の類似度を用いたコードブック作成手法の検討
#ファイル通信:ファイル転送$,
サービス #テキスト通信:チャット$,サービス #テキスト通信:メール送受信$ サ
ービス #音声通信:音声ストリーミング$,であり,これら 種類のサービス区分に対して
さらに,この中でサービス区分が同じものは サービス コードブックの再作成を行う.
類似度に基づくコードブックの再作成
類似度が高いと判定されたサービス組み合わせに対して.以下の手順でコードブックの再作成
を行う.
サービス組み合わせ{(,}から新サービス を定義
サービス ,サービス , のコードブックにおける学習データ ,% を用意
サービス ,, のコードブックをテンプレートから棄却
学習データに ,% の全データを使用してサービス のコードブックを作成
テンプレートにサービス のコードブックを追加
本研究で再作成を行ったサービスを表 に示す.
表 ファイル通信
テキスト通信
音声通信
再定義後のサービス
ファイル転送
{3"( ファイル転送}
メール{送信( 受信}
チャット{12(0&*)'}
音声ストリーミング
{"<-","}
コードブック再作成後の識別率評価実験
コードブックの評価実験として,コードブック再作成を行う前と後で識別率の比較を行う.実
験諸元は 節と同様であり,識別率は式 #$ と定義する.
識別率 正しく識別されたサービス数
× 試行回数
コードブック再作成後の識別率評価実験
実験結果
コードブック再作成前後の識別率を表 に示す.なお 節より,用いる特徴量はパケット
の到着間隔を除いた 種類とした.また,特徴量の番号は表 に従うものとする
表 コードブック再作成前後の識別率
特徴量
(1)
(2)
(3)
(4)
%
%
%
%
%
%
%
%
再作成前
再作成後
考察
表 より,コードブック再作成前後で識別率が下がった特徴量が存在する.これは,コード
ブックの再作成で,コードブック同士が類似しており,かつサービス区分が共通のものを定義し
なおしたが,異なるサービス区分を持つコードブックにも類似性の高いものが存在するため,そ
のサービスが誤識別を引き起こすことで識別率を下げたからだと考えられる.
また識別率が上がった原因は図 のように,入力されたデータに対して,区分が共通であり
類似性が高いコードブックに誤識別していた場合が改善されたためだと考えられる.そこで,再
作成前後の識別結果から特にサービス区分に対する結果に着目すると,ほぼ全てのサービス区分
において,正しいサービスが出力されていることが確認できた.
入力
識別結果
入力
識別結果
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
コードブック再作成前の
識別結果
図 コードブック再作成後の
識別結果
再作成前後の識別結果
第章
トラヒックデータ取得環境と識別結果
取得環境に依存しないコードブックの作成
本研究で提案するネットワークサービスの識別手法に用いる識別用コードブックに求められる
要件として,取得環境に依存しないことが挙げられる.そこで,取得環境の異なる複数のトラヒッ
クデータからコードブックを作成することで,環境の変化による識別率の影響を確認する.
コードブックの作成手法による識別率比較実験
本研究では,トラヒックの取得環境に依存しないコードブック作成手法として,学習させるデー
タベースの統合を行う.これは,多様な環境におけるサービスの挙動をコードブックに学習させ
ることによって,汎用的なテンプレートを作成するという考えに基づいており,従来のコードブッ
ク作成手法との比較実験を行うことで識別率による手法の評価を行う.
作成手法1:単一の環境によるコードブック
これは従来のコードブック作成手法であり,本章では時期,場所を変化させた 種類のトラヒッ
クデータ #環境 (%()(@$ を用意し,環境 から作成したコードブックを用いてそれぞれの環境にお
けるデータの識別を行う.つまり,環境 のデータを識別する場合は学習用データと識別用デー
タにおけるトラヒック取得環境が等しいが,環境 %∼) を識別する場合にはサービスパターンを
学習した時期,場所ともに異なるデータを識別することとなる.単一の環境から作成したコード
ブックを用いる識別の概要図を図 に示す.
第 章 トラヒックデータ取得環境と識別結果
環境(時期・場所)の異なるデータ
環境aの
トラヒックデータ
出力
コードブック
(環境a)
環境bの
トラヒックデータ
サービスC
サービスB
サービスA
サービスA
環境cの
トラヒックデータ
出力
識別率の
比較
出力
識別
環境dの
トラヒックデータ
トラ
ックデ タ
出力
図 単一の環境によるコードブック作成
作成手法2:複数の環境によるコードブック
これは,学習させるデータベースを統合させることによって,環境依存を抑制する手法である.
具体的には,本研究で用いる 種類の環境のトラヒックデータのうち, 種類の環境におけるデー
タから識別用コードブックを作成する.次に残りの
種類のデータに対して,複数データを統合
したコードブックで識別を行う.つまり,学習したデータのトラヒック取得環境と識別用データ
のトラヒック取得環境は常に異なるという条件の下で評価を行う.複数の環境から作成したコー
ドブックを用いる識別の概要図を図 に示す.
識別
環境aの
トラヒックデータ
コードブック
(環境b,c,d)
出力
環境bの
トラヒックデータ
コードブック
(環境a,c,d)
出力
環境cの
トラヒックデータ
コードブック
(環境a,b,d)
出力
環境dの
トラ
トラヒックデータ
ックデ タ
コードブック
(環境a,b,c)
(環境 b )
出力
図 複数の環境によるコードブック作成
識別率の
比較
コードブックの作成手法による識別率比較実験
識別率の評価
評価データ諸元を表 に,それぞれの作成手法における識別結果を表 ,表 に示す.
表 使用したデータ諸元
コードブック
作成手法 :1(サービス)× (回数)× (環境)
作成用データ数
作成手法 :1(サービス)× (回数)× (環境)
ベクトル
量子化レベル
サンプリング
レート
!""# ,ファイル転送 $$
メール送信,受信
サービス
ニコニコ動画
1 種類
音声ストリーミング $,-$
.!/ /0
表 環境 + のコードブックに対する入力データの識別率
入力
表 特徴量
# $
#$
#$
#$
%
%
%
%
%
%
%
%
%
)
%
%
%
%
@
%
%
%
%
複数環境のコードブックに対する入力データの識別率
入力:コードブック
特徴量
# $
#$
#$
#$
:%)@
%
%
%
%
%:)@
%
%
%
%
):%@
%
%
%
%
@:%)
%
%
%
%
第 章 トラヒックデータ取得環境と識別結果
考察
表 より,環境の変化によって識別率が大幅に減少していることが分かる.これは,特徴量の
抽出時に速度や 性能などの環境の影響を受けたデータを用いていたり,コードブックの作成
時に環境に依存しているデータを吸収出来ていないためだと考えられる.
表 より,複数の環境から作成したコードブックを用いることで,単一の環境から作成した
コードブックよりも識別率を向上させることが確認出来る.これは,コードブック作成に用いる
データ量が増えたことで,サービスごとの挙動を多くのパターンで学習することが出来たためだ
と考えられる.ただし,まだ十分な精度は得られておらず,ネットワーク使用環境についても様々
なものがあるため,今後,各環境に共通する成分を抽出し,比較する必要があると考えられる.
第章
結論
まとめ
本研究ではトラヒックの連続入力データとパターン認識を用いた,ネットワーク上でのサービ
スを分類する手法を提案した.本提案方式は,従来の手法と比較して
フローの終了を待つ必要が無い
処理量を軽減することが可能
サービス毎に得られるパターン数の増加
パケットの推移情報による,未知サービスの推測が可能
といった点で有効だと考えられる.そこで本手法で用いるコードブック #識別辞書$ の作成手法に
着目し,検討を進めた.
■特徴量の有効性評価
トラヒックデータの特徴量とそれらの定量的な評価手法について述べ,トラヒック分類で一般
的に用いられている特徴量がサービスに対してどの程度有効に識別出来ているかについて検討を
行った.その結果,今回検討した特徴量はパケットの到着間隔を除いていずれかのサービスの
コードブック間距離を最小とすることを確認し,トラヒックのサービス分類に今回検討した特徴
量が有効であることを示した.
■類似度を用いたコードブックの再作成手法の評価
ネットワークサービス間の類似度から識別用コードブックを作成する手法について述べ,サー
ビス区分の観点からコードブックの再作成と再作成前後の識別率比較実験を行った.その結果,
再定義したサービス区分に対してもこれまでのデータが正しく識別されるという結果が得られ,
識別用コードブック作成手法の有効性を示した.
■トラヒックデータ取得環境に関する検討
さらに,識別用コードブックに求められる要件から,トラヒック取得条件を変化させた場合の
識別率の変化について検討を行ったところ,環境の変化によって識別率が大きく低下することが
第 章 結論
分かった.そこで,環境への依存性を抑える新たなコードブック作成手法を提案したところ,識
別率を向上させることに成功した.
今後の課題
今後の課題を以下に述べる.
特徴量の統合に関する検討
本研究では,トラヒックデータから
次元の特徴量を複数抽出することでコードブックの作
成を行っているが,これらの特徴量を多次元的に組み合わせることで特徴空間が拡張し,多
くのパターンを分類することが可能となる.しかし,その場合学習に必要となるデータ量も
増大するため,適切な学習データ数についても検討が必要となる.
環境に依存しないコードブック作成手法の検討
ネットワークの使用状況には様々なパターンが考えられるため,環境ごとに作成したコード
ブックに対して参照回数や量子化誤差の値といった詳細なパラメータを比較することで,環境
に依存する成分の検討とコードブックの改良 #冗長なデータを削除など$ を行う必要がある.
サービス識別アルゴリズムの検討
本研究では,入力されたデータに対して全コードブックとの距離を測定し,最小の距離を持
つコードブックを出力しており,トラヒックの時系列情報は用いていない.そこでトラヒッ
クの時間的な変化を考慮するために,入力されたデータの推移をコードブックの推移で表現
することで,多くのパターンのトラヒックデータに対応することが可能だと考えられる.
謝辞
本研究を進めるにあたり,終始懇切丁寧な御指導,御助言を賜りました小松尚久教授に心から
深く感謝の意を表します.また,共同研究者として様々な御意見を賜りました "" サービスイ
ンテグレーション基盤研究所の岩下基様,辻野雅之様,黒沢健様,竹下恵様,そして,日頃から討
論にご参加いただいた,共同研究者である小松研究室研究員の市野将嗣氏,博士課程の星健太郎
氏,学部 年の前田浩明氏をはじめ小松研究室の皆様に深く感謝いたします.
年 月 日
山下 剛史
参考文献
竹下隆史,村山公保,荒井透,苅田幸雄,“マスタリング ": 入門第 版(”オーム社(
.
“ A-" B1,5-0,”''*?::
2:2;':*'/;%.
1/ ( ) ;( 6C& 1 D @ !& 19>&( “1/
;' @ & E 0';21@ @(” *)@2 E @ B05F
0&;*/; '' ")2 @ 0&';( ** ( 1) 32(01(,9&(''(18(41( --)("0& @ 04'(
“)'> "Æ) 1/;' E; ' 0*' ,)%(” (
** ( >;% " 82,,@,, ( ))C&( @ 1 3/' “ ** @&2 G/' @2H,”
(
1 @ 8 *2 “" @ ' ))/' @'I)' E ' **
)',”
(
00( A0*')) @ 42( “))/'( )% ' @'I)' E 'Æ) /2 **)' 2'/(” )@2 E ' J? ' ''
)E) @ @ %( ** ( 1& “I',”''*?::I'/)E2':.
八木清之介( 和泉勇治( 角田裕( 根元義章( “ネットワークアプリケーション弁別のためのペ
イロード長の遷移パタンの評価方式に関する一検討(” 電子情報通信学会技術研究報告 "1(
テレコミュニケーションマネジメント( ** ( D 6); @ 6 ( “E;) >/' E ;) 2 2'; E
& **)' @'I)'(” )@2 E ' 10" ? ''
;( 0K@ @ 6;'2( “ *;& *E;) );* E I>
;) 2 2'; E *)') 'Æ) L )I)'(”1 06A11
;*/' ;;/)' -> ( >(( ** ( 7 ( ( @GG( @ K/( “A @'I)' E **)' /2
''') %> &(” )@2 E ' 555 69A,5A1 ’? 6%
");;/)' E) ( ** ( 4) 1 @ 4K/>(“'' 'Æ) )I)' /2 %& & ')
M/(”0615 "-0 E;) 5>/' -> ( >( ( **( " /@( 1( @ 0 6/( “,& / ' E '' 'Æ) )I
)'(” / ' ( 555 ")' ( > ( ( **
( 7 参考文献
市野将嗣( 坂野鋭( 小松尚久“核非線形相互部分空間法による話者認識
(
(”信学論 #4$(>7
4( ( ** ( “(”''*?::
2
原島博,“画像情報圧縮,”オーム社, .
石井健太郎( 上田修功( 前田英作( 村瀬洋( “わかりやすいパターン認識(”オーム社( .9@(,/N @ -16&(“ 2'; E D)' O/'N 42(”555
";;/(DA1( (**
( 竹下恵, “パケットキャプチャ入門―9 アナライザ 活用術(”リックテレコ
ム( .
竹下恵,“パケットキャプチャ実践技術― によるパケット解析応用編(” リックテ
レコム( 付録 パケットキャプチャリング
使用した スペック
今回使用した を以下にまとめる.
表 使用 のスペック
'% ;*/'? 0& DA D630,
B
' '/;1 6!N
1 1;&
1,
A0
@ F
ブラウザ
1)E' '' 5P* D 表 使用 のスペック
'% ;*/'? ) 9'J ' 33
B
' 4/ 6!N
1 1;&
6,
A0
@ F
ブラウザ
1)E' '' 5P* D 表 使用 のスペック
4'* ;*/'? 4 4150A B
' '/; 4 6!N
1 1;&
6,
A0
@ F !; @' 0
ブラウザ
A*:
D: 付録 パケットキャプチャリング
本研究では,パケットのキャプチャリングにおいて を用いている. と
は,6@ ;% が開発した ' *') &N であり, 以上のプロトコル解析機
能や 以上の @*& I' が特徴となっている. におけるパケットキャプチャ
リングは,BF では %*)*,@ では )* を用いて行っている.
■ の設定
のキャプチャリング設定について表 に示す.また,キャ
プチャリング時のスクリーンショットを図 に示す.
表 2"*+"' のキャプチャリング設定
'E)? 9)
*'/
,/C N? ;2%&'#$
*'/ 3#$
3? 保存ファイル
B*@' ' E *)' ';
4*& A*'
/';') )2 > )*'/
!@ )*'/ E @2
; -/'
5% 1 ; /'
5% '*' ; /'
ここで,*'/ における ,/C N は,キャプチャを行っている際にパケットを 4* した
場合,より大きな値に変更する必要がある.
キャプチャリング手順
キャプチャリング手順について,,'"' およびストリーミングの場合について示す.
,'"' の場合
3 などの常駐ソフトを終了
を起動し,キャプチャ開始
オフラインコンテンツや履歴,過去のダウンロードファイルなどの削除
キャプチャ数 の状態で,'' ファイルを開く
ファイルのダウンロードが完了したら ,'"' を終了
キャプチャ終了
ストリーミングの場合
3 などの常駐ソフトを終了
研究室内でのキャプチャリング環境
図 2"*+"' によるキャプチャリング時のスクリーンショット
を起動し,キャプチャ開始
オフラインコンテンツや履歴の削除
キャプチャ数 の状態で,任意のストリーミングファイル B-9 を開く
任意時間経過後にキャプチャ終了
ストリーミングを @ 1@ & で聴く場合,プレイヤー起動時に不要なパケットが多
く流れるため,しばらく放置してパケットが流れないことを確認してからキャプチャを行う.他
のサービスについて補助ツールを使用する場合,そのサービスを利用する上で必要な挙動の場合
#P 12 クライアントの起動・終了$ はそのサービスのパケットとしてキャプチャする.
また,そのサービスに不要な挙動の場合 #P ' 補助クライアントのチャンネル更新$ は
キャプチャしない.
研究室内でのキャプチャリング環境
研究室内のネットワークにおけるキャプチャリング環境を図 に示す.
付録 パケットキャプチャリング
図 研究室内のネットワークにおけるキャプチャリング環境
½ は,内部ネットワークと外部ネットワーク間,図 の ¾ は,内部クラ
ここで,図 の ¿ は,内部サーバ郡とルータ間である.これら 箇所に !B, を
イアントとルータ間,図 の 用いることで各区間を流れるパケットのキャプチャリングを行っている.
付録 ノイズフィルタリング
本研究で用いたトラヒックデータにおけるノイズフィルタの一例を以下に示す .
全サービス共通 #自身 に関わらないパケットの除去$
*@@ ++ 自身の アドレス
各サービスの処理
,'"'
#Q% RR Q')**' ++ RR Q')**' ++ RR Q')**' ++ RR
Q')**' ++ RR Q/@**' ++ RR Q')**' ++ $
A 6;
#@ *) ++ *@' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ *) ++ *@' ++ $
3"
#*) ++ *@' ++ *) ++ *@' ++ $
メール受信 #A のポート番号$
Q#Q#')**' ++ $ RR Q@$
メール送信 #01" のポート番号$
Q#Q#')**' ++ $ RR Q@$
12
Q#Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*) ++ : $
RR Q#*@' ++ : $ RR Q#*) ++ : $ RR Q#*@' ++
: $ RR Q#*) ++ : $ RR Q#*@' ++ : $ RR
Q#*) ++
:$ RR Q#*@' ++
:$ RR Q#*) ++
:$ RR Q#*@' ++ :$$
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++
$ RR Q#*@' ++
$ RR Q#*) ++
$
RR Q#*@' ++ $ RR Q#')**' ++ ')**' ++ #/@*
付録 , ノイズフィルタリング
RR Q@$$$
ニコニコ動画 #全パケットを確認して不要部を除去$
Q#Q@ RR Q#*) ++ RR Q#*) ++
:$ RR Q#*@' ++ :$ RR Q#*@' ++
:$
:$ RR Q#*)
++ :$ RR Q#*@' ++ :$ RR Q#*) ++
:$ RR Q#*@' ++
:$ RR Q#*) ++ : $
RR Q#*@' ++ : $ RR Q#*) ++ :$ RR Q#*@' ++
:$ RR Q#*) ++ :$ RR Q#*@' ++ :$
RR Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*) ++
:$ RR Q#*@' ++ :$ RR Q#*) ++ :$ RR Q#*@'
++ :$$
A 6;
#@ ')**' ++ ')**' ++ ')**' ++ ')**' ++ *) ++ : *@' ++ :$
)'
#')**' ++ ')**' ++ ')**' ++ $
0&*)'
Q#* ')**' ++
')**' ++ /@**' ++ /@**' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ ')**'
++ #*) ++ $ #*@' ++ $$
0';2
#;@ *& に関するもの #スタイルシートなど$,またこのサービスのみに出現する
!"" や 2E ファイル,関係ない 40 を除去$
Q#Q#*) ++ :$ RR Q#*@' ++ :$$
0';2
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++ :$
RR Q#*@' ++ :$ RR Q#*) ++ :$ RR Q#*@' ++
:$ RR Q#*) ++ :$ RR Q#*@' ++ :$
RR Q#*) ++ :$ RR Q#*@' ++ :$ RR Q#*) ++
$ RR Q#*@' ++ $$
!"" ファイル転送 #;2'2E も除去$
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++
$ RR Q#*@' ++ $$
./"/%
Q#Q@ RR Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*)
++ : $ RR Q#*@' ++ : $ RR Q#*) ++ : $ RR
Q#*@' ++ : $$
ここに示したノイズフィルタは,そのサービスのサーバのアドレスに依存して変化するものもあ
るため,適宜変更する必要がある.また,0&* および ,'"' については,処理が定まらな
いため,明らかに不要な部分のみ除去している.これらについて,現在判明している不要なパケッ
トを以下に示す.
)*? ')**' ++
*;*? ')**' ++ '%@2;? /@**' ++ '%? ')**' ++ ;)E'@? ')**' ++ P
? ')**' ++ ''? ')**' ++ ;M? ')**' ++ また,,'"' について," 以外で現在判明している必要なプロトコルを以下に示す.
004
61
1
B4
"1
,0
関連業績
【 学会発表 】
トラヒックパターンに着目したサービス分類に関する一検討
年 月 電子情報通信学会 ネットワークシステム研究会
山下 剛史,星 健太郎,市野 将嗣,小松 尚久,竹下 恵,辻野 雅之
トラヒックの時系列データを用いたサービス分類手法に関する一検討
年
月 電子情報通信学会 コミュニケーションクオリティ研究会
山下 剛史,星 健太郎,市野 将嗣,小松 尚久,竹下 恵,辻野 雅之
トラヒックの時系列データを用いたサービス分類における特徴量に関する一検討
年 月 電子情報通信学会 総合大会 #発表予定$
前田 浩明,山下 剛史,星 健太郎,市野 将嗣,小松 尚久,竹下 恵,辻野 雅之
【 特許 】
通信トラヒック分類方法、装置、およびプログラム
特願 号
社団法人 電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
IEICE Technical Report
トラヒックパターンに着目したサービス分類に関する一検討
山下 剛史†
星 健太郎†
竹下 恵‡
市野 将嗣†
小松 尚久†
辻野 雅之‡
†早稲田大学 理工学術院 基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1
‡日本電信電話株式会社 NTT サービスインテグレーション基盤研究所
〒180-8585 東京都武蔵野市緑町 3-9-11
E-mail:
†{yamashita,kentaro,ichino,komatsu}@kom.comm.waseda.ac.jp
‡{ takeshita.kei, tsujino.masayuki}@lab.ntt.co.jp
あらまし 近年,インターネットの急速な普及・高速化に伴い,通信トラヒックは急増している.そこで,サービ
ス毎に区別した品質提供を実施する為にも,ネットワーク管理者はサービス毎の通信トラヒック量を識別すること
が望ましい.このため,筆者らは通信トラヒックから得られる特徴量の時系列データに着目し,分析を行うことで
通信トラヒックをサービス毎に分類する技術について検討している.本稿ではこの技術のコンセプトを説明すると
共に,パターン認識を用いたサービス分類においてどの様な特徴量を用いることがアプリケーション分類に有効か
検討を行う.
キーワード トラヒック,QoS,時系列,サービス分類,パターン認識
A study on service classification of traffic pattern
Takeshi YAMASHITA†
Kentaro HOSHI†
Masatsugu ICHINO†
Kei TAKESHITA‡
Masayuki TSUJINO‡
Naohisa KOMATSU†
†Graduate school of Fundamental Sience and Engineering, Waseda University
3-4-1 Okubo, Shinjuku-ku, Tokyo, 169-8555 Japan
‡NTT Service Integration Laboratories, NTT Corporation
3-9-11 Midori-cho, Musashino-shi, Tokyo, 180-8585 Japan
E-mail:
†{yamashita,kentaro,ichino,komatsu}@kom.comm.waseda.ac.jp
‡{ takeshita.kei, tsujino.masayuki}@lab.ntt.co.jp
Abstract Network Traffic has increased rapidly by spreading high-speed internet. In order to offer quality of each service,
network administrators should identify the amount of traffic. Therefore, we study a method that classifies the traffic data into
service by using time-series traffic data. In this paper, we explain the concept of the method, and suggest which feature is
effective to classify the traffic data using pattern recognition.
Keyword traffic,QoS,time-series traffic data,service classification,pattern recognition
1. ま え が き
インターネットの急速な普及・高速化により,通信
として,サービス毎に区別して品質を提供するという
形態が有力である.これは,重要性の高いサービスや
トラヒックが急増すると共に動画や音声,ファイル転
品質要求の厳しいサービスを優先的に転送することで,
送に関するものなどネットワーク上で利用されるサー
限られた帯域をうまく使っていくという考えに基づい
ビスの多様化が進んでいる.また,技術が成熟化する
ている.サービス毎に区別した品質提供を行う場合,
とともに,新たな付加価値としてインターネットの通
ネットワーク管理者はサービス毎のトラヒック管理に
信品質を高めることが期待されている.そこで,低コ
基づく品質監視・品質設計を行うため,サービス毎の
ストでユーザの要求に叶うよう通信品質を高める形態
通信トラヒック量を把握しておくことが望ましい.こ
Copyright ©2009 by
IEICE
のため,トラヒック情報をサービス毎に分類する技術
に対してサービス毎にどのような特徴が表れているか
が必要だと考えられる.
の検討を行う.最後に 5 章では本稿のまとめと今後の
従来の研究において,トラヒックにおけるサービス
課題について述べる.
分類にはその通信が使用しているポート番号が用いら
れ て き た [1-2]. こ れ は , 多 く の サ ー ビ ス で は 通 信 に 使
2. 識 別 器 の 設 計
用 す る ポ ー ト 番 号 が Well-known ポ ー ト と し て 予 め 固
フローの統計情報を利用した手法は予め登録した
定されている為である.そのため,ポート番号をヘッ
サービスのテンプレートと比較し識別するため,サー
ダから参照することで,そのデータがどのサービスか
ビス分類を行うためにはパターン認識技術が必要とな
ら 送 信 さ れ た も の か を 確 認 す る こ と が 出 来 る .し か し ,
る.
P2P を は じ め と し た 近 年 問 題 と な っ て い る サ ー ビ ス に
パ タ ー ン 認 識 と は 入 力 し た パ タ ー ン (文 字 画 像 や 時
は使用するポート番号をランダムに決定したり,意図
系 列 信 号 ,セ ン サ ー か ら 得 た 情 報 な ど )が ,予 め 定 め た
的にポート番号を変更するものが存在する.その為,
クラスの集合のうちどのクラスに対応するかを出力す
ポート番号による分類は信頼性に欠ける可能性がある.
る 処 理 で あ る [9].入 力 さ れ た パ タ ー ン か ら は 様 々 な 特
ポート番号を用いないサービス分類手法としては,
徴が数値として抽出され,それらを組とした特徴ベク
パケットからヘッダ部分を除いたデータであるペイロ
トルが識別に用いられる.いま d 個の特徴を用いると
ー ド を 利 用 し た 手 法 が 提 案 さ れ て い る [3].こ の 手 法 で
す る と , 特 徴 ベ ク ト ル は 式 (1)で 定 義 さ れ る .
は,サービス特有の文字列から生成したビットパタン
(シグネチャ)をパターンマッチングすることで不正
r
x = ( x1 , x 2 , … , x d ) t
(1)
なサービスの早期発見を行う.しかし,ペイロード情
この特徴ベクトルによって張られる空間のことを
報を参照することはプライバシーやセキュリティの問
特徴空間と言い,同じクラスを持つ特徴ベクトルは特
題から利用シーンが限られる恐れがあり,また処理に
徴空間上でまとまったクラスターとなる.パターン認
かかる負荷も大きくなるということが問題点として挙
識によるトラヒックパターン分類システムを構成する
げられる.
場合,一般的に図 1 の形式が用いられる.
その他の手法として,フローにおけるパケットの到
着間隔やパケットサイズなどの統計情報に基づいた手
法 が 提 案 さ れ て い る [4-6].フ ロ ー の 統 計 情 報 を 用 い た
入力パターン
出力
特徴
抽出部
識別
演算部
手法は,計測されたトラヒックの挙動から抽出した統
計値を用いるため,ポート番号やペイロード情報を利
用せずにサービスを分類出来る.そこで本研究ではフ
ローの統計情報に着目した.
サービスA
前処理部
識別辞書
サービスB
サービスC
フローの統計情報としてはフロー中のパケットサ
イズ,フローサイズ,パケット数といった値の平均値
な ど を 用 い た サ ー ビ ス 識 別 が 行 わ れ て い る [7].つ ま り ,
連続的な入力が仮定できるにも関わらずトラヒックの
識別部
図 1
認識系の構成
前処理部では得られたトラヒックデータをフロー
時間的な変化を一まとめにして扱っている研究が多い.
化したり,ノイズを除去することで特徴を抽出しやす
そのため,トラヒックの時間的な変化に着目すること
い形に出力する.次に特徴抽出部では,識別に用いる
によりさらにサービス分類性能が向上する可能性があ
特徴としてパケットサイズやフロー長といった統計情
る.例えばバイオメトリクスでは,発話時における唇
報の算出を行う.この特徴を,事前に作成した識別辞
動作個人認証において複数のアルゴリズムが提案され
書と比較することで,入力パターンがどのサービスに
ているが,時系列情報を使用しないアルゴリズムと使
所属するかを決定する.
用するものを比較した際,後者のアルゴリズムの方が
その中でも特徴抽出では,まず入力パターンからサ
より高い精度で認証が可能であることが報告がされて
ービスを適切に分類できるような特徴を抽出する必要
い る [8].
があり,この処理は認識性能を大きく左右する重要な
そこで本稿では,トラヒックから得られる特徴量の
ものである.しかしサービスを分類するために適切で
時系列データに着目し,識別器設計の観点からどの様
あるかどうかについては必ずしも十分な検討が行われ
な特徴量を用いることがトラヒックのサービス分類に
ておらず,また,識別部の設計のためにも特徴量の性
有効かを示す.以下 2 章ではパターン認識を用いたト
質 や ,特 徴 空 間 で の 分 布 を 明 確 に 記 述 す る 必 要 が あ る .
ラヒックパターン分類手法について述べる.次に 3 章
ではフローの統計情報を用いた関連研究について説明
する.また 4 章では実際に取得したトラヒックデータ
3. 関 連 研 究
4.1. キャプチャリング環 境
フローの統計情報を利用したサービス分類手法は
現 在 様 々 な 研 究 が 行 わ れ て い る [4-6].そ れ ら で 利 用 し
ている代表的な特徴量としては以下のものが挙げられ
る.
(1) パケット到着間隔
イントラネット
(2) パケット長
(3) パケット数
(4) 1 フローの総バイト数
(5) 1 フローの持続時間
な お こ こ で 言 う フ ロ ー の 定 義 と は ,同 一 の 送 受 信 IP
内部ネットワーク
ミラーリング
アドレス,送受信ポート番号,プロトコルの情報を持
図 2
つ パ ケ ッ ト の 集 ま り と す る . ま た ( 1 )( 2 )( 3 ) の
特徴量はフロー単位の平均,分散,最大値,最小値な
どが用いられている.
トラヒック収集環境
今回使用したデータはイントラネットとインター
ネットの間で流れるトラヒックをキャプチャリングし
文 献 [4] は 通 信 開 始 時 の パ ケ ッ ト 長 の 遷 移 を 特 徴 量
たものである.図 2 にトラヒック収集環境を示す.ゲ
と し て 用 い ,学 習 ア ル ゴ リ ズ ム に oLVQ1 を 使 用 し た 手
ートウェイを経由してイントラネット外部と通信して
法 で あ り , P2P の 早 期 発 見 に 適 用 し て い る . さ ら に ,
い る ト ラ ヒ ッ ク を 全 て ミ ラ ー リ ン グ し , Wireshark[10]
K-mean 法 や 階 層 的 ク ラ ス タ リ ン グ と oLVQ1 と の 分 類
を利用してパケットのキャプチャリングを行った.次
精 度 比 較 実 験 も 行 わ れ て お り , P2P 以 外 の サ ー ビ ス 分
に ,得 ら れ た キ ャ プ チ ャ デ ー タ を フ ロ ー と し て 分 類 し ,
類には階層的クラスタリングが有効であることを示し
フローの統計情報を算出した.
ている.
ま た 文 献 [5]で は パ ケ ッ ト 到 着 間 隔 ,パ ケ ッ ト 長 ,フ
ロ ー 持 続 時 間 を C4.5 決 定 木 に よ っ て 学 習 し て お り ,初
4.2. 使 用 したデータ
サービス別の特徴量を検討するという理由から,キ
期の数パケットによる分類がフロー全体を用いた分類
ャ プ チ ャ デ ー タ か ら メ ー ル , 動 画 , Web の ト ラ ヒ ッ ク
と比較してあまり差が無いことを示した.
を取り出した時系列情報のデータを使用した.なお,
さ ら に 文 献 [6]で は ,バ ッ ク グ ラ ウ ン ド で ネ ッ ト ワ ー
メ ー ル は 送 受 信 ポ ー ト 番 号 が SMTP, POP で あ る も の
ク管理を行うことを想定して,計算が高速で行えるこ
と し ,動 画 は 送 受 信 ポ ー ト 番 号 が HTTP か つ 送 受 信 IP
とを条件にフローの統計情報を選出している.用いる
ア ド レ ス に 動 画 サ イ ト (youtube.com, nicovideo.jp)が 含
統計情報はパケット到着間隔,パケット長,フローの
ま れ て い る も の , Web は HTTP か ら 動 画 の フ ロ ー を 除
総バイト数,フローの持続時間である.また,複数の
いたものと定義した.
機械学習のパフォーマンスを計算時間を基準に比較し
た と こ ろ ,C4.5 決 定 木 を 用 い る こ と が 最 も 高 速 で あ る
ことを示した.
しかし多くの研究で使用されているフローの統計
情報は平均値,分散,最大値,最小値などであり,ト
4.3. サービス毎 の時 系 列 データ評 価
サービス毎に,1 フローの持続時間をフローの開始
時間でプロットした図を図 3 - 図 5 に示す.
10
ラヒックの時間的な変化にはあまり着目していない.
提案された特徴量がサービス分類に適切かどうかは分
かっていない.そこで本検討ではトラヒックの時系列
的な変化に着目し,サービス毎の特徴量の違いについ
て考察を行った.
9
8
フロー持続時間(sec)
またパターン認識における識別部の設計という点から,
7
6
5
4
3
2
1
0
0
4. 特 徴 量 の 評 価
本章では,まず本稿で使用したトラヒックデータに
ついて述べる.次にデータ内に存在したサービス毎に
時系列データを取得し,それぞれの時系列データにお
ける特徴について説明する.
500
1000
1500
2000
2500
3000
time(sec)
図 3 メールのフローにおける持続時間の推移
3500
100
1600
1400
80
平均パケットサイズ(byte)
フローの持続時間(sec)
90
70
60
50
40
30
20
1200
1000
800
600
400
200
10
0
0
0
500
1000
1500
2000
2500
3000
0
3500
500
1000
1500
time(sec)
2000
2500
3000
3500
time(sec)
図 7 動画のフローにおける
図 4 動画のフローにおける持続時間の推移
平均パケットサイズの推移
図 5 Web の フ ロ ー に お け る 持 続 時 間 の 推 移
図 3-図 5 よ り ,各 サ ー ビ ス に お い て フ ロ ー の 持 続
図 8 Web の フ ロ ー に お け る
時間の推移が異なっていることが分かる.また,図
平均パケットサイズの推移
3 よ り ,メ ー ル の フ ロ ー は ほ と ん ど が 2 sec 以 内 で 推
図 6-図 8 よ り ,平 均 パ ケ ッ ト サ イ ズ の 推 移 に つ
移 し て お り ,動 画 や Web と 比 較 し て 短 い 時 間 で フ ロ
いてもサービス毎に挙動の違いが見られる.特に
ーが終了していることが分かった.これらにより,
メールは同時に生起するフローが高々2 つから 3
3 つのサービスを分類するのにフローの持続時間が
つ で あ る こ と に 対 し て , 動 画 , Web は 同 時 に 多 数
有効である可能性がある.
のフローが生起することが多く,平均パケットサ
同様に,平均パケットサイズをフローの開始時間
でプロットした図を図 6 - 図 8 に示す.
イズも広域に渡っていることが分かる.これらに
より,定義したサービスを分類する上で平均パケ
ットサイズが有効である可能性がある.
同様に,総フローサイズをフローの開始時間で
プ ロ ッ ト し た 図 を 図 9 - 図 11 に 示 す
1400
1200
1000
2000000
800
1800000
600
1600000
400
200
0
0
500
1000
1500
2000
time(sec)
2500
3000
3500
フローサイズ(byte)
平均パケットサイズ(byte)
1600
1400000
1200000
1000000
800000
600000
400000
図 6 メールのフローにおける
平均パケットサイズの推移
200000
0
0
500
1000
1500
2000
2500
time(sec)
図 9 メールのフローにおける
総フローサイズの推移
3000
3500
があるかを示した.その結果,今回提示した特徴量は
450000
サービス毎に異なっていることを確認し,トラヒック
フローサイズ(byte)
400000
350000
のサービス分類に時系列情報が有効である可能性のあ
300000
ることが分かった.また,新たなるトラヒックパター
250000
ンの出現に対しても,識別器を変更することなく時系
200000
150000
列情報によって検出することが期待できる.
100000
上記の結果を踏まえ,今後各サービスを分類する上
50000
0
0
500
1000
1500
2000
2500
3000
で適切な特徴量を特徴空間上で視覚的,定量的に比較
3500
time(sec)
し,判断する予定である.さらに,音声,ファイル転
図 10 動 画 の フ ロ ー に お け る
送などといった他のサービスについても同様の評価を
総フローサイズの推移
行い,特徴空間上での分布の様子を踏まえてより多様
なサービスを分類する手法を提案する.
また,さらなる識別精度の向上のために識別器の統
合手法を適用することを考えている.例えば,バイオ
メトリクスの分野において,複数のバイオメトリクス
情報を統合する技術としてマルチモーダルバイオメト
リ ク ス が 提 案 さ れ [11], 単 一 の バ イ オ メ ト リ ッ ク 情 報
を用いる認証に比べ精度が向上することが報告されて
い る [11][12].
これまでにトラヒックデータの分析には複数の特
徴量を 1 つの識別器で分析する、複数識別器の統合手
図 11 Web の フ ロ ー に お け る
法 の 一 手 段 で あ る feature level fusion に よ る 手 法 が
総フローサイズの推移
よく用いられている.複数識別器の統合手法は
図 9-図 11 よ り , 総 フ ロ ー サ イ ズ の 推 移 に お い て
decision level fusion に よ る 手 法 、 feature level
は極端にサイズが大きなフローが存在しているこ
fusion に よ る 手 法 、 score level fusion に よ る 手 法 に
とが分かる.そのため,これらの特異値がサービス
分類される.その中でも複数の特徴量それぞれで各サ
分類にどのような影響を与えるかを今後調査する
ービスとの類似度を求めたあと、類似度を並べたもの
必要がある.
を再度特徴ベクトルとしてから再び識別器にかけるこ
と に よ り 高 精 度 な 分 析 を 実 施 す る score level fusion
による手法は用いられていない.スコア分布上で各ア
5. む す び
本稿では多様化したネットワーク上でのサービス
プリケーションの分布が分離できればさらに識別精度
を分類する手法における,パターン認識の必要性につ
向上が期待できる.今後,識別器の統合方法,特に図
いて述べた.特にフローの統計情報に着目した上で,
12 に 示 す よ う な score level fusion に よ る 手 法 に つ
サービス毎のトラヒックが時系列的にどのような特徴
いて検討していく予定である.
トラ ヒックの
特徴量αに対
する識別器①
トラ ヒックの
特徴量βに対
する識別器②
2つ の 識 別 器 を 融 合した 判 定 を
行 うた め,2次 元 空 間に
スコアをプ ロットす る
識別器②のスコア
トラヒックデ ー タ
サ ー ビ スを 分 類 す る
識 別 境 界 を作 成 す る
サ ー ビスB
識 別 器 ① の スコア
サ ー ビ スA
識別結果
図 12
score level fusion に よ る
サービス分類の例
識別境界
文
献
[1] Maureen Chesire, Alec Wolman, Geoffrey M. Voelker,
and Henry M.Levy,“ Measurement and Analysis of a
Streaming-Media Workload,” in proceedings of 3rd
USENIX Symposium on Internet Technologies and
Systems, pp. 1-12, March 2001.
[2] C.Fraleigh,S.Moon,B.Lyles,C.Cotton,M.Khan,D.Mol
l,R.Rockell,T.Seely, and S.Diot,“ Packet-level Traffic
Measurements from the Sprint IP Backbone,” IEEE
Network Magazine,pp.6-16,November 2003
[3] S.Sen,O.Spatscheck,andD.Wang, “Accurate, scalable
in-network identification of P2P traffic using
application signatures,” in Proceedings of the
WWW ’04: 13th international conference on World
Wide Web, pp.512–521, May. 2004.
[4] 八 木 清 之 介 , 和 泉 勇 治 , 角 田 裕 , 根 元 義 章 ,“ ネ
ットワークアプリケーション弁別のためのペイ
ロード長の遷移パタンの評価方式に関する一検
討 ,”電 子 情 報 通 信 学 会 技 術 研 究 報 告 .TM,テ レ コ ミ
ュ ニ ケ ー シ ョ ン マ ネ ジ メ ン ト , pp.1-6, 2007.
[5] V. Giacomo, and G. Paolo, “Performance evaluation
of a machine learning algorithm for early application
identification,”
in Proceedings of the IMCSIT
2008: International Multiconference on Computer
Science and Information Technology,pp.845-849, Oct.
2008.
[6] N.Williams, S.Zander, and G.Armitage, “A preliminary performance comparison of fi ve machine
learning algorithms for practical IP traffic flow
classification,”
ACM
SIGCOMM
Computer
Communication Review, vol.36,no.5, pp.5–16, 2006.
[7] A.W.Moore, and D.Zuev, “Internet traffic classification using bayesian analysis techniques,” SIGMETRICS Performance Evaluation Review, vol.33, no.1,
pp.50–60, 2005.
[8] 市 野 将 嗣 , 坂 野 鋭 , 小 松 尚 久 , “核 非 線 形 相 互 部
分 空 間 法 に よ る 話 者 認 識 , ” 信 学 論 (D-II) ,
vol.J88-D-II, no.8, pp.1331-1338, 2005.
[9] 石 井 健 太 郎 , 上 田 修 功 , 前 田 英 作 , 村 瀬 洋 , わ か
り や す い パ タ ー ン 認 識 ,” オ ー ム 社 ,1998.
[10] “ Wireshark,” http://www.wireshark.org
[11] 坂 野 鋭 , 劉 偉 傑 , “多 重 バ イ オ メ ト リ ッ ク ス に よ
る 個 人 認 証 ,” 情 処 研 報 , CSEC 5-7, May 1999.
[12] 市 野 将 嗣 , 坂 野 鋭 , 小 松 尚 久 , “唇 動 作 と 音 声 の
非線形性を考慮した多重バイオメトリクス認証
方 式 に 関 す る 検 討 , ”暗 号 と 情 報 セ キ ュ リ テ ィ シ
ン ポ ジ ウ ム (SCIS2007), 4F2-5,2007.
社団法人
電子情報通信学会
信学技報
トラヒックの時系列データを用いたサービス分類手法に関する一検討
山下
剛史Ý
星
竹下
健太郎Ý
市野
将嗣Ý
恵ÝÝ
辻野
雅之ÝÝ
小松
尚久Ý
早稲田大学 理工学術院 基幹理工学研究科 〒 東京都新宿区大久保 日本電信電話株式会社 サービスインテグレーション基盤研究所
〒 東京都武蔵野市緑町 !" #$
# % #$
あらまし
近年,インターネットの急速な普及・高速化に伴い,通信トラヒックは急増している.そこで,サービス毎
に区別した品質提供を実施する為にも,ネットワーク管理者はサービス毎の通信トラヒック量を識別することが望ま
しい.このため,筆者らは通信トラヒックから得られる特徴量の連続入力データに着目し,分析を行うことで通信ト
ラヒックをサービス毎に分類する技術について検討している.本稿ではこの技術のコンセプトを説明すると共に,パ
ターン認識を用いたサービス分類においてどの様な特徴量を用いることがサービス分類に有効か検討を行う.
キーワード トラヒック,
,サービス分類,パターン認識
Æ Ý Ý Ý Ý ÝÝ ÝÝ
&" ' (" ) " ** +" ,-
.% )# /$
)- 0* 1% 2$
3" 3 /$
!" #$
# % #$
Æ Æ !
Æ Æ " Æ Æ, , !, まえがき
いサービスを優先的に転送することで,限られた帯域をうまく
使っていくという考えに基づいている.サービス毎に区別した
インターネットの急速な普及・高速化により,通信トラヒッ
品質提供を行う場合,ネットワーク管理者はサービス毎のトラ
クが急増すると共に動画や音声,ファイル転送に関するものな
ヒック管理に基づく品質監視・品質設計を行うため,サービス
どネットワーク上で利用されるサービスの多様化が進んでい
毎の通信トラヒック量を把握しておくことが望ましい.このた
る.また,技術が成熟化するとともに,新たな付加価値として
め,トラヒック情報をサービス毎に分類する技術が必要だと考
インターネットの通信品質を高めることが期待されている.そ
えられる.
こで,低コストでユーザの要求に叶うよう通信品質を高める形
従来の研究において,トラヒックにおけるサービス分類には
.
態として,サービス毎に区別して品質を提供するという形態が
その通信が使用しているポート番号が用いられてきた
有力である.これは,重要性の高いサービスや品質要求の厳し
これは,多くのサービスでは通信に使用するポート番号が 表
ポートとして予め固定されている為である.そのため,
サービス分類に利用される特徴量
ポート番号をヘッダから参照することで,そのデータがどの
特徴量
統計情報
サービスから送信されたものかを確認することが出来る.しか
パケットサイズ 平均値 標準偏差など
パケットの到着間隔 平均値 標準偏差など
パケット数
フローの総バイト数 フローの持続時間 し, をはじめとした近年問題となっているサービスには使
用するポート番号をランダムに決定したり,意図的にポート番
号を変更するものが存在する.その為,ポート番号による分類
は信頼性に欠ける可能性がある.
ポート番号を用いないサービス分類手法としては,パケット
からヘッダ部分を除いたデータであるペイロードを利用した手
法が提案されている
.この手法では,サービス特有の文字列
から生成したビットパタン(シグネチャ)をパターンマッチン
グすることで不正なサービスの早期発見を行う.しかし,ペイ
ロード情報を参照することはプライバシーやセキュリティの問
題から利用シーンが限られる恐れがあり,また処理にかかる負
荷も大きくなるということが問題点として挙げられる.
その他の手法として,フローにおけるパケットの到着間隔や
パケットサイズなどの統計情報に基づいた手法が提案されてい
る
∼ .フローの統計情報を用いた手法は,計測されたト
ラヒックの挙動から抽出した統計値を用いるため,ポート番号
いった評価は十分には行われていない.そこで本検討ではトラ
ヒックの連続的な特徴量に着目し 評価を行った.
識別器の設計
トラヒックデータからサービスを分類する場合には パター
ン認識技術を用いて入力されたデータと登録したテンプレート
を比較し識別を行う パターン認識とは入力したパターン 文
字画像や時系列信号,センサーから得た情報など が,予め定
めたクラスの集合のうちどのクラスに対応するかを出力する処
理である
.
パターン認識によるトラヒックパターン分類システムを構成
する場合,一般的に図
の形式が用いられる.
やペイロード情報を利用せずにサービスを分類出来る.
フローの統計情報によるサービス分類手法では フロー中の
入力パターン
複数のパケットにおけるパケットサイズやパケット到着間隔の
平均値 標準偏差などが利用されている
出力
特徴
抽出部
識別
演算部
つまり,連続的な入
力が仮定できるにも関わらずトラヒックの時間的な変化を一ま
サービスA
とめにして扱っている研究が多い.そのため,トラヒックの時
前処理部
サービスB
識別辞書
サービスC
間的な変化に着目することによりさらにサービス分類性能が向
上する可能性がある.例えばバイオメトリクスでは,発話時に
識別部
おける唇動作個人認証において複数のアルゴリズムが提案され
ているが,時系列情報を使用しないアルゴリズムと使用するも
図
認識系の構成
のを比較した際,後者のアルゴリズムの方がより高い精度で認
証が可能であることが報告されている
.
前処理部では特徴を抽出しやすい形に出力し 次に特徴抽出
そこで本稿では,トラヒックから得られる特徴量の連続入力
部にて特徴の算出を行う.この特徴を,事前にいくつかのトラ
データに着目し,どの特徴量を用いることがトラヒックのサー
ヒックデータから作成した識別辞書と比較することで,入力パ
ではパターン認識を
用いたサービス分類の関連研究について説明し 次に では評
ターンがどのサービスに所属するかを決定する.
価に使用したサービス毎のトラヒックデータと今回検討した特
適切に分類できる特徴を抽出する必要があり,この処理は認識
徴量について述べる. では実際に取得した特徴量に対してベ
系の性能を大きく左右する重要な部分である.そのため 特徴
クトル量子化による定量的な評価を行った結果及び考察につい
量の性質や特徴空間での分布を明確にする必要がある
ビス分類に有効か評価を行った.以下
て述べる. は本稿のまとめと今後の課題である.
評 価 概 要
関 連 研 究
本章では サービス毎にキャプチャリングしたデータと検討
トラヒックの特徴量
を行った特徴量について述べる 次に 今回行った特徴量の定量
サービス分類に用いる特徴量には多くの種類があり 現在様々
な研究で利用されている 特にフローの統計情報を用いたサー
ビス分類手法
∼ で多く利用されている特徴量は 表
特に特徴抽出部においてはトラヒックデータからサービスを
の
通りである.
しかしこれらの特徴量の多くは平均値 分散といったフロー
的な評価について説明する
使用したデータ
本研究では 音声通信 音声ストリーミング 映像通信 ニコ
ニコ動画
テキスト通信 !"#$%
メール送受信 ファイル転送 &' ファイル転送 といっ
単位の統計情報であり,トラヒックの時間的な変化にはあまり
たそれぞれ異なるサービスから
着目していない.またサービス分類に利用されている特徴量が
チャした ) 種類のパケットデータを使用した 今回使用した
識別器の設計という点においてサービス分類に適切かどうかと
データは表
'( )
によってキャプ
の通りである
使用したキャプチャリングデータ
サービス
概要
評
取得回数
ダウンロード用アプリケーション
開始から終了まで
ファイル転送
ダウンロード開始から終了まで
通のメールを送信
開始からユーザが終了するまで
動画視聴開始から終了まで
開始からユーザが終了するまで
!
開始からユーザが終了するまで
" 音声ストリーミング
開始からユーザが終了するまで
動画視聴開始から終了まで
に お け る パ ケット サ イ ズ の 推 移 を 図
に示す 縦軸はパケットサイズであり 横軸は時間
0
通のメールを受信
#$%%
-.+/
を表している
メール送信
ニコニコ動画
特徴量の定性的な評価
サービス
メール受信
価
9000
8000
Messenger起動と
ログイン処理
7000
size[byte]
表
6000
5000
4000
3000
2000
チャット
終了
1000
0
0
以下 サービス名の表記は表
50
100
に従うものとする サービス
毎のトラヒックデータを比較するため キャプチャデータの中
150
200
250
time[sec]
図
サービス におけるパケットサイズの推移
でもサービスに関係のあるパケットを抽出しサービス以外のパ
ケット 名前解決 広告 セキュリティなど は除外した
350000
特徴量の検討
今回検討を行った特徴量を表
にある特徴量から連続入力を
る特徴量を評価するために
考慮したものを選択し それぞれの特徴量について単位時間当
250000
たりの数値を連続的に抽出した
表&
パケット数
パケットサイズ
動画ファイル
の受信
300000
に示す サービス分類に用い
size[byte]
200000
150000
100000
50000
使用した特徴量
' ( 単位時間当たりの総数
0
'( 総数 )*
Webデータ
'&( 平均値 )*
'+( 標準偏差 )*
0
図&
10
20
30
time[sec]
40
50
サービス におけるパケットサイズの推移
',( 総数 )*
パケットの到着間隔
'-( 平均値 )*
140000
'.( 標準偏差 )*
120000
また 特徴量の定量的な評価として *&+,#%''" アルゴリ
ズムを用いたベクトル量子化
によるコードブックの作成を
size[byte]
100000
80000
動画受信+送信
60000
40000
行い トラヒックデータとの距離を測定した ベクトル量子化と
動画受信
のみ
20000
は入力されたデータを予め作成した適当な次元のコードブック
0
0
の値で置き換える処理であり *&+,#%''" アルゴリズムは
適当な初期コードブックから出発した後で 学習系列に分割条
件と代表点条件を繰り返し適用することで良好なコードブック
図+
20
40
60
80
time[sec]
100
120
140
サービス におけるパケットサイズの推移
に収束させるコードブック設計アルゴリズムである なお ベ
クトル量子化による評価手法は特徴量の順序を考慮しないため
40000
今回の検討では表
35000
の特徴量を 順番に関係の無い 連続入力
30000
本研究では 取得した特徴量毎に
レベルのベクトル量子化
によってコードブックを作成した このコードブックと取得し
size[byte]
データとして扱った
25000
20000
15000
た特徴量を比較することで同一サービス間の距離と異なるサー
10000
ビス間の距離を算出した この際 距離の値が同一サービス間
5000
RTSPによるデータの受信
0
では小さく 異なるサービス間では大きい特徴量はサービスを
0
分類する上で有効であると考えられる
図,
20
40
60
time[sec]
80
100
120
サービス " におけるパケットサイズの推移
図 0 より サービス - では サービス開始時 終了時
0.1
0.09
packet-arrival-interval[sec]
と比較して テキストデータをやり取りするチャット部分のパ
ケットサイズが小さいといった特徴があり サービス +/ では
動画や音声を受信する際に一定サイズの連続したパケット発生
が見られる またサービス . では パケット数が他のサービス
に比べて明らかに多く その形状も連続的ではなく等間隔に大
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
容量のパケットをやり取りしている事が分かる 次に サービス
0
1&-.
0
におけるパケット到着間隔の推移を図 に示す
10
20
Webデータ
30
time[sec]
40
50
動画ファイルの受信
縦軸はパケットの到着間隔であり 横軸は時間を表している
図0
サービス における到着間隔の推移
0.1
0.08
0.07
パケット数を特徴量として用いた場合の入力サービスコー
packet-arrival-interval[sec]
0.09
0.06
特徴量の定量的な評価
ドブック間における距離を表 に パケット到着間隔を特徴量
0.05
として用いた場合の距離を表
0.04
0.03
0.02
に示す これらは サービスの
トラヒックデータから抽出した特徴量を同じくサービスのトラ
ファイル
の受信
0.01
0
ヒックデータからベクトル量子化によって作成したコードブッ
0
0
図-
20
40
60
time[sec]
80
100
接続要求
サービス における到着間隔の推移
クと比較した結果を示しており 入力データとコードブックの
比較をそれぞれ )) 回行った場合の距離の平均値が直交座標に
記述されている 灰色の要素は正しいサービスとコードブック
間における距離の平均を表し 入力に対して最小の距離を持つ
コードブックを下線で表す
0.1
packet-arrival-interval[sec]
0.09
表 より 入力サービスを固定して考えたときに正しいサー
ダウンロード
ファイルの受信
0.08
0.07
ビスとコードブック間の距離が最小の値となっているサービス
0.06
は &23+/4 の つであり 特に &4 の場合は異なるサービ
0.05
ス同士の結果に対して対角要素の結果が比較的小さな値となっ
0.04
0.03
0.02
ていることから 特徴量としてパケット数を用いることがこれ
0.01
らのサービスを分類する場合に有効だと考えられる またサー
0
0
2
4
6
time[sec]
8
10
ビス 3 同士の比較結果では距離の平均が ) となっているが こ
れは単位時間当たりのパケット数が少ないため コードブックと
図.
サービス における到着間隔の推移
の比較の際に入力した値全てがコードブックに一致してしまっ
たためと考えられる そのため サービス 23 に関しては特徴
量抽出の際のサンプリングレートを大きくするなどしてより多
packet-arrival-interval[sec]
0.1
くの値を抽出した特徴量の方がサービス分類に適した特徴にな
Messenger起動と
ログイン処理
0.08
チャット
終了
ると考えられ さらに検討が必要である また サービス 15 で
0.06
は 入力サービスと異なるコードブック間の距離の方が小さく
なるという結果が複数あり 特に 1 ではサービス .+ との比
0.04
較結果が非常に小さくなっている このため パケット数を識別
0.02
に用いた場合は誤一致してしまう可能性が高いと考えられ こ
0
0
50
100
150
200
250
れらのサービス分類にはあまり適さないと考えられる
time[sec]
また 特徴量にパケットサイズの総数を用いた場合はパケッ
図/
サービス における到着間隔の推移
ト数を用いた場合とほぼ同様の結果が得られたが パケットサ
イズの平均値を用いた場合はサービス -. が パケットサイズ
図 より サービス
1.
などはパケットの内容などに
あまり関係無く到着間隔のばらつきが大きいが サービス &-
の標準偏差を用いた場合はサービス
+5
がそれぞれ距離が小
さくなっており 特徴量ごとに分類に適したサービスの違いが
などはそれほど分散しておらず ある程度決まった範囲に到着
見られる 特徴量にパケット到着間隔とその統計値を利用した
間隔が表れていることが分かる
場合 サービス 15 といった他の特徴量ではあまり有効な結果
以上のことから サービスごとに個別の特徴量推移の様子が
確認出来る さらに 本研究ではベクトル量子化による特徴量
の定量的な評価を行った
が得られなかったサービスに対して距離を小さくできるという
結果が得られた
さらに 特徴量にパケットサイズを用いたときの 入力データ
表+
入力サービス−コードブック間における距離の平均 '特徴量1パケット数(
入力
コードブック
-&/
&,0
,+0
,+
.++
0
+&
&.
-&
/ .0
//
+/+
0/&
&-. .0/ & -+
+ . ,+ +0
.&. +--
-./ +,
+&
サービス
"
&.
&00 +/0
#
/+
+
, ,- /-
&., +. ,0,
+, -, /0/
&.,
/. .+
+
-.
-&
+.
& &
-,,
-
&+
0.
.
&
0,
,/
,/
,+&
&.
&
,/
0&+
/0.
&&/
0
-+
-
-0 .../ 0&
#
-,0
表,
+. &+
+
0,-
&/
+&0
& + +
,-0
/0
.0-
.&& 0 ,
00
+
-&/
-
0 &
入力サービス−コードブック間における距離の平均 '特徴量1パケット到着間隔(
入力
コードブック
サービス
"
-, -/&, +& +.&
&-+ -0/, &0+ +0+ .&-+
+0., , .,
&+ ,-&,
&&- ,+- +., +.., +&0- &++- -,.- --.-
.+&
/+- +,+-
,,
- ,
0&
/ ,
+ - --
,, .,-+ /&-+ &0/,
&
#
+
0/+ ++ ,//+ //-,
-.-
., + -
,+- + -- &-
-, .--, ./&, +.+ //,
&&, &/0,
&+0, -+, -&,+ . + +. , +., ,.&, -/+,
.0+ -.-,
+ - /+/- ,-&, -&+, +/0- +-/- ,-&- -&-
-., ----
"
- -.-
#
-,0-
+,
20
& -.., &,,
A-I
A-A
A-F
+
+0+ &0+
++
-+,
/&,
+-
,0-
,0-
.- +- - &--
-+
..+
/, / -
. ,
.+, ,&,
,
いる 表 より サービス 1 を分類する上で パケット数を用い
A-A
A-B
A-C
A-D
A-E
A-F
A-G
A-H
A-I
A-J
15
freqency[%]
&0 /&
,&
"
た場合は他のコードブックと比較した場合に距離が最小になる
という結果が現れていたが 図 ) より サービス 1 は同じサー
ビス同士の分布と 異なるサービス同士の分布が重なり合って
おり サービス 1 の分類にはパケット数は余り適さないことが
A-E
A-H
A-I
10
確認できる 同様に サービス & の場合は 同じコードブックと
5
比較した場合に距離が最小になるが 図 より サービス & と
A-J
その他の分布の重なりが小さく パケット数はサービス & の分
0
1
10
distance
類に適していることが確認できる また その他のサービス 特
100
徴量においても 表 の距離がサービス同士で離れているもの
図 サービス に対する距離の分布
分布の重なりが大きいという結果になった
25
B-B
20
B-A
B-B
B-C
B-D
B-E
B-F
B-G
B-H
B-I
B-J
B-J
B-F
freqency[%]
は 実際の分布でも重なりが小さく 距離が離れていないものは
15
全特徴量の評価
で行ったベクトル量子化による特徴量の評価を 表 で
記述した特徴量全てに対して実行した 表 は 各特徴量で量
子化による評価を行った場合 正しい入力サービス−コードブッ
10
ク間距離が ) 種類のサービスの中で何番目に小さかったかを
記述している なお 特徴量の番号は表 に従うものとする
5
特徴量 1 と 2 は距離が最小であるサービスにあまり違
0
10
図
100
1000
distance
10000
100000
サービス に対する距離の分布
いが無く
つの特徴量の有効性はほぼ同じだと考えられる ま
た これらの特徴量ではサービス 1-.5 には適さないことが
分かるが
-.
には特徴量(3)5 には特徴量(4)を使用す
ることで 他の特徴量を用いた場合よりも距離を小さくするこ
とコードブック間距離の頻度分布図を図 ) 図 に示す 縦軸
とができる さらに サービス 1 では(1)(2)(3)(4)
は頻度を 横軸は入力データとコードブック間の距離を表して
0 表-
入力サービス−コードブック間距離
サービス
特徴量
' ( '( '&( '+( ',( '-( '.(
-
-
,
.
.
-
&
0
.
0
/
-
/
&
,
&
&
+
+
+
/
,
+
,
/
,
-
+
,
-
&
&
&
+
&
"
#
&
+
を特徴量に用いた場合 異なるサービスとコードブックの距離
が小さくなってしまうが (5)(6)(7)を特徴量に利用し
た場合は正しいサービスとコードブックの距離が一番小さいも
のとなっている その為 どのサービスにおいても今回検討した
いずれかの特徴量によって 距離を最小にすることが可能だと
いうことが分かった
まとめと今後の課題
本稿ではネットワーク上でのサービスを分類する手法におけ
!!- - <9* &
& A!
2
7 4“ % 33 B 7C
: Æ
% !!3
% ” 7 : 2 444D+1 &2 3
:
437 47 4 !!, , +
+ 八木清之介 和泉勇治 角田裕 根元義章 “ ネットワークアプリ
ケーション弁別のためのペイロード長の遷移パタンの評価方式
に関する一検討 ”電子情報通信学会技術研究報告 > テレコ
ミュニケーションマネジメント !! - .
, 6 * 7 3 “ :*
93% : *
2 3 32* : 3 !!3
7C
” 7 : 2 ""> /1 "3
- <433* E7 7 * “ !3* !:*
*! : C9 *
2 3 32*
: !
3 " Æ
FB 3C
” "A
*!% **%
@9B 93&-, !!, -
-
. 4 7 E%9 “ " Æ
3C % 3 2G% ” " >@" :*
93% @9B 93&& !!,- ,
/ 市野将嗣,坂野鋭,小松尚久,
“ 核非線形相互部分空間法による
話者認識,”信学論 '""(,93#//"" / !! && &&/
,
0 石井健太郎 上田修功 前田英作 村瀬洋 “ わかりやすいパター
ン認識 ”オーム社 00/
“ 42 ”2!1))BBBB2 $87%H 7 @ “ 32* : 6
I%H ” " > **%63A
/< !!//0, 0/
る,パターン認識の重要性及び特徴量の評価結果について述べ
た.特にトラヒックの連続入力データに着目した上で, 種類の
特徴量を利用した場合それらがどの程度サービス分類に有効か
を示した.その結果,今回検討した特徴量はいずれかのサービ
スにおいてコードブック間距離を最小とすることを確認し,ト
ラヒックのサービス分類に連続的な特徴量が有効であることを
示した.また,新たなるトラヒックパターンの出現に対しても,
特徴量の評価を行うことで分類に必要な情報と不必要な情報を
定量的に判断することが可能だと考えられる 上記の結果を踏
まえ,サービス分類に用いる特徴量としてはパケット数及びパ
ケットサイズが一番多くのサービスに対して距離が最小になる
という結果が得られ 他のサービスに対しても適切な特徴量を
選択することでサービス分類に有効であることが確認できた
このことから今後の課題として 識別器を設計する段階にお
いて特徴が表れている特徴量と 表れていない特徴量に対して
重みづけを行うことによる識別率の向上などが考えられる ま
た 入力サービスとコードブック距離の頻度分布が 測定条件
や特徴量抽出パラメータを変化させることによって どの程度
変動するかを測定及び評価し より適切な特徴量について検討
した上でトラヒックデータからサービスを分類する手法を提案
する
文
献
% 2 3
43* 5 63 7
89“ %* 7 3 : *
7 4 37 ” !
7 : &7 ;<"= *
!%* " >
23 7 *,!! 2 3283?233
@@
33>3 7 “ 393 >Æ
%* :* 2 ! " ” トラヒックの時系列データを用いた
サービス分類における特徴量に関する一検討
A Study on Features for Service Classification using Time-Series Traffic Data
前田浩明 1
Hiroaki Maeda
山下剛史 1
星健太郎 1
市野将嗣 1
Takeshi Yamashita
Kentaro Hoshi
Masatsugu Ichino
竹下恵 2
辻野雅之 2
Kei Takeshita
Masayuki Tsujino
小松尚久 1
Naohisa Komatsu
早稲田大学 理工学術院 基幹理工学研究科 1
Guraduate School of Fundamental Sience and Engineering, Waseda University
日本電信電話株式会社 NTT サービスインテグレーション基盤研究所 2
NTT Service Integration Laboratories, NTT Corporation
1
まえがき
表1
2
研究の背景と概要
従来のトラヒックフロー分類手法では,トラヒックの
時間的な変化や上り下りの方向が必ずしも考慮されてい
ない.そのため,トラヒックの時間的な変化や方向に着
目することで精度が向上するか検討する必要がある.
著者らは,トラヒックから得られる特徴量の連続入力
データに着目し,各特徴量を抽出して検討を行った [1].
その結果,サービス分類において連続入力データが利用
できる可能性があることを確認した.本稿では,特徴量
およびサービスを増やした際の検討結果と download 方
向,upload 方向それぞれのトラヒックデータから特徴
を抽出した際の検討結果を示す.
3
評価概要
まず,データ通信 (BitTorrent,HTTP ファイル転送,
FTP),映像配信 (YouTube,ニコニコ動画,PeerCast),
音声配信 (音声ストリーミング 2 種類),テキスト通信
(メール送信・受信,Messenger,Skype),ゲーム (2 種
類) の 14 サービスについて各 10 ずつのトラヒックを取
得し,各データ (双/download/upload 方向) から表 1 に
示した特徴量を 0.1sec 間隔で抽出した.その後,1 サー
ビスにつき 5 トラヒックずつでグループ A,B を構成し,
A を学習データとして,LBG+Splitting アルゴリズムに
よるベクトル量子化を行うことで,各サービスの特徴を
表すコードブックを作成した.次に,コードブック同士
の比較を行い,各コードブックが異なるサービスとして
分離できるか確認した.ここで分離が可能と判断された
コードブックを用いて量子化した B のデータとの量子
化誤差に基づき,同/異サービスとして判定する評価実
験を行った.その際,同サービスのコードブックとの量
子化誤差が最小となる場合に正解とした.B を学習デー
タとした交差検証も交え,両者の結果の平均を示した.
評価した特徴量
1 パケット数 [num/time]
⃝
パケットサイズ [byte/time]
2 総数 ⃝
3 平均 ⃝
4 最小 ⃝
5 最大 ⃝
6 標準偏差
⃝
パケットの到着間隔 [sec/time]
7 総数 ⃝
8 平均 ⃝
9 最小 ⃝
10 最大 ⃝
11 標準偏差
⃝
サービスの多様化や回線の高速化に伴い,ネットワー
クにおけるトラヒック量が急増している.適切に通信品
質を管理するためには,サービス毎のトラヒックを把握
できることが望ましい.そのため,本研究ではトラヒッ
クをサービス毎に分類する手法について検討を行う.
評価結果
コードブック同士の比較で,到着間隔を用いた場合,
どのサービスについても量子化誤差が小さくなり,サー
ビス間で相違が確認できなかった.これは特徴抽出間隔
が短すぎて値が丸め込まれたためだと考えられる.この
ため,以降では到着間隔の結果は省略している.他の特
徴量についてはこのような問題はなかった.
双/download/upload 方向ごとの TP 率を表 2 に示す.
表 2 を見ると,3 方向で結果が異なることがわかる.upload 方向の最大パケットサイズが他の方向と比べて良
い結果なのは,今回,download に強く依存したサービ
スが多く,双/download 方向の最大サイズが MTU 値に
偏ったのに対し,upload 方向は大きなパケットが流れな
いため,MTU の影響を受けにくく,各サービスの特徴
が現れたためだと考えられる.このように方向を分ける
ことで双方向時に隠れてしまう特徴を抽出できる.実験
結果から,特に upload 方向の最大サイズは識別を行う
上で有効であると考えられる.
表 2 各方向の TP 率 (識別率) の比較
4
1
2
3
4
5
6
方向
⃝
⃝
⃝
⃝
⃝
⃝
双方向 54% 68% 76% 68% 72% 74%
download 56% 74% 76% 70% 75% 59%
upload 46% 70% 73% 61% 84% 62%
まとめと今後の課題
今回は,有効な特徴量や方向を分けることで精度が向
上する可能性があることを示した.今後は特徴抽出間隔
やプロトコルに依存するパケットを取り除いて検討を行
う.また,サービスの分類区分を広くしてコードブック
を作成した際や特徴量を組み合わせた際の検討を行う.
5
参考文献
[1] 山下剛史,星健太郎,市野将嗣,小松尚久,竹下恵,辻野雅之,
“ トラヒッ
クの時系列データを用いたサービス分類手法に関する一検討, ”信学技報,
CQ2009-54,pp.85-90,Nov. 2009.
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
1
【書類名】明細書
【発明の名称】通信トラヒック分類方法、装置、およびプログラム
【技術分野】
【0001】
本発明は、通信管理技術に関し、特にデータ通信トラヒックをアプリケーション種別に
基づいて分類するトラヒック分類技術に関する。
【背景技術】
【0002】
近年における通信サービスの充実化やこのような通信サービスを利用するアプリケーシ
ョンの発展に伴って、通信網上を流れるトラヒックも多様化かつ複雑化している。また、
アプリケーションの種別ごとに、必要となる通信設備も異なる。このため、通信サービス
事業者では、これらトラヒック需要に対応して、高い品質で通信サービスを提供するため
には、需要の高いアプリケーション種別に応じた通信設備を、適切なタイミングで増減設
する必要がある。
【0003】
従来より、特定のビット列など、個々の種別のアプリケーションが有する動作上の特徴
に注目し、その特徴付けられる動作の発生を監視することで、アプリケーションに関する
トラヒックを検出する技術がある(以下、従来技術1という)。この技術は、主にP2P
型アプリケーションより送出されるトラヒックを検出することに適用されている。
【0004】
一方、非特許文献1では、通信網上を流れるトラヒックをデータマイニング処理により
分析することで、特定のフローを検出する技術が提案されている(以下、従来技術2とい
う)。この技術は、主にDDoS攻撃(Distributed Denial of Service Attack:分散サ
ービス妨害)や、コンピュータウィルスによる異常フローを分類することに適用されてい
る。この技術では、複数の特徴量を1つの識別器で分類する、複数識別器の統合手法の一
手段であるフィーチャーレベルのマルチモーダル手法がよく用いられている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】八木,和泉,角田,根本、「ネットワークアプリケーション弁別のた
めのペイロード長の遷移パタンの評価方法に関する一検討」、信学技報,TM2007-34、
社団法人電子情報通信学会、2007-11
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、このような従来技術では、いずれの技術も十分な分類精度が得られない
という問題点があった。
例えば、従来技術1によれば、アプリケーションの動作上の特徴を予め把握しておく必
要がある。このため、このような特徴が見いだせないアプリケーションや新たなアプリケ
ーションのフローについては、正確にアプリケーション種別を識別することができず、結
果として十分な識別精度が得られない。また、従来技術1では、フローごとに送受信され
たデータ内容を常時監視する必要があるため、トラヒック監視装置の処理負荷が増大する
という問題点もあった。
【0007】
また、従来技術2によれば、複数の識別器の統合手法であるフィーチャーレベルによる
マルチモーダル手法を用いて、アプリケーション種別を識別しているため、実際の通信ト
ラヒックのように、対象となるアプリケーション種別数が多い状況では、十分な識別精度
が得られないという問題点があった。
【0008】
本発明はこのような課題を解決するためのものであり、アプリケーション種別数が多い
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
2
状況であっても、通信トラヒックに含まれる各フローのアプリケーション種別を、十分な
精度で識別できるトラヒック分類技術を提供することを目的としている。
【課題を解決するための手段】
【0009】
このような目的を達成するために、本発明にかかるトラヒック分類方法は、通信リンク
を流れるトラヒックを、当該トラヒックに含まれる各フローのアプリケーション種別に基
づいて分類するトラヒック分類装置で用いられるトラヒック分類方法であって、特徴量デ
ータベースが、通信リンクを利用してデータ通信を行うアプリケーションのアプリケーシ
ョン種別ごとに、当該アプリケーション種別のアプリケーションによるトラヒックの特徴
を示す各種特徴量を記憶する特徴量記憶ステップと、類似度算出部が、通信リンク上のト
ラヒックを構成する各フローを個別に観測して得られた観測情報に含まれる、対象フロー
のトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と特徴量データベースのアプ
リケーション種別ごとの特徴量との類似度を算出する類似度算出ステップと、アプリケー
ション識別部が、これら類似度からなる特徴ベクトルを、類似度と各アプリケーションと
の対応関係を示す識別マップで照合することにより、当該フローのアプリケーション種別
を識別するアプリケーション識別ステップとを備えている。
【0010】
この際、トラヒック集計部が、各フローのアプリケーション種別ごとに、各フローのト
ラヒック量を集計するトラヒック集計ステップをさらに備えてもよい。
【0011】
また、本発明にかかるトラヒック分類装置は、通信リンクを利用してデータ通信を行う
アプリケーションのアプリケーション種別ごとに、当該アプリケーション種別のアプリケ
ーションによるトラヒックの特徴を示す各種特徴量を記憶する特徴量データベースと、通
信リンク上のトラヒックを構成する各フローを個別に観測して得られた観測情報に含まれ
る、対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と特徴量デー
タベースのアプリケーション種別ごとの特徴量との類似度を算出する類似度算出部と、こ
れら類似度からなる特徴ベクトルを、類似度と各アプリケーションとの対応関係を示す識
別マップで照合することにより、当該対象フローのアプリケーション種別を識別するアプ
リケーション識別部とを備えている。
【0012】
この際、各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計する
トラヒック集計部をさらに備えてもよい。
【0013】
また、本発明にかかるプログラムは、コンピュータに、前述したトラヒック分類方法の
各ステップを実行させるためのプログラムである。
【発明の効果】
【0014】
本発明によれば、スコアレベルのマルチモーダル手法を用いていることから、同一通信
リンク上のトラヒックで使用されているアプリケーション種別数が多い状況であっても、
通信トラヒックに含まれる各フローのアプリケーション種別を、十分な精度で識別するこ
とができる。
したがって、各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計
することにより、分類対象となる通信リンクにおいて需要の高いアプリケーション種別を
的確に把握することができる。これにより、需要の高いアプリケーション種別に応じた通
信設備を、適切なタイミングで増減設することができ、通信サービス事業者では、高い品
質で通信サービスを提供することが可能となる。
【図面の簡単な説明】
【0015】
【図1】本実施の形態にかかるトラヒック分類装置の構成を示すブロック図である。
【図2】本実施の形態にかかるトラヒック分類装置のトラヒック分類処理を示すフロ
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
3
ーチャートである。
【図3】類似度算出過程を示す説明図である。
【図4】識別マップの構成例である。
【発明を実施するための形態】
【0016】
次に、本発明の一実施の形態について図面を参照して説明する。
[トラヒック分類装置]
まず、図1を参照して、本実施の形態にかかるトラヒック分類装置について説明する。
図1は、本実施の形態にかかるトラヒック分類装置の構成を示すブロック図である。
このトラヒック分類装置10は、全体として一般的なサーバ装置やパーソナルコンピュ
ータなどの情報処理装置からなり、網管理システム20で通信網50から収集された観測
情報に基づいて、通信リンクを流れるトラヒックを構成する任意のフローについて、当該
フローのアプリケーション種別を識別し、アプリケーション種別ごとにトラヒック量を集
計する機能を有している。
【0017】
図1には、3つのノード51A~51Cを含む通信網50が示されており、このうちノ
ード51Aとノード51Bとの間に通信リンク52Aが設けられており、ノード51Bと
ノード51Cとの間に通信リンク52Bが設けられている。
網管理システム20は、全体として一般的なサーバ装置からなり、観測情報収集部21
により、通信網50の各ノード51A~51Cから、通信リンク52A,52B上のフロ
ーごとに観測情報を収集し、観測情報データベース(以下、観測情報DBという)22へ
蓄積する機能を有している。
【0018】
表示端末装置30は、全体として一般的なパーソナルコンピュータなどの情報処理装置
からなり、トラヒック分類装置10で集計されたアプリケーション種別ごとにトラヒック
量を画面表示する機能を有している。
【0019】
本実施の形態は、分類対象となる通信リンクを流れるトラヒックから抽出した分類対象
フローの各種特徴量と、アプリケーション種別ごとのフローの各種特徴量との類似度をス
コアとして算出し、これら類似度から当該フローのアプリケーションを分類する方法であ
り、いわゆるスコアレベルのマルチモーダル手法により通信トラヒックを分類している。
【0020】
具体的には、通信リンクを利用してデータ通信を行うアプリケーションのアプリケーシ
ョン種別ごとに、当該アプリケーション種別のアプリケーションによるトラヒックの特徴
を示す各種特徴量を記憶しておき、通信リンク上のトラヒックを構成する各フローを個別
に観測して得られた観測情報に含まれる、対象フローのトラヒックの特徴を示す各種の特
徴量ごとに、当該特徴量と特徴量データベースのアプリケーション種別ごとの特徴量との
類似度を算出し、これら類似度からなる特徴ベクトルを、類似度と各アプリケーションと
の対応関係を示す識別マップで照合することにより、当該対象フローのアプリケーション
種別を識別している。
【0021】
次に、図1を参照して、本実施の形態にかかるトラヒック分類装置10の構成について
詳細に説明する。
このトラヒック分類装置10には、主な機能部として、データ入出力部11、特徴量デ
ータベース(以下、特徴量DBという)12、記憶部13、類似度算出部14、アプリケ
ーション識別部15、およびトラヒック集計部16が設けられている。
【0022】
データ入出力部11は、網管理システム20の観測情報DB22から、分類対象となる
通信リンクを流れるトラヒックを構成する各フローを個別に観測して得られた観測情報を
取得する機能と、得られた解析結果を表示端末装置30へ出力する機能とを有している。
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
4
【0023】
網管理システム20では、送信元・送信先IPアドレス、送信元・送信先ポート、通信
プロトコル(TCP/UDP) などの条件で識別されるフローごとに、パケットの到着間
隔、パケットサイズ、フロー持続時間、フローのサイズなどの指標を、任意の時刻、ある
いは時系列で通信網50から収集し、当該フローの特徴量として観測情報DB22へ蓄積
している。特に、時系列で観測する場合には、数秒~数十秒の粒度で観測すればよい。
【0024】
特徴量DB12は、ハードディスクなどの記憶装置からなり、通信リンクを利用してデ
ータ通信を行うアプリケーションのアプリケーション種別ごとに、当該アプリケーション
種別のアプリケーションによるトラヒックの特徴を示す各種特徴量を、データベースとし
て記憶する機能を有している。
【0025】
記憶部13は、半導体メモリやハードディスクなどの記憶装置からなり、トラヒック分
類装置10でのトラヒック分類処理で用いる各種処理情報やプログラム13Pを記憶する
機能を有している。記憶部13で記憶する主な処理情報として、特徴ベクトル13Aと識
別マップ13Bとがある。
特徴ベクトル13Aは、類似度算出部14で算出された各種類似度からなるベクトルデ
ータである。識別マップ13Bは、類似度と各アプリケーションとの対応関係がベクトル
空間(特徴空間)内に表現されたデータである。
【0026】
類似度算出部14は、データ入出力部11で取得した観測情報に基づいて、これら観測
情報に含まれる対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と
特徴量DB12のアプリケーション種別ごとの特徴量との類似度を算出する機能と、これ
ら類似度から当該対象フローの特徴ベクトルを生成する機能とを有している。
【0027】
アプリケーション識別部15は、これら類似度からなる特徴ベクトル13Aを、類似度
算出部14で得られた類似度と各アプリケーションとの対応関係を示す識別マップ13B
で照合することにより、当該フローのアプリケーション種別を識別する機能を有している
。
トラヒック集計部16は、アプリケーション識別部15で識別した、分類対象となる通
信リンク上の各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計す
る機能を有している。
【0028】
トラヒック分類装置10の各機能のうち、類似度算出部14、アプリケーション識別部
15、およびトラヒック集計部16は、演算処理部から構成される。演算処理部は、CP
Uなどのマイクロプロセッサとその周辺回路を有し、記憶部13のプログラム13Pを読
み出して実行することにより、これら機能部を実現する。プログラム13Pは、データ入
出力部11を介して外部装置や記録媒体から予め読み込まれて記憶部13へ格納される。
このほか、トラヒック分類装置10には、一般的なパーソナルコンピュータに設けられ
ている、操作入力部や画面表示部など基本的な構成が設けられており、オペレータとのイ
ンターフェースなどに用いられるものとする。
【0029】
[本実施の形態の動作]
次に、図2を参照して、本実施の形態にかかるトラヒック分類装置の動作について説明
する。図2は、本実施の形態にかかるトラヒック分類装置のトラヒック分類処理を示すフ
ローチャートである。
【0030】
トラヒック分類装置10は、まず、データ入出力部11により、網管理システム20の
観測情報DB22から、分類対象となる通信リンク上の各フローに関する観測情報を取得
して記憶部13へ保存し(ステップ100)、これらフローのうちからアプリケーション
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
5
種別の識別処理が未処理のフローを選択する(ステップ101)。
【0031】
続いて、トラヒック分類装置10は、類似度算出部14により、選択した対象フローに
関する観測情報を記憶部13から取得し、当該観測情報に含まれる特徴量と、特徴量DB
12から取得した各アプリケーション種別ごとの特徴量との類似度を算出し(ステップ1
02)、これら類似度からなる特徴ベクトル13Aを生成する(ステップ103)。
【0032】
この際、類似度算出部14では、類似度算出対象となる特徴量は、観測情報に含まれる
1つの指標からなる特徴量であってもよく、複数の指標の組み合わせからなる特徴量であ
ってもよい。また、これら特徴量は、任意の時刻における指標値を用いてもよく、時系列
で変化する指標値を用いてもよい。また、これら時刻や時系列は、絶対的な時刻を用いて
もよく、フロー開始時点などの基準時刻からの相対的な時刻を用いてもよい。
【0033】
図3は、類似度算出過程を示す説明図である。ここでは、対象フローについてn個(n
は2以上の整数)の特徴量P1~Pnが記憶部13の観測情報から取得されている。一方、
特徴量DB12には、m個(mは2以上の整数)のアプリケーション種別A1~Amごとに
、特徴量の組が登録されており、各特徴量の組には、n個の特徴量Qi1~Qin(iは1~
mの整数)が含まれている。
【0034】
類似度算出部14は、例えばアプリケーション種別A1について、特徴量P1と特徴量Q
11の類似度S11を算出し、同様にして特徴量Pnと特徴量Q1nの類似度S1nまでを算出し
、アプリケーション種別A1に関する特徴ベクトルV1を算出する。
類似度算出部14は、このようにして、アプリケーション種別A1~Amに関する特徴ベ
クトルV1~Vmを算出し、これらを統合して特徴ベクトル13Aを生成する。
【0035】
この後、アプリケーション識別部15は、これら類似度からなる特徴ベクトル13Aを
、記憶部13の識別マップ13Bで照合することにより、当該対象フローのアプリケーシ
ョン種別を識別し、識別結果を記憶部13へ保存する(ステップ104)。
図4は、識別マップの構成例である。ここでは、理解を容易とするため、2つの類似度
S11,S12と2つのアプリケーション種別A1,A2との対応関係に関する2次元空間上で
の識別マップが示されているが、図3の例では、m×n次元のベクトル空間で表現される
。
【0036】
図4において、特徴ベクトル13Aを識別マップ13Bで照合した際、特徴ベクトル1
3Aが点M1にマッピングされた場合には、当該対象フローのアプリケーション種別がA
1と識別され、点M2にマッピングされた場合には、当該対象フローのアプリケーション
種別がA2と識別される。
【0037】
このようにして、対象フローのアプリケーション種別を識別した後、トラヒック分類装
置10は、記憶部13の観測情報のうち未処理のフローがあるかどうか確認し(ステップ
105)、未処理フローが存在する場合には(ステップ105:NO)、ステップ101
へ戻る。
【0038】
一方、未処理フローが存在しない場合(ステップ105:YES)、トラヒック分類装
置10は、トラヒック集計部16により、記憶部13に保存されている各フローの識別結
果に基づいて、分類対象となる通信リンク上の各フローのアプリケーション種別ごとに、
各フローのトラヒック量を集計して記憶部13へ保存し(ステップ106)、一連のトラ
ヒック分類処理を終了する。
【0039】
これにより、表示端末装置30からの要求に応じて、トラヒック分類装置10は、記憶
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
6
部13からアプリケーション種別ごとのトラヒック集計量を取得し、データ入出力部11
から表示端末装置30へ送信する。これにより、表示端末装置30のトラヒック量表示部
31でアプリケーション種別ごとのトラヒック集計量が画面表示される。
また、トラヒック分類装置10は、自装置におけるオペレータ操作に応じて、記憶部1
3からアプリケーション種別ごとのトラヒック集計量を取得して、自装置で画面表示し、
あるいはデータ入出力部1から外部装置や記録媒体へ出力する。
【0040】
[本実施の形態の効果]
このように、本実施の形態は、特徴量DB12で、通信リンクを利用してデータ通信を
行うアプリケーションのアプリケーション種別ごとに、当該アプリケーション種別のアプ
リケーションによるトラヒックの特徴を示す各種特徴量を記憶しておき、類似度算出部1
4により、通信リンク上のトラヒックを構成する各フローを個別に観測して得られた観測
情報に含まれる、対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量
と特徴量データベースのアプリケーション種別ごとの特徴量との類似度を算出し、アプリ
ケーション識別部15により、これら類似度からなる特徴ベクトル13Aを、類似度と各
アプリケーションとの対応関係を示す識別マップ13Bで照合することにより、当該フロ
ーのアプリケーション種別を識別している。
【0041】
したがって、本実施の形態によれば、このようなスコアレベルのマルチモーダル手法を
用いていることから、同一通信リンク上のトラヒックで使用されているアプリケーション
種別数が多い状況であっても、通信トラヒックに含まれる各フローのアプリケーション種
別を、十分な精度で識別することができる。
【0042】
また、本実施の形態では、トラヒック集計部16により、各フローのアプリケーション
種別ごとに、各フローのトラヒック量を集計するようにしたので、分類対象となる通信リ
ンクにおいて需要の高いアプリケーション種別を的確に把握することができる。これによ
り、需要の高いアプリケーション種別に応じた通信設備を、適切なタイミングで増減設す
ることができ、通信サービス事業者では、高い品質で通信サービスを提供することが可能
となる。
【0043】
また、本実施の形態では、識別マップ13Bを生成する識別マップ生成処理部を設けて
もよい。識別マップ13Bは、アプリケーション種別が既知のフローを試験的に観測し、
得られた観測情報から前述と同様にして特徴ベクトルを求め、この特徴ベクトルをベクト
ル空間内にマッピングすることにより生成することができる。これにより、別個の構成を
設けることなく、容易に識別マップ13Bを生成することが可能となる。
【0044】
また、本実施の形態では、特徴量DB12を生成する特徴量DB生成処理部を設けても
よい。特徴量DB12は、アプリケーション種別が既知のフローを試験的に観測し、得ら
れた観測情報から前述と同様にして特徴ベクトルを求めることにより生成することができ
る。これにより、別個の構成を設けることなく、容易に特徴量DB12を生成することが
可能となる。
【0045】
また、本実施の形態では、アプリケーション種別識別処理に用いる特徴量DB12や識
別マップ13Bなどのルールの変動を検出するルール変動検出部を設けてもよい。通信網
50のトポロジーや設備の変更、あるいはアプリケーションの更新などの外的要因に応じ
て、アプリケーション種別ごとのトラヒックも変化する。この変化は、アプリケーション
種別が既知のフローを試験的に観測し、得られた観測情報から前述と同様にして特徴ベク
トルを求め、この特徴ベクトルをベクトル空間内にマッピングすることにより、識別誤差
として検出することができる。
【0046】
整理番号:NTTH206856 特願2009-158532 (Proof) 提出日:平成21年 7月 3日
7/E
これにより、別個の構成を設けることなく、容易にルール変動を検出することが可能と
なり、トラヒック分類装置10の画面表示部で、識別誤差の大きさやルール修正の要否な
どを表示するようにしてもよい。
また、前述した識別マップ生成処理部や特徴量DB生成処理部を合わせて備える場合に
は、これら機能部を利用して、これらルールの再構築を自動実行してもよい。
【0047】
[実施の形態の拡張]
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるも
のではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な
変更をすることができる。
【符号の説明】
【0048】
10…トラヒック分類装置、11…データ入出力部、12…特徴量DB、13…記憶部
、13A…特徴ベクトル、13B…識別マップ、13P…プログラム、14…類似度算出
部、15…アプリケーション識別部、16…トラヒック集計部、20…網管理システム、
21…観測情報収集部、22…観測情報DB、30…表示端末装置、31…トラヒック量
表示部、50…通信網、51A,51B,51C…ノード、52A,52B…通信リンク
。
Fly UP