トラヒックパターン分類によるネットワークサービスの識別手法に関する研究

by user

on 28 марта 2017

Category: Documents

>> Downloads: 0

views

Report

Comments

Description

Download トラヒックパターン分類によるネットワークサービスの識別手法に関する研究

Transcript

トラヒックパターン分類によるネットワークサービスの識別手法に関する研究

年度修士論文
トラヒックパターン分類による
ネットワークサービスの識別手法に関する研究
指導：
小松尚久教授
年月日
早稲田大学理工学術院基幹理工学研究科情報理工学専攻
山下剛史
目次
第
章
序論
本研究の背景と目的本論文の構成トラヒックパターン分類に関する従来研究
ポート番号による分類手法ペイロード情報による分類手法フローの統計情報による分類手法第章
第章
ネットワークサービス識別手法の提案
提案手法の概要識別器の概要と構成識別用コードブックに求められる要件提案手法における特徴量の有効性評価
評価対象とするトラヒックデータ第章
第章
抽出する特徴量トラヒックデータの特徴
クラスタリングによる定量的評価ベクトル量子化を用いた評価手法評価結果考察ネットワークサービス間の類似度を用いたコードブック作成手法の検討
類似度の評価手法
類似度に基づくコードブックの再作成コードブック再作成後の識別率評価実験第章
実験結果考察トラヒックデータ取得環境と識別結果
取得環境に依存しないコードブックの作成コードブックの作成手法による識別率比較実験作成手法１：単一の環境によるコードブック目次
第章
作成手法２：複数の環境によるコードブック識別率の評価
考察結論
まとめ今後の課題謝辞
参考文献
付録パケットキャプチャリング
使用したスペックキャプチャリング手順研究室内でのキャプチャリング環境ノイズフィルタリング
付録関連業績
第
章
序論
本研究の背景と目的
インターネットの急速な普及・高速化により，通信トラヒックが急増すると共に動画や音声，
ファイル転送に関するものなどネットワーク上で利用されるサービスの多様化が進んでいる．例
えば，音声・映像通信等の一定レートを要求するアプリケーションから，ファイル交換のように
長時間帯域を使い切るアプリケーションまで様々な品質条件のアプリケーションが同じ品質クラ
スとして混在している．また，技術が成熟化するとともに，新たな付加価値としてインターネッ
トの通信品質を高めることが期待されているが，トラヒックの運用管理のために何を測定するべ
きかといった基準は明確にはされていない．
特に網では，様々なサービスのトラヒック変動特性を考慮した上で，ネットワーク運用管理
を行う必要があるが，トラヒックをサービスごとに分類する技術というものは確立されていない
ため，現段階の運用管理では，ネットワーク内の各装置におけるトラヒック総量把握にとどまっ
ている．そのためサービスの利用形態や構造の変化が起こった場合でも，その原因の詳細が不明
瞭となるのでネットワーク管理者の対応が後追いとなる問題が発生する．
こういった問題を解決し，かつ低コストでユーザの要求に叶うよう通信品質を高める手法とし
て，ネットワーク上を流れるアプリケーション・サービス区分毎に品質を提供するという形態が
有力である．これは，特に広帯域を必要とする映像トラヒックなどの，重要性の高いサービスや
品質要求の厳しいサービスを優先的に転送することで，限られた帯域を有効的に使っていくとい
う考えに基づいている．サービス毎に区別した品質提供を行う場合，ネットワーク管理者はサー
ビス毎のトラヒック管理に基づく品質監視・品質設計を行うため，サービス毎の通信トラヒック
量を把握しておくことが望ましい．このため，トラヒック情報をサービス毎に分類する技術が必
要だと考えられる．
そこで本研究では，ネットワーク上を流れるトラヒックの連続入力データに対して，パターン
認識技術を適用することでサービス毎に分類する手法の提案を行う．本手法の利点としては，ペ
イロード情報を参照せずにサービス分類が可能である，フローの終了を待つ必要が無くリアルタ
イムな処理が可能である，未知のサービスが出現した場合，コードブック（識別辞書）を追加し
なくても，サービスの挙動などを確認することでサービス分類を推測できる，といった点などが
挙げられる．また，分類を行う際コードブックに求められる要件を抽出し，適切なサービス区分
第
章序論
の見直しとして，サービス間の類似度算出手法の提案・評価を行う．さらに，環境に依存しない
コードブックの作成を目的とした，トラヒック取得環境の変化による識別率の低下について評価・
検討を行う．以上より，トラヒック内に混在するサービス・アプリケーションの可視化手法によ
るネットワーク品質の向上を目的とする．
本論文の構成
本論文の構成
本論文の構成と，各章の概要を以下に示す．
第章
序論
研究を行うにあたっての社会的，技術的背景と，本論文の構成を述べる
第章
トラヒックパターン分類に関する従来研究
本研究に関連する事柄として，トラヒックをサービス毎に分類する従来手法を挙げ，それ
らの手法の特長について述べる．
第章
ネットワークサービス識別手法の提案
本研究で提案する，連続入力データを特徴量としたサービス分類手法及び，ベクトル量子
化による量子化誤差の算出方法と識別辞書の作成方法について述べる．また，トラヒック
のサービス分類における識別辞書の要件について述べる．
第章
提案手法における特徴量の有効性評価
本研究で提案する連続入力データを用いたサービス分類において，有効な特徴量の評価実
験諸元，実験結果及びその考察について述べる．
第章
ネットワークサービス間の類似度を用いたコードブック作成手法の検討
ネットワークサービス間の類似度によるコードブック再作成手法を提案する．また，再作
成後の識別率評価実験及びその考察について述べる．
第章
トラヒックデータ取得環境と識別結果
複数の環境でトラヒックデータを取得し，学習と識別に異なるトラヒックデータを用いた
場合の識別率の比較実験及びその考察について述べる．
第章
結論
本研究に関するまとめと，今後の課題を述べる
第章
トラヒックパターン分類に関する従来
研究
従来における，トラヒックからサービス・アプリケーションを結びつける手法は，利用する特徴
量によって大きく分類することができる．ここでの特徴量とは，取得したトラヒックデータ（パ
ケット）が保有している情報であり，パケットサイズや到着時間などの値そのものや，それらの
統計値などが特徴量として挙げられる．パケットが保有する主な情報を図に示す．
Version
Header
Type of Service
Length
Identification
Time to Live
Total Length
Flags
Protocol
IP ヘッダ
Flagment Offset
Header Cheacksum
Source IP Address
Destination IP Address
Source Port
Destination Port
UDP ヘッダ
Sequence Number
Acknowledgment Number
Data
Offset
Reserved
Flags
Window
Checksum
TCP ヘッダ
Source
Port
Destination
Port
Total
Length
Checksum
Urgent Pointer
ペイロード
図パケット内に保持されている情報図において，色がついている部分は従来手法でよく用いられている情報である．以下に代
表的なサービス分類手法をまとめる．
第章トラヒックパターン分類に関する従来研究
ポート番号による分類手法
これは，に登録されている，ポート番号とアプリケーションの対応表で分類する手法
である．トラヒックのサービス分類手法としては最も単純な手法であり，多くのサービスで
は，通信に使用するポート番号がポートとして予め固定されているため，ポート番
号をパケットヘッダから参照することで，そのデータがどのサービスから送信されたものかを確
認することが出来る．しかし，をはじめとした近年問題となっているサービスには使用する
ポート番号をランダムに決定したり，意図的にポート番号を変更するものが存在する．その
ため，こういったサービスに対してポート番号による分類は信頼性に欠ける可能性がある．また，
ポートを使用しないサービスや， !"" などの，同じポート上で複数サービスが提
供されている場合などに分類が不可能である，といった問題点が挙げられる．図にポート番
号による分類手法の概要図を示す．
Network
Node A
Node B
Link
identify
Packet a : p
port number = ##
Protocol
identify
Packet b : port number = ##
・
・・
identify
FTP
20
SSH
22
Telnet
23
SMTP
25
POP3
110
・・・
・・・
List of portnumbers
Packet n : port number = ##
図ポート番号によるサービス分類手法
Portnumber
ペイロード情報による分類手法
ペイロード情報による分類手法
ポート番号を用いないサービス分類手法としては，パケットからヘッダ部分を除いたデータで
あるペイロードを利用した手法が提案されている．この手法では，ペイロードに表れるサー
ビス特有の文字列から生成したビットパタン（シグネチャ）をパターンマッチングすることでサー
ビスを特定することが出来る．この検討は主にポート番号で分類できないトラヒックの識別
に利用されており，企業の脅威管理用のコンプライアンス等で使用されている．しかし，ペイロー
ド情報を参照することは，プライバシーやセキュリティの面で問題となることと，暗号化された
トラヒックに対しては，事前に復号化キーが必要となり処理負荷が増加する点が問題として挙げ
られ，大規模ネットワークに適用することが困難であると考えられる．図にペイロードを用
いた分類手法の概要図を示す．
Network
Node A
Node B
Link
identify
Protocol
Signature
Gnutella
GNUTELLA
OK¥n¥n
Packet a : signature= ##
eDonkey
$command_type
field1 field2
・・
・
Packet a : signature = ##
Bittorrent
<1byte><19byte>
Kazaa
X-KazaaUsername: ¥r¥n
・・・
・・・
identify
Packet a : signature= ##
identify
List of signatures
図ペイロードによるサービス分類手法
第章トラヒックパターン分類に関する従来研究
フローの統計情報による分類手法
ポート番号やペイロードを参照しない手法として，フローにおけるパケットの到着間隔やパ
ケットサイズなどの統計情報に基づいた手法が提案されている．ここで，フローとは
送信アドレス
送信ポート番号
受信アドレス
受信ポート番号
プロトコル
のつの組み合わせが一致するパケットの集合と定義される．この手法は，サービス毎にフロー
群から統計情報を取得し，サービス毎のパターンを予めデータベース内にテンプレート #雛形$ と
して保管した後に，観測したフローの統計情報とテンプレートを比較することでサービスを特定
する．ペイロードを参照する必要が無く，ポート番号とアプリケーションの対応表も必要ないと
いった利点がある．図にフローの統計情報を用いた分類手法の概要図を示す．
Network
Node A
Node B
Link
Flow a
identifyy
Flow b
identify
・
・
・
Template
Flow n
identify
図フローの統計情報によるサービス分類手法
フローの統計情報による分類手法
学習の手法としては，決定木，単純ベイズ分類器，ニューラルネットワーク等複数の手法が存在する．フローの統計情報を用いたサービス分類手法で多く利用されている特
徴量は，表の通りである．
表サービス分類に利用される特徴量
特徴量
統計情報
パケットサイズ %&'
平均値( 標準偏差など
パケット
到着間隔 )
平均値( 標準偏差など
パケット数
フローにおける
総バイト数 %&'
フローの
持続時間 )
また，使用する統計情報の違いで複数の検討が存在しており検討によってこれらのフロー情報
の組み合わせは異なっている．しかしフローによるサービス分類手法は，トラヒックデータから
の連続的な入力が期待できるにも関わらず，トラヒックの時間的な変化を一まとめにして扱って
しまっている．そのため，トラヒックの時間的な変化に着目することにより，さらにサービス分
類性能が向上する可能性がある．例えばバイオメトリクスでは，発話時における唇動作個人認証
において複数のアルゴリズムが提案されているが，時系列情報を使用しないアルゴリズムと使用
するものを比較した際，後者のアルゴリズムの方がより高い精度で認証が可能であることが報告
されている．
また，サービス分類に利用されている特徴量が識別器の設計という点においてサービス分類に
適切かどうかの評価は十分には行われていない．そこで本研究では，トラヒックから得られる特
徴量の連続入力データに着目し，どの特徴量を用いることがトラヒックのサービス分類に有効か
評価を行った．次にサービス区分についても，現在用いられている区分 #動画，音声，テキスト通
信など$ が同様の特徴を持ったパケットで構成されているかの検討はあまり行われていない．そ
こでサービス間の類似性を比較し，類似性の高いサービスを統合することで，共通コードブック
の作成を行った．
第章
ネットワークサービス識別手法の提案
提案手法の概要
既存のサービス分類手法で多く用いられているフローの統計情報は，トラヒックの時間的な変
化を一まとめにして扱っており，サービス毎のパケットによる連続入力が期待出来るにも関わら
ず，それらについてはほとんど考慮していない．そこで，本研究ではトラヒックの微小時間毎の
変化に着目し，トラヒックの連続入力データ #特徴量$ とベクトル量子化を用いたサービス分類手
法を提案する．連続入力データを使用することは，従来の手法と比較して
フローの終了を待つ必要が無い
処理量を軽減することが可能
サービス毎に得られるパターン数の増加
パケットの推移情報による，未知サービスの推測が可能
といった点で有効であると考えられる．
本研究では，サービス毎に発生させたトラヒックに対して以下の手順で特徴量の抽出を行う．
■特徴量抽出手順
パケットアナライザソフトによる *)* データの取得
本研究では，パケットキャプチャリングにフリーのアナライザソフトであるを用いる．
前処理：ノイズ #広告，名前解決など$ の除去
のフィルタリング機能を用いて，アドレス，ポート番号の指定を行う．
単位時間 #任意に指定$ ごとに含まれるパケットの抽出
前処理後のパケットデータから，指定した時間幅 #フレーム$ に含まれるパケット数，総パ
ケットサイズ，到着間隔といった特徴量を連続的に取り出す．その後，各特徴量における統
計情報などの算出を行う．この際，フレーム内に一つもパケットが存在しない場合は値を出
力しない．図に特徴量抽出の概要を示す．
第章ネットワークサービス識別手法の提案
Feature data
packets
3
size
182
pai
0.08
3
2
272
0.002
・・・
・・・
・・・
・・・
Time
1
Leave out
1
3
2
n
・・・
Time
: packet
: sampling rate
図特徴量抽出方法
次に，得られた特徴量に対してベクトル量子化を用いることで各サービスのコードブック
（識別辞書）を作成する．本研究では，サービスを表す特徴として種類の特徴量を抽出している
ため，一つのサービスのコードブックには｛ ×コードブックのレベル数｝個の値が登録される．
サンプルデータの数は特徴量ごとに異なるため，コードブック作成時のベクトル量子化レベルに
対して十分なデータ量が得られた時点でテンプレートを作成する．これをサービスの特徴データ
として用いる．テンプレートデータの概念図を図に示す．
Num of Service
Codebook：Service C
feat feat Codebook：Service
feat feat feat feat Bfeat
Codebook：Service
1 feat2 feat3 feat
4 feat5 feat6 feat7 A
feat
-
1 -feat2
- - 1- - -- - ---
-feat3
2
- - - --
-feat4
3
- - - --
-feat5
4
- - - --
-feat6
5
- - - --
-
-
-
-
図 -feat7 feat
6
7
- - - --
-
テンプレートデータ概念図
VQ Level
提案手法の概要
以上が登録過程である．次に識別過程の手順について述べる．
■識別過程
取得トラヒックデータに対して前処理・特徴抽出
テンプレート内のコードブックと取得データ間のベクトル量子化誤差を算出
，要素における特徴量の値を
，コードブックの要素を # $ と定義すると，入力における最小誤差は式 # $ で，取得データとコードブックとの量子化誤差は式 #$ で算出される．
+ # # $$ + … # $
，ベクトル量子化レベルを
ここで，取得データ数を
+
#$
処理を登録されている全コードブックに対して行い，
の最小値
を算出．
が所属するサービスを結果として出力．
図に識別過程の流れを，図に本提案手法の概念図を示す．
Feature data
Time
1
Codebook：Service A～N
Feat1
Feat2 ・・・
feat1-1 feat2-1
3
feat1-3 feat2-3
・・・
・・・
・・・
M
feat1-M feat2-M
min1-1
min1
1
min1-3
・・・
min1-M
feat
1
feat
2
feat
3
feat
4
feat
5
feat
6
feat
7
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
A～N
÷M
Da
Db
Dc
min
Distance of Service A～N
A～N
図識別過程の流れ
Damin
第章ネットワークサービス識別手法の提案
Enrollment
Identification
Traffic data for Enrollment
Traffic data for identification
preprocessing
Time-sampling Extraction
Traffic-feature Extraction
Vector Quantization
Features Match
Template
Result
図提案手法の流れ
識別器の概要と構成
トラヒックデータからサービスを分類する場合には，パターン認識技術を用いて入力された
データと登録したテンプレートを比較し識別を行う．パターン認識とは入力したパターン #文字画
像や時系列信号，センサーから得た情報など$ が，予め定めたクラスの集合のうちどのクラスに対
応するかを出力する処理である．
入力されたパターンから数値化して抽出した特徴量は，それらを組み合わせた特徴ベクトルと
して扱われる．いま，個の特徴を用いるとすると特徴ベクトルは以下の式で定義される．
+ # … $
この特徴ベクトルによって張られる空間のことを特徴空間と言い，同じクラスを持つ特徴ベク
トルは特徴空間上でまとまったクラスタとなる．パターン認識によるトラヒックパターン分類シ
ステムを構成する場合，一般的に図の形式が用いられる．前処理部では得られたトラヒック
データをフロー化したり，ノイズの除去を行うことで特徴を抽出しやすい形に出力する．次に特
徴抽出部では各種特徴量（パケットサイズや到着間隔など）の抽出を行う．最後に、トラヒック
データから抽出された特徴を事前に与えたトラヒックデータから作成したコードブックと比較す
ることで，入力パターンがどのサービスに所属するかを決定する．
識別用コードブックに求められる要件
入力パターン
出力
特徴
抽出部
識別
演算部
サービスA
前処理部
識別辞書
サービスB
サービスC
識別部
図認識系の構成
以上の処理の中でも、特に特徴抽出部ではトラヒックデータからサービスを適切に分類できる
特徴を抽出する必要があり，この処理は認識系の性能を大きく左右する重要な部分である．その
ため，特徴量の性質や特徴空間での分布を明確にする必要がある．そこで本研究では，トラヒッ
クから取得された連続入力データがサービス分類においてどの程度有効であるかの検討を行った．
検討の具体的な方法については第章で説明する．
識別用コードブックに求められる要件
通信トラヒックのサービス分類において，識別辞書に求められる要件としては以下のものが挙
げられる．
ペイロードを参照せずにサービスが分類できる．
リアルタイム上での処理が可能である．
処理にかかる負荷が小さい．
取得環境に依存することなくサービスが分類できる．
識別辞書を追加することなく新規のサービスを分類できる．
ここで，識別辞書を追加することなく新規のサービスを分類できるとは，今後ネットワーク上に
発生すると考えられる未知のサービスに対しての要件であり，例えば，既存のトラヒックパター
ンの集合に対して未知サービスのトラヒックデータがどのように推移するかによって推測が可能
だと考えられる．推移パターンによる未知サービス分類の概念図を図に示す．
第章ネットワークサービス識別手法の提案
Traffic Pattern
Pattern-moving List of Service
α
Service A （α⇒β⇒γ）
Service B （β⇒δ）
Service C （δ⇒γ）
・・・
β
S i
Service
X （β⇒δ⇒γ）
（β δ γ）
γ
δ
Service B+C
図未知サービスの推定
そこで，本研究では以上の要件について検討を行うために，ペイロードを参照しない，単位時
間ごとの特徴量を用いたサービス分類手法に着目する．また，サービス分類に使用する共通的な
コードブックの作成における，コードブック同士の類似度について第章で検討を行う．
第章
提案手法における特徴量の有効性評価
本研究では，ネットワーク上に混在するサービスのトラヒックを分類する手段として，連続入
力データとパターン認識を用いたネットワークサービス識別手法を提案する．パターン認識にお
ける識別器の構成については節で述べたが，その中でも特徴抽出部は最終的な識別結果に大
きな影響を及ぼす重要な箇所であり，サービス分類に使用する特徴量はトラヒックごとの特徴を
充分に表していることが望まれる．
しかし，トラヒックパターン分類に関する従来研究では，多くの特徴量が提案されているにも
関わらず，それらの特徴量がトラヒック分類においてどれだけ有効であるかといった検討はあま
り行われていない．そこで本研究では，識別器設計の観点から今回提案した特徴量がどれだけ有
効であるかの検討を行う．
評価対象とするトラヒックデータ
本研究では，ネットワークサービスとして主に提供するデータの内容から音声通信，映像通信，
テキスト通信，ファイル通信，ゲームの種類を定義し，実際に稼働しているサービスを利用す
ることでトラヒックデータの取得を行う．具体的なトラヒックデータの取得方法については付録
に掲載する．また，サービスに直接関係の無いパケットはノイズとして扱い，データ取得後に
除去を行う．ノイズと判定するパケットの具体的な内容は付録 , に掲載する．サービスの定義と
本研究で使用したトラヒックデータの一覧（種類）を表に示す．
ネットワークサービスのトラヒックに表れる特徴を確認するため，トラヒックデータの取得は
一回のサービスの開始∼終了までと定義する．しかし，ストリーミングやオンラインゲームと
いった，ユーザの利用形態によってサービス終了のタイミングが異なるサービスにおいては，一
定の時間経過をサービス終了とみなし，トラヒックデータの取得を行う．本研究で使用したデー
タにおける，サービスの開始から終了までの概要と取得回数について表に示す．以下，サー
ビス名の表記は表に従うものとする．
第章提案手法における特徴量の有効性評価
表使用したトラヒックデータ
定義
ネットワークサービス
音声ストリーミング（" と -"）
音声通信
音声ストリーミング（" のみ）
ニコニコ動画
映像通信
)'，./'/%
0&*（チャット機能使用時）
テキスト通信
10 12
メール送受信
,'''
ファイル通信
ファイル転送（!""）
ファイル転送（3"）
種類
オンラインゲーム
表サービス概要と取得回数
サービス
概要
回数
,'''
クライアントソフトを起動させてから終了させるまで
, ゲーム
クライアントソフトを起動させてから終了させるまで
ファイルのダウンロード開始から終了まで
4 メール受信
一通のメール受信が開始してから終了するまで
5 メール送信
一通のメール送信が開始してから終了するまで
312
クライアントソフトを起動させてから終了させるまで
動画のダウンロード開始から終了まで
! ゲームクライアントソフトを起動させてから終了させるまで
)'
動画の視聴開始から終了させるまで
クライアントソフトを起動させてから終了させるまで
8 音声ストリーミング（" ＋ -"）
音声の聴取開始から終了させるまで
9 音声ストリーミング（"）
音声の聴取開始から終了させるまで
ファイルのダウンロード開始から終了まで
動画のダウンロード開始から終了まで
ファイル転送（3"）
6 ニコニコ動画
70&*（)'）
1 ファイル転送（!""）
./'/%
評価対象とするトラヒックデータ
抽出する特徴量
サービス分類に用いる特徴量を評価するため，従来研究で一般的に用いられている特徴量から
連続入力が考慮できるものを選択し，それぞれの特徴量について単位時間当たりの値と統計値の
連続入力データを抽出する．今回検討を行った特徴量を表に示す．
表使用した特徴量
# $ 単位時間当たりの総数
パケット数
#$ 総数 %&':';
#$ 平均値 %&':';
パケットサイズ
#$ 標準偏差 %&':';
#$ 総数 ):';
パケットの到着間隔
#$ 平均値 ):';
#$ 標準偏差 ):';
トラヒックデータの特徴
今回取得したサービスにおける，パケットサイズの推移を図，，，に示す．縦軸
はパケットサイズであり，横軸は時間を表している．
Peercast
Streaming1
Streaming2
80000
40000
packe
ket size[byte]
packe
ket size[byte]
100000
Bittorrent
Online2
Online1
50000
30000
20000
60000
40000
20000
10000
0
0
0
20
40
60
80
100
120
0
140
図 20
40
60
80
100
120
140
time[sec]
time[sec]
図サービスにおけ
サービスにおける
パケットサイズの推移
るパケットサイズの推移
図より，サービスではサービス開始時からほとんどパケットが発生していないが，)
前後からファイルの転送と接続要求による大量トラヒックのやりとりがあることが分かる．また，
第章提案手法における特徴量の有効性評価
1.4e+006
FTP
Nico
Filetrans
Youtube
1e+006
Skype
Msn
12000
10000
packe
ket size[byte]
packe
ket size[byte]
1.2e+006
800000
600000
400000
8000
6000
4000
2000
200000
0
0
0
10
20
30
40
0
50
図 10
20
30
40
50
time[sec]
time[sec]
図サービスにお
サービスにおけるパ
ケットサイズの推移
けるパケットサイズの推移
サービス ,(! ではクライアントソフト起動時のトラヒックに対して実際にゲームをしている最中
のトラヒックは非常に小さいという特徴が表れている．図より，サービス，8，9 では動画
や音声を受信する際に要求とデータ転送による一定サイズの連続したパケット発生が見られる．
図より，サービス，6 では，パケット数が他のサービスに比べて明らかに多く，サービス 6
の波形も連続的ではなく間隔を空けて大容量のパケットをやり取りしている事が分かる．図より，サービス 3，7 ではサービス ,，! と同様サービス開始時と比較してテキストデータをやり
取りするチャット部分のパケットサイズが小さいといった特徴がある．
以上のことから，サービスごとに異なる特徴推移の波形が確認出来る．さらにサービス同士の
差異を定量的に判断するため，本研究ではベクトル量子化による特徴量の評価を行う．
クラスタリングによる定量的評価
ベクトル量子化を用いた評価手法
ベクトル量子化アルゴリズムに 9,6<0*''2 を用いてコードブックの作成を行い，コー
ドブックとトラヒックデータの距離を測定する．このとき，距離は式 #$ で表される．ベク
トル量子化とは，入力されたデータを任意の次元のコードブック値で置き換える処理であり，
9,6<0*''2 アルゴリズムは適当な初期コードブックから出発した後で，学習系列に分割条件
と代表点条件を繰り返し適用することで良好なコードブックに収束させるコードブック設計アル
ゴリズムである．なお，ベクトル量子化による評価手法は特徴量の順序を考慮しないため，今回
の検討では表の特徴量を順番に関係の無い連続入力データとして扱う．ここで，評価プロセ
スの概要を図に示す．このプロセスによって算出される距離が，同一サービス間では小さく，
異なるサービス間では大きい特徴量はサービスを分類する上で有効であると考えられる．評価を
クラスタリングによる定量的評価
行ったデータについて表に示す．
コードブック
サービスC
サービスB
サービスA
ベクトル
量子化
トラヒックデータ
距離
算出
特徴量抽出
図ベクトル量子化による評価プロセス
表評価データ諸元
評価用
データ数
コードブック
作成用データ数
サービス × 回数
サービス × 回数
ベクトル
量子化レベル
サンプリング
レート
評価結果
入力コードブック間距離の一例として，特徴量にパケット数を用いた場合の結果を表に示
す．これはサービスのトラヒックデータから抽出した特徴量を同じくサービスのトラヒックデー
タからベクトル量子化によって作成したコードブックと比較した結果を示している．各行は入力
サービスを，各列はコードブックを表し，直交座標は距離を表す．入力に対して最小の距離を算
出したコードブックは下線で表す．
パケット数以外の特徴量に対しても入力コードブック間距離を算出した結果を表に示す．
これは各特徴量で節で述べた定量的評価を行ったとき，正しいサービス同士の距離が全サー
ビスの中で何番目に小さかったかを表している．つまり，表において値が
であるサービス
と特徴量の組み合わせにおいては，実際にサービス分類を行う際も正しく識別することができる
と考えられる．また= は距離の値が全て同値であり比較が不可能であったことを示す．ここで，
特徴量の番号は表に従うものとする
第章提案手法における特徴量の有効性評価
表入力
サービス
A
B
C
D
E
F
G
H
I
J
K
L
M
N
A
7.6
0.998
31.9
9.49
0.516
2.e-1
5.e+3
0.735
2.88
0.46
1.09
0.838
2.e+5
43
B
235
0.151
380
13.7
2.44
2.e-2
4.e+4
9.85
18.7
0.433
0.198
0.744
4.e+5
456
入力サービス−コードブック間における距離特徴量パケット数
C
164
12.5
1.84
7.91
50.7
2.e+1
4.e+4
21.7
18.6
13.3
7.4
17
4.e+5
20.6
D
E
150
484
0.317
16.3
6.73 2260
404
0.503
5.81 0.0763
1.e-1 2.e-2
4.e+4 5.e+4
4.88
23.8
6.69
80.8
0.39
1.56
3.11
2.8
1.37
3.22
4.e+5 4.e+5
16.9 1710
表 0>)：,
F
570
26.8
2790
594
0.962
4.e-3
5.e+4
27.9
117
1.81
4.55
7.68
4.e+5
2030
コードブック
G
H
26.4
52.8
7.92
3.69
78.4
70.4
107
51.7
18.1
4.52
7.e-1 4.e-2
202 2.e+4
1.17 0.794
16.3
7.62
1.59 0.119
3.45 0.439
7.09
1.04
2.e+4 3.e+5
23.5
88.9
I
120
0.581
150
4.18
0.594
1.e-1
3.e+4
3.29
2.64
0.304
0.459
0.416
4.e+5
110
J
K
139
226
5.66
3.76
133
297
102
58.8
1.22 0.728
3.e-2 1.e-2
3.e+4 4.e+4
3.66
9.16
13.2
17.7
0.36
0.102
0.459 0.0339
1.78 0.543
4.e+5 4.e+5
60.7
378
正しいサービス同士の距離を比較した結果
3'/
# $
#$
#$
#$
#$
#$
#$
?
=
4?4
5?5
=
?
,?,
3?3
6?6
!?!
?
7?7
8?8
=
=
=
=
9?9
1?1
?
L
313
0.89
999
67.9
1.17
5.e-3
5.e+4
14.4
34.1
0.73
0.686
0.69
4.e+5
917
M
94.1
5.01
311
65.6
93.6
2.e+0
4.e+2
5.36
75.1
2.66
30.7
31.7
271
49.3
N
133
0.415
4.58
1.72
1.91
2.e-1
4.e+4
3.89
8.53
0.182
0.859
2.05
4.e+5
3.96
クラスタリングによる定量的評価
考察
表より，特徴量にパケット数を用いた場合はサービス !，9 を除く種類のサービスに対
して正しいサービス同士を比較したときの距離が最小となった．特にサービス，1，の場合は
異なるサービスとの距離と比べて正しいサービス同士の距離が小さく，特徴量にパケット数を用
いることがこれらのサービスを分類する場合に有効だと考えられる．また，サービス，3，，7
の場合は距離が小さいコードブックが正しいサービス以外にも複数出現するという結果が得られ
た．これは，コードブック同士が類似しているため距離の算出結果が近いものになったと考えら
れる．また，サービス !，9 においては距離の小さいコードブックが複数存在し，かつ正しいサー
ビス同士が最小距離とはならなかった．こういったサービスに対しては特徴量が十分にサービス
の特性を表せていないため誤識別をする可能性が高く，あまりサービス分類には適さない特徴量
だということが確認できる．
表より，特徴量 #１$ と #２$ は距離が最小であるサービスにあまり違いが無く，つの特徴
量の有効性はほぼ同じだと考えられる．また，特徴量（１），
（２）はサービス 9 に適さないこと
が分かるが，特徴量（３），（４）を用いることで距離を最小にすることができる．しかし特徴量
（５），（６），（７）（パケット到着間隔）を用いた場合はほとんどのサービスについて正しくない
コードブックが最小となっており，これらの特徴量はサービスごとの特徴を正しく表せていない．
これは，サービスの特性に対して適切なベクトル量子化レベルやサンプリングレートを設定でき
ていないためだと考えられ，パラメータの適切な値については今後検討する必要がある．
以上より，入力サービスによっては正解ではないコードブックに対しても小さい距離が算出さ
れる場合があることが分かる．そこで本研究では，サービス区分（音声通信，映像通信，テキス
ト通信，ファイル通信，オンラインゲーム）が同種であり，かつコードブック同士が類似している
組み合わせを統合することによるコードブック再作成手法を提案する．サービス同士の類似性に
よるコードブック再作成手法については第章で検討を行った．を
第章
ネットワークサービス間の類似度を用
いたコードブック作成手法の検討
節で述べた，本研究におけるサービス区分（./'/%，ニコニコ動画，12 など）は
コードブック間の類似性を考慮しておらず，類似度の高い異なるサービス同士が誤識別される恐
れがある．また，ネットワークサービス識別手法における識別用コードブックはお互いが十分に
分離されていることが望まれる．そこで本章では，ネットワークサービス同士の類似度を評価し
コードブック再作成手法の提案を行う．
類似度の評価手法
コードブック同士の類似度評価手法として本研究では，クラス間分散とクラス内分散の比を用
いる．これは２クラス間の分離度を評価する手法であり，一般的には，パターン認識におい
てある特徴量がクラスをどれだけ分離出来ているかの評価に用いる．ここで，クラス内分散
とクラス間分散
はそれぞれ式 # $，式 #$ で表される．
+
$ # $
¾
#
+ #
クラス
$ #
$
に属するパターンの集合：
に含まれるパターン数：
平均ベクトル：
全パターン数：
全パターンの平均ベクトル：
# $
#$
第章ネットワークサービス間の類似度を用いたコードブック作成手法の検討
クラス内分散はクラスの平均的な広がりを表し，クラス間分散はクラス間の広がりを表してお
り，クラス内分散とクラス間分散の比
分散の概要を図に示す．
は式 #$ と表せる．ここで，クラス内分散とクラス間
¾
¾
Class A
クラス内分散
Class B
クラス間分散
図より，
図クラス内分散とクラス間分散
が大きい程クラス間が分離されていると判定できる．そこで，今回使用した
サービス同士に対して分散比
の値を算出した．今回使用したデータを表に，コードブック
間の分散比算出結果を図，図に示す．
表コードブック
作成用データ数
使用したデータ諸元
（サービス）× （回数）
ベクトル
量子化レベル
サンプリング
レート
!""#
ファイル転送 $，ファイル転送 $$
メール送信，受信
サービス
種類
#%"，&'()*+ 音声ストリーミング $,-$，$
ニコニコ動画，.!/ /0
"+
オンラインゲーム類似度の評価手法
図分散比の相対値マトリクス数値
図分散比の相対値マトリクスグラフ
図は，を最大値とした場合の分散比の相対的な大きさをセル内部の帯の長さで表してい
る．図より，特に分散比が小さい組み合わせはサービス，サービスサービスである．
ービス，サ
，サービス第章ネットワークサービス間の類似度を用いたコードブック作成手法の検討
#ファイル通信：ファイル転送$，
サービス #テキスト通信：チャット$，サービス #テキスト通信：メール送受信$ サ
ービス #音声通信：音声ストリーミング$，であり，これら種類のサービス区分に対して
さらに，この中でサービス区分が同じものはサービスコードブックの再作成を行う．
類似度に基づくコードブックの再作成
類似度が高いと判定されたサービス組み合わせに対して．以下の手順でコードブックの再作成
を行う．
サービス組み合わせ｛(,｝から新サービスを定義
サービス，サービス , のコードブックにおける学習データ，% を用意
サービス，, のコードブックをテンプレートから棄却
学習データに，% の全データを使用してサービスのコードブックを作成
テンプレートにサービスのコードブックを追加
本研究で再作成を行ったサービスを表に示す．
表ファイル通信
テキスト通信
音声通信
再定義後のサービス
ファイル転送
｛3"( ファイル転送｝
メール｛送信( 受信｝
チャット｛12(0&*)'｝
音声ストリーミング
｛"<-"，"｝
コードブック再作成後の識別率評価実験
コードブックの評価実験として，コードブック再作成を行う前と後で識別率の比較を行う．実
験諸元は節と同様であり，識別率は式 #$ と定義する．
識別率正しく識別されたサービス数
× 試行回数
コードブック再作成後の識別率評価実験
実験結果
コードブック再作成前後の識別率を表に示す．なお節より，用いる特徴量はパケット
の到着間隔を除いた種類とした．また，特徴量の番号は表に従うものとする
表コードブック再作成前後の識別率
特徴量
（１）
（２）
（３）
（４）
％
％
％
％
％
％
％
％
再作成前
再作成後
考察
表より，コードブック再作成前後で識別率が下がった特徴量が存在する．これは，コード
ブックの再作成で，コードブック同士が類似しており，かつサービス区分が共通のものを定義し
なおしたが，異なるサービス区分を持つコードブックにも類似性の高いものが存在するため，そ
のサービスが誤識別を引き起こすことで識別率を下げたからだと考えられる．
また識別率が上がった原因は図のように，入力されたデータに対して，区分が共通であり
類似性が高いコードブックに誤識別していた場合が改善されたためだと考えられる．そこで，再
作成前後の識別結果から特にサービス区分に対する結果に着目すると，ほぼ全てのサービス区分
において，正しいサービスが出力されていることが確認できた．
入力
識別結果
入力
識別結果
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
mailsend
mailrcv
FALSE
mailsend
Mail
TRUE
コードブック再作成前の
識別結果
図コードブック再作成後の
識別結果
再作成前後の識別結果
第章
トラヒックデータ取得環境と識別結果
取得環境に依存しないコードブックの作成
本研究で提案するネットワークサービスの識別手法に用いる識別用コードブックに求められる
要件として，取得環境に依存しないことが挙げられる．そこで，取得環境の異なる複数のトラヒッ
クデータからコードブックを作成することで，環境の変化による識別率の影響を確認する．
コードブックの作成手法による識別率比較実験
本研究では，トラヒックの取得環境に依存しないコードブック作成手法として，学習させるデー
タベースの統合を行う．これは，多様な環境におけるサービスの挙動をコードブックに学習させ
ることによって，汎用的なテンプレートを作成するという考えに基づいており，従来のコードブッ
ク作成手法との比較実験を行うことで識別率による手法の評価を行う．
作成手法１：単一の環境によるコードブック
これは従来のコードブック作成手法であり，本章では時期，場所を変化させた種類のトラヒッ
クデータ #環境 (%()(@$ を用意し，環境から作成したコードブックを用いてそれぞれの環境にお
けるデータの識別を行う．つまり，環境のデータを識別する場合は学習用データと識別用デー
タにおけるトラヒック取得環境が等しいが，環境 %∼) を識別する場合にはサービスパターンを
学習した時期，場所ともに異なるデータを識別することとなる．単一の環境から作成したコード
ブックを用いる識別の概要図を図に示す．
第章トラヒックデータ取得環境と識別結果
環境（時期・場所）の異なるデータ
環境aの
トラヒックデータ
出力
コードブック
（環境a）
環境bの
トラヒックデータ
サービスC
サービスB
サービスA
サービスA
環境cの
トラヒックデータ
出力
識別率の
比較
出力
識別
環境dの
トラヒックデータ
トラ
ックデタ
出力
図単一の環境によるコードブック作成
作成手法２：複数の環境によるコードブック
これは，学習させるデータベースを統合させることによって，環境依存を抑制する手法である．
具体的には，本研究で用いる種類の環境のトラヒックデータのうち，種類の環境におけるデー
タから識別用コードブックを作成する．次に残りの
種類のデータに対して，複数データを統合
したコードブックで識別を行う．つまり，学習したデータのトラヒック取得環境と識別用データ
のトラヒック取得環境は常に異なるという条件の下で評価を行う．複数の環境から作成したコー
ドブックを用いる識別の概要図を図に示す．
識別
環境aの
トラヒックデータ
コードブック
（環境b,c,d）
出力
環境bの
トラヒックデータ
コードブック
（環境a,c,d）
出力
環境cの
トラヒックデータ
コードブック
（環境a,b,d）
出力
環境dの
トラ
トラヒックデータ
ックデタ
コードブック
（環境a,b,c）
（環境 b ）
出力
図複数の環境によるコードブック作成
識別率の
比較
コードブックの作成手法による識別率比較実験
識別率の評価
評価データ諸元を表に，それぞれの作成手法における識別結果を表，表に示す．
表使用したデータ諸元
コードブック
作成手法：1（サービス）× （回数）× （環境）
作成用データ数
作成手法：1（サービス）× （回数）× （環境）
ベクトル
量子化レベル
サンプリング
レート
!""# ，ファイル転送 $$
メール送信，受信
サービス
ニコニコ動画
1 種類
音声ストリーミング $,-$
.!/ /0
表環境 + のコードブックに対する入力データの識別率
入力
表特徴量
# $
#$
#$
#$
％
％
％
％
%
％
％
％
％
)
％
％
％
％
@
％
％
％
％
複数環境のコードブックに対する入力データの識別率
入力：コードブック
特徴量
# $
#$
#$
#$
：%)@
％
％
％
％
%：)@
％
％
％
％
)：%@
％
％
％
％
@：%)
％
％
％
％
第章トラヒックデータ取得環境と識別結果
考察
表より，環境の変化によって識別率が大幅に減少していることが分かる．これは，特徴量の
抽出時に速度や性能などの環境の影響を受けたデータを用いていたり，コードブックの作成
時に環境に依存しているデータを吸収出来ていないためだと考えられる．
表より，複数の環境から作成したコードブックを用いることで，単一の環境から作成した
コードブックよりも識別率を向上させることが確認出来る．これは，コードブック作成に用いる
データ量が増えたことで，サービスごとの挙動を多くのパターンで学習することが出来たためだ
と考えられる．ただし，まだ十分な精度は得られておらず，ネットワーク使用環境についても様々
なものがあるため，今後，各環境に共通する成分を抽出し，比較する必要があると考えられる．
第章
結論
まとめ
本研究ではトラヒックの連続入力データとパターン認識を用いた，ネットワーク上でのサービ
スを分類する手法を提案した．本提案方式は，従来の手法と比較して
フローの終了を待つ必要が無い
処理量を軽減することが可能
サービス毎に得られるパターン数の増加
パケットの推移情報による，未知サービスの推測が可能
といった点で有効だと考えられる．そこで本手法で用いるコードブック #識別辞書$ の作成手法に
着目し，検討を進めた．
■特徴量の有効性評価
トラヒックデータの特徴量とそれらの定量的な評価手法について述べ，トラヒック分類で一般
的に用いられている特徴量がサービスに対してどの程度有効に識別出来ているかについて検討を
行った．その結果，今回検討した特徴量はパケットの到着間隔を除いていずれかのサービスの
コードブック間距離を最小とすることを確認し，トラヒックのサービス分類に今回検討した特徴
量が有効であることを示した．
■類似度を用いたコードブックの再作成手法の評価
ネットワークサービス間の類似度から識別用コードブックを作成する手法について述べ，サー
ビス区分の観点からコードブックの再作成と再作成前後の識別率比較実験を行った．その結果，
再定義したサービス区分に対してもこれまでのデータが正しく識別されるという結果が得られ，
識別用コードブック作成手法の有効性を示した．
■トラヒックデータ取得環境に関する検討
さらに，識別用コードブックに求められる要件から，トラヒック取得条件を変化させた場合の
識別率の変化について検討を行ったところ，環境の変化によって識別率が大きく低下することが
第章結論
分かった．そこで，環境への依存性を抑える新たなコードブック作成手法を提案したところ，識
別率を向上させることに成功した．
今後の課題
今後の課題を以下に述べる．
特徴量の統合に関する検討
本研究では，トラヒックデータから
次元の特徴量を複数抽出することでコードブックの作
成を行っているが，これらの特徴量を多次元的に組み合わせることで特徴空間が拡張し，多
くのパターンを分類することが可能となる．しかし，その場合学習に必要となるデータ量も
増大するため，適切な学習データ数についても検討が必要となる．
環境に依存しないコードブック作成手法の検討
ネットワークの使用状況には様々なパターンが考えられるため，環境ごとに作成したコード
ブックに対して参照回数や量子化誤差の値といった詳細なパラメータを比較することで，環境
に依存する成分の検討とコードブックの改良 #冗長なデータを削除など$ を行う必要がある．
サービス識別アルゴリズムの検討
本研究では，入力されたデータに対して全コードブックとの距離を測定し，最小の距離を持
つコードブックを出力しており，トラヒックの時系列情報は用いていない．そこでトラヒッ
クの時間的な変化を考慮するために，入力されたデータの推移をコードブックの推移で表現
することで，多くのパターンのトラヒックデータに対応することが可能だと考えられる．
謝辞
本研究を進めるにあたり，終始懇切丁寧な御指導，御助言を賜りました小松尚久教授に心から
深く感謝の意を表します．また，共同研究者として様々な御意見を賜りました "" サービスイ
ンテグレーション基盤研究所の岩下基様，辻野雅之様，黒沢健様，竹下恵様，そして，日頃から討
論にご参加いただいた，共同研究者である小松研究室研究員の市野将嗣氏，博士課程の星健太郎
氏，学部年の前田浩明氏をはじめ小松研究室の皆様に深く感謝いたします．
年月日
山下剛史
参考文献
竹下隆史，村山公保，荒井透，苅田幸雄，“マスタリング ": 入門第版(”オーム社(
．
“ A-" B1,5-0，”''*?::
2:2;':*'/;%．
1/ ( ) ;( 6C& 1 D @ !& 19>&( “1/
;' @ & E 0';21@ @(” *)@2 E @ B05F
0&;*/; '' ")2 @ 0&';( ** ( 1) 32(01(,9&(''(18(41( --)("0& @ 04'(
“)'> "Æ) 1/;' E; ' 0*' ,)%(” (
** ( >;% " 82，,@，, ( ))C&( @ 1 3/' “ ** @&2 G/' @2H，”
(
1 @ 8 *2 “" @ ' ))/' @'I)' E ' **
)'，”
(
00( A0*')) @ 42( “))/'( )% ' @'I)' E 'Æ) /2 **)' 2'/(” )@2 E ' J? ' ''
)E) @ @ %( ** ( 1& “I'，”''*?::I'/)E2':．
八木清之介( 和泉勇治( 角田裕( 根元義章( “ネットワークアプリケーション弁別のためのペ
イロード長の遷移パタンの評価方式に関する一検討(” 電子情報通信学会技術研究報告 "1(
テレコミュニケーションマネジメント( ** ( D 6); @ 6 ( “E;) >/' E ;) 2 2'; E
& **)' @'I)'(” )@2 E ' 10" ? ''
;( 0K@ @ 6;'2( “ *;& *E;) );* E I>
;) 2 2'; E *)') 'Æ) L )I)'(”1 06A11
;*/' ;;/)' -> ( >(( ** ( 7 ( ( @GG( @ K/( “A @'I)' E **)' /2
''') %> &(” )@2 E ' 555 69A,5A1 ’? 6%
");;/)' E) ( ** ( 4) 1 @ 4K/>(“'' 'Æ) )I)' /2 %& & ')
M/(”0615 "-0 E;) 5>/' -> ( >( ( **( " /@( 1( @ 0 6/( “,& / ' E '' 'Æ) )I
)'(” / ' ( 555 ")' ( > ( ( **
( 7 参考文献
市野将嗣( 坂野鋭( 小松尚久“核非線形相互部分空間法による話者認識
(
(”信学論 #4$(>7
4( ( ** ( “(”''*?::
2
原島博，“画像情報圧縮，”オーム社，．
石井健太郎( 上田修功( 前田英作( 村瀬洋( “わかりやすいパターン認識(”オーム社( .9@(,/N @ -16&(“ 2'; E D)' O/'N 42(”555
";;/(DA1( (**
( 竹下恵， “パケットキャプチャ入門―9 アナライザ活用術(”リックテレコ
ム( ．
竹下恵，“パケットキャプチャ実践技術― によるパケット解析応用編(” リックテ
レコム( 付録パケットキャプチャリング
使用したスペック
今回使用したを以下にまとめる．
表使用のスペック
'% ;*/'? 0& DA D630,
B
' '/;1 6!N
1 1;&
1,
A0
@ F
ブラウザ
1)E' '' 5P* D 表使用のスペック
'% ;*/'? ) 9'J ' 33
B
' 4/ 6!N
1 1;&
6,
A0
@ F
ブラウザ
1)E' '' 5P* D 表使用のスペック
4'* ;*/'? 4 4150A B
' '/; 4 6!N
1 1;&
6,
A0
@ F !; @' 0
ブラウザ
A*:
D: 付録パケットキャプチャリング
本研究では，パケットのキャプチャリングにおいてを用いている．と
は，6@ ;% が開発した ' *') &N であり，以上のプロトコル解析機
能や以上の @*& I' が特徴となっている．におけるパケットキャプチャ
リングは，BF では %*)*，@ では )* を用いて行っている．
■ の設定
のキャプチャリング設定について表に示す．また，キャ
プチャリング時のスクリーンショットを図に示す．
表 2"*+"' のキャプチャリング設定
'E)? 9)
*'/
,/C N? ;2%&'#$
*'/ 3#$
3? 保存ファイル
B*@' ' E *)' ';
4*& A*'
/';') )2 > )*'/
!@ )*'/ E @2
; -/'
5% 1 ; /'
5% '*' ; /'
ここで，*'/ における ,/C N は，キャプチャを行っている際にパケットを 4* した
場合，より大きな値に変更する必要がある．
キャプチャリング手順
キャプチャリング手順について，,'"' およびストリーミングの場合について示す．
,'"' の場合
3 などの常駐ソフトを終了
を起動し，キャプチャ開始
オフラインコンテンツや履歴，過去のダウンロードファイルなどの削除
キャプチャ数の状態で，'' ファイルを開く
ファイルのダウンロードが完了したら ,'"' を終了
キャプチャ終了
ストリーミングの場合
3 などの常駐ソフトを終了
研究室内でのキャプチャリング環境
図 2"*+"' によるキャプチャリング時のスクリーンショット
を起動し，キャプチャ開始
オフラインコンテンツや履歴の削除
キャプチャ数の状態で，任意のストリーミングファイル B-9 を開く
任意時間経過後にキャプチャ終了
ストリーミングを @ 1@ & で聴く場合，プレイヤー起動時に不要なパケットが多
く流れるため，しばらく放置してパケットが流れないことを確認してからキャプチャを行う．他
のサービスについて補助ツールを使用する場合，そのサービスを利用する上で必要な挙動の場合
#P 12 クライアントの起動・終了$ はそのサービスのパケットとしてキャプチャする．
また，そのサービスに不要な挙動の場合 #P ' 補助クライアントのチャンネル更新$ は
キャプチャしない．
研究室内でのキャプチャリング環境
研究室内のネットワークにおけるキャプチャリング環境を図に示す．
付録パケットキャプチャリング
図研究室内のネットワークにおけるキャプチャリング環境
½ は，内部ネットワークと外部ネットワーク間，図の ¾ は，内部クラ
ここで，図の ¿ は，内部サーバ郡とルータ間である．これら箇所に !B, を
イアントとルータ間，図の用いることで各区間を流れるパケットのキャプチャリングを行っている．
付録ノイズフィルタリング
本研究で用いたトラヒックデータにおけるノイズフィルタの一例を以下に示す．
全サービス共通 #自身に関わらないパケットの除去$
*@@ ++ 自身のアドレス
各サービスの処理
,'"'
#Q% RR Q')**' ++ RR Q')**' ++ RR Q')**' ++ RR
Q')**' ++ RR Q/@**' ++ RR Q')**' ++ $
A 6;
#@ *) ++ *@' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ *) ++ *@' ++ $
3"
#*) ++ *@' ++ *) ++ *@' ++ $
メール受信 #A のポート番号$
Q#Q#')**' ++ $ RR Q@$
メール送信 #01" のポート番号$
Q#Q#')**' ++ $ RR Q@$
12
Q#Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*) ++ : $
RR Q#*@' ++ : $ RR Q#*) ++ : $ RR Q#*@' ++
: $ RR Q#*) ++ : $ RR Q#*@' ++ : $ RR
Q#*) ++
:$ RR Q#*@' ++
:$ RR Q#*) ++
:$ RR Q#*@' ++ :$$
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++
$ RR Q#*@' ++
$ RR Q#*) ++
$
RR Q#*@' ++ $ RR Q#')**' ++ ')**' ++ #/@*
付録 , ノイズフィルタリング
RR Q@$$$
ニコニコ動画 #全パケットを確認して不要部を除去$
Q#Q@ RR Q#*) ++ RR Q#*) ++
:$ RR Q#*@' ++ :$ RR Q#*@' ++
:$
:$ RR Q#*)
++ :$ RR Q#*@' ++ :$ RR Q#*) ++
:$ RR Q#*@' ++
:$ RR Q#*) ++ : $
RR Q#*@' ++ : $ RR Q#*) ++ :$ RR Q#*@' ++
:$ RR Q#*) ++ :$ RR Q#*@' ++ :$
RR Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*) ++
:$ RR Q#*@' ++ :$ RR Q#*) ++ :$ RR Q#*@'
++ :$$
A 6;
#@ ')**' ++ ')**' ++ ')**' ++ ')**' ++ *) ++ : *@' ++ :$
)'
#')**' ++ ')**' ++ ')**' ++ $
0&*)'
Q#* ')**' ++
')**' ++ /@**' ++ /@**' ++ ')**' ++ ')**' ++ ')**' ++ ')**' ++ ')**'
++ #*) ++ $ #*@' ++ $$
0';2
#;@ *& に関するもの #スタイルシートなど$，またこのサービスのみに出現する
!"" や 2E ファイル，関係ない 40 を除去$
Q#Q#*) ++ :$ RR Q#*@' ++ :$$
0';2
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++ :$
RR Q#*@' ++ :$ RR Q#*) ++ :$ RR Q#*@' ++
:$ RR Q#*) ++ :$ RR Q#*@' ++ :$
RR Q#*) ++ :$ RR Q#*@' ++ :$ RR Q#*) ++
$ RR Q#*@' ++ $$
!"" ファイル転送 #;2'2E も除去$
Q#Q#*) ++ $ RR Q#*@' ++ $ RR Q#*) ++
$ RR Q#*@' ++ $$
./"/%
Q#Q@ RR Q#*) ++ : $ RR Q#*@' ++ : $ RR Q#*)
++ : $ RR Q#*@' ++ : $ RR Q#*) ++ : $ RR
Q#*@' ++ : $$
ここに示したノイズフィルタは，そのサービスのサーバのアドレスに依存して変化するものもあ
るため，適宜変更する必要がある．また，0&* および ,'"' については，処理が定まらな
いため，明らかに不要な部分のみ除去している．これらについて，現在判明している不要なパケッ
トを以下に示す．
)*? ')**' ++
*;*? ')**' ++ '%@2;? /@**' ++ '%? ')**' ++ ;)E'@? ')**' ++ P
? ')**' ++ ''? ')**' ++ ;M? ')**' ++ また，,'"' について，" 以外で現在判明している必要なプロトコルを以下に示す．
004
61
1
B4
"1
,0
関連業績
【学会発表】
トラヒックパターンに着目したサービス分類に関する一検討
年月電子情報通信学会ネットワークシステム研究会
山下剛史，星健太郎，市野将嗣，小松尚久，竹下恵，辻野雅之
トラヒックの時系列データを用いたサービス分類手法に関する一検討
年
月電子情報通信学会コミュニケーションクオリティ研究会
山下剛史，星健太郎，市野将嗣，小松尚久，竹下恵，辻野雅之
トラヒックの時系列データを用いたサービス分類における特徴量に関する一検討
年月電子情報通信学会総合大会 #発表予定$
前田浩明，山下剛史，星健太郎，市野将嗣，小松尚久，竹下恵，辻野雅之
【特許】
通信トラヒック分類方法、装置、およびプログラム
特願号
社団法人電子情報通信学会
THE INSTITUTE OF ELECTRONICS,
INFORMATION AND COMMUNICATION ENGINEERS
信学技報
IEICE Technical Report
トラヒックパターンに着目したサービス分類に関する一検討
山下剛史†
星健太郎†
竹下恵‡
市野将嗣†
小松尚久†
辻野雅之‡
†早稲田大学理工学術院基幹理工学研究科〒169-8555 東京都新宿区大久保 3-4-1
‡日本電信電話株式会社 NTT サービスインテグレーション基盤研究所
〒180-8585 東京都武蔵野市緑町 3-9-11
E-mail:
†{yamashita,kentaro,ichino,komatsu}@kom.comm.waseda.ac.jp
‡{ takeshita.kei, tsujino.masayuki}@lab.ntt.co.jp
あらまし近年，インターネットの急速な普及・高速化に伴い，通信トラヒックは急増している．そこで，サービ
ス毎に区別した品質提供を実施する為にも，ネットワーク管理者はサービス毎の通信トラヒック量を識別すること
が望ましい．このため，筆者らは通信トラヒックから得られる特徴量の時系列データに着目し，分析を行うことで
通信トラヒックをサービス毎に分類する技術について検討している．本稿ではこの技術のコンセプトを説明すると
共に，パターン認識を用いたサービス分類においてどの様な特徴量を用いることがアプリケーション分類に有効か
検討を行う．
キーワードトラヒック，QoS，時系列，サービス分類，パターン認識
A study on service classification of traffic pattern
Takeshi YAMASHITA†
Kentaro HOSHI†
Masatsugu ICHINO†
Kei TAKESHITA‡
Masayuki TSUJINO‡
Naohisa KOMATSU†
†Graduate school of Fundamental Sience and Engineering, Waseda University
3-4-1 Okubo, Shinjuku-ku, Tokyo, 169-8555 Japan
‡NTT Service Integration Laboratories, NTT Corporation
3-9-11 Midori-cho, Musashino-shi, Tokyo, 180-8585 Japan
E-mail:
†{yamashita,kentaro,ichino,komatsu}@kom.comm.waseda.ac.jp
‡{ takeshita.kei, tsujino.masayuki}@lab.ntt.co.jp
Abstract Network Traffic has increased rapidly by spreading high-speed internet. In order to offer quality of each service,
network administrators should identify the amount of traffic. Therefore, we study a method that classifies the traffic data into
service by using time-series traffic data. In this paper, we explain the concept of the method, and suggest which feature is
effective to classify the traffic data using pattern recognition.
Keyword traffic，QoS，time-series traffic data，service classification，pattern recognition
1. まえがき
インターネットの急速な普及・高速化により，通信
として，サービス毎に区別して品質を提供するという
形態が有力である．これは，重要性の高いサービスや
トラヒックが急増すると共に動画や音声，ファイル転
品質要求の厳しいサービスを優先的に転送することで，
送に関するものなどネットワーク上で利用されるサー
限られた帯域をうまく使っていくという考えに基づい
ビスの多様化が進んでいる．また，技術が成熟化する
ている．サービス毎に区別した品質提供を行う場合，
とともに，新たな付加価値としてインターネットの通
ネットワーク管理者はサービス毎のトラヒック管理に
信品質を高めることが期待されている．そこで，低コ
基づく品質監視・品質設計を行うため，サービス毎の
ストでユーザの要求に叶うよう通信品質を高める形態
通信トラヒック量を把握しておくことが望ましい．こ
Copyright ©2009 by
IEICE
のため，トラヒック情報をサービス毎に分類する技術
に対してサービス毎にどのような特徴が表れているか
が必要だと考えられる．
の検討を行う．最後に 5 章では本稿のまとめと今後の
従来の研究において，トラヒックにおけるサービス
課題について述べる．
分類にはその通信が使用しているポート番号が用いら
れてきた [1-2]．これは，多くのサービスでは通信に使
2. 識別器の設計
用するポート番号が Well-known ポートとして予め固
フローの統計情報を利用した手法は予め登録した
定されている為である．そのため，ポート番号をヘッ
サービスのテンプレートと比較し識別するため，サー
ダから参照することで，そのデータがどのサービスか
ビス分類を行うためにはパターン認識技術が必要とな
ら送信されたものかを確認することが出来る．しかし，
る．
P2P をはじめとした近年問題となっているサービスに
パターン認識とは入力したパターン (文字画像や時
は使用するポート番号をランダムに決定したり，意図
系列信号，センサーから得た情報など )が，予め定めた
的にポート番号を変更するものが存在する．その為，
クラスの集合のうちどのクラスに対応するかを出力す
ポート番号による分類は信頼性に欠ける可能性がある．
る処理である [9]．入力されたパターンからは様々な特
ポート番号を用いないサービス分類手法としては，
徴が数値として抽出され，それらを組とした特徴ベク
パケットからヘッダ部分を除いたデータであるペイロ
トルが識別に用いられる．いま d 個の特徴を用いると
ードを利用した手法が提案されている [3]．この手法で
すると，特徴ベクトルは式 (1)で定義される．
は，サービス特有の文字列から生成したビットパタン
（シグネチャ）をパターンマッチングすることで不正
r
ｘ = ( x1 , x 2 , … , x d ) t
(1)
なサービスの早期発見を行う．しかし，ペイロード情
この特徴ベクトルによって張られる空間のことを
報を参照することはプライバシーやセキュリティの問
特徴空間と言い，同じクラスを持つ特徴ベクトルは特
題から利用シーンが限られる恐れがあり，また処理に
徴空間上でまとまったクラスターとなる．パターン認
かかる負荷も大きくなるということが問題点として挙
識によるトラヒックパターン分類システムを構成する
げられる．
場合，一般的に図 1 の形式が用いられる．
その他の手法として，フローにおけるパケットの到
着間隔やパケットサイズなどの統計情報に基づいた手
法が提案されている [4-6]．フローの統計情報を用いた
入力パターン
出力
特徴
抽出部
識別
演算部
手法は，計測されたトラヒックの挙動から抽出した統
計値を用いるため，ポート番号やペイロード情報を利
用せずにサービスを分類出来る．そこで本研究ではフ
ローの統計情報に着目した．
サービスA
前処理部
識別辞書
サービスB
サービスC
フローの統計情報としてはフロー中のパケットサ
イズ，フローサイズ，パケット数といった値の平均値
などを用いたサービス識別が行われている [7]．つまり，
連続的な入力が仮定できるにも関わらずトラヒックの
識別部
図 1
認識系の構成
前処理部では得られたトラヒックデータをフロー
時間的な変化を一まとめにして扱っている研究が多い．
化したり，ノイズを除去することで特徴を抽出しやす
そのため，トラヒックの時間的な変化に着目すること
い形に出力する．次に特徴抽出部では，識別に用いる
によりさらにサービス分類性能が向上する可能性があ
特徴としてパケットサイズやフロー長といった統計情
る．例えばバイオメトリクスでは，発話時における唇
報の算出を行う．この特徴を，事前に作成した識別辞
動作個人認証において複数のアルゴリズムが提案され
書と比較することで，入力パターンがどのサービスに
ているが，時系列情報を使用しないアルゴリズムと使
所属するかを決定する．
用するものを比較した際，後者のアルゴリズムの方が
その中でも特徴抽出では，まず入力パターンからサ
より高い精度で認証が可能であることが報告がされて
ービスを適切に分類できるような特徴を抽出する必要
いる [8]．
があり，この処理は認識性能を大きく左右する重要な
そこで本稿では，トラヒックから得られる特徴量の
ものである．しかしサービスを分類するために適切で
時系列データに着目し，識別器設計の観点からどの様
あるかどうかについては必ずしも十分な検討が行われ
な特徴量を用いることがトラヒックのサービス分類に
ておらず，また，識別部の設計のためにも特徴量の性
有効かを示す．以下 2 章ではパターン認識を用いたト
質や，特徴空間での分布を明確に記述する必要がある．
ラヒックパターン分類手法について述べる．次に 3 章
ではフローの統計情報を用いた関連研究について説明
する．また 4 章では実際に取得したトラヒックデータ
3. 関連研究
4.1. キャプチャリング環境
フローの統計情報を利用したサービス分類手法は
現在様々な研究が行われている [4-6]．それらで利用し
ている代表的な特徴量としては以下のものが挙げられ
る．
（１）パケット到着間隔
イントラネット
（２）パケット長
（３）パケット数
（４） 1 フローの総バイト数
（５） 1 フローの持続時間
なおここで言うフローの定義とは，同一の送受信 IP
内部ネットワーク
ミラーリング
アドレス，送受信ポート番号，プロトコルの情報を持
図 2
つパケットの集まりとする．また（１）（２）（３）の
特徴量はフロー単位の平均，分散，最大値，最小値な
どが用いられている．
トラヒック収集環境
今回使用したデータはイントラネットとインター
ネットの間で流れるトラヒックをキャプチャリングし
文献 [4] は通信開始時のパケット長の遷移を特徴量
たものである．図 2 にトラヒック収集環境を示す．ゲ
として用い，学習アルゴリズムに oLVQ1 を使用した手
ートウェイを経由してイントラネット外部と通信して
法であり， P2P の早期発見に適用している．さらに，
いるトラヒックを全てミラーリングし， Wireshark[10]
K-mean 法や階層的クラスタリングと oLVQ1 との分類
を利用してパケットのキャプチャリングを行った．次
精度比較実験も行われており， P2P 以外のサービス分
に，得られたキャプチャデータをフローとして分類し，
類には階層的クラスタリングが有効であることを示し
フローの統計情報を算出した．
ている．
また文献 [5]ではパケット到着間隔，パケット長，フ
ロー持続時間を C4.5 決定木によって学習しており，初
4.2. 使用したデータ
サービス別の特徴量を検討するという理由から，キ
期の数パケットによる分類がフロー全体を用いた分類
ャプチャデータからメール，動画， Web のトラヒック
と比較してあまり差が無いことを示した．
を取り出した時系列情報のデータを使用した．なお，
さらに文献 [6]では，バックグラウンドでネットワー
メールは送受信ポート番号が SMTP， POP であるもの
ク管理を行うことを想定して，計算が高速で行えるこ
とし，動画は送受信ポート番号が HTTP かつ送受信 IP
とを条件にフローの統計情報を選出している．用いる
アドレスに動画サイト (youtube.com， nicovideo.jp)が含
統計情報はパケット到着間隔，パケット長，フローの
まれているもの， Web は HTTP から動画のフローを除
総バイト数，フローの持続時間である．また，複数の
いたものと定義した．
機械学習のパフォーマンスを計算時間を基準に比較し
たところ，C4.5 決定木を用いることが最も高速である
ことを示した．
しかし多くの研究で使用されているフローの統計
情報は平均値，分散，最大値，最小値などであり，ト
4.3. サービス毎の時系列データ評価
サービス毎に，1 フローの持続時間をフローの開始
時間でプロットした図を図 3 - 図 5 に示す．
10
ラヒックの時間的な変化にはあまり着目していない．
提案された特徴量がサービス分類に適切かどうかは分
かっていない．そこで本検討ではトラヒックの時系列
的な変化に着目し，サービス毎の特徴量の違いについ
て考察を行った．
9
8
フロー持続時間(sec)
またパターン認識における識別部の設計という点から，
7
6
5
4
3
2
1
0
0
4. 特徴量の評価
本章では，まず本稿で使用したトラヒックデータに
ついて述べる．次にデータ内に存在したサービス毎に
時系列データを取得し，それぞれの時系列データにお
ける特徴について説明する．
500
1000
1500
2000
2500
3000
time(sec)
図 3 メールのフローにおける持続時間の推移
3500
100
1600
1400
80
平均パケットサイズ(byte)
フローの持続時間(sec)
90
70
60
50
40
30
20
1200
1000
800
600
400
200
10
0
0
0
500
1000
1500
2000
2500
3000
0
3500
500
1000
1500
time(sec)
2000
2500
3000
3500
time(sec)
図 7 動画のフローにおける
図 4 動画のフローにおける持続時間の推移
平均パケットサイズの推移
図 5 Web のフローにおける持続時間の推移
図 3-図 5 より，各サービスにおいてフローの持続
図 8 Web のフローにおける
時間の推移が異なっていることが分かる．また，図
平均パケットサイズの推移
3 より，メールのフローはほとんどが 2 sec 以内で推
図 6-図 8 より，平均パケットサイズの推移につ
移しており，動画や Web と比較して短い時間でフロ
いてもサービス毎に挙動の違いが見られる．特に
ーが終了していることが分かった．これらにより，
メールは同時に生起するフローが高々2 つから 3
3 つのサービスを分類するのにフローの持続時間が
つであることに対して，動画， Web は同時に多数
有効である可能性がある．
のフローが生起することが多く，平均パケットサ
同様に，平均パケットサイズをフローの開始時間
でプロットした図を図 6 - 図 8 に示す．
イズも広域に渡っていることが分かる．これらに
より，定義したサービスを分類する上で平均パケ
ットサイズが有効である可能性がある．
同様に，総フローサイズをフローの開始時間で
プロットした図を図 9 - 図 11 に示す
1400
1200
1000
2000000
800
1800000
600
1600000
400
200
0
0
500
1000
1500
2000
time(sec)
2500
3000
3500
フローサイズ(byte)
平均パケットサイズ(byte)
1600
1400000
1200000
1000000
800000
600000
400000
図 6 メールのフローにおける
平均パケットサイズの推移
200000
0
0
500
1000
1500
2000
2500
time(sec)
図 9 メールのフローにおける
総フローサイズの推移
3000
3500
があるかを示した．その結果，今回提示した特徴量は
450000
サービス毎に異なっていることを確認し，トラヒック
フローサイズ(byte)
400000
350000
のサービス分類に時系列情報が有効である可能性のあ
300000
ることが分かった．また，新たなるトラヒックパター
250000
ンの出現に対しても，識別器を変更することなく時系
200000
150000
列情報によって検出することが期待できる．
100000
上記の結果を踏まえ，今後各サービスを分類する上
50000
0
0
500
1000
1500
2000
2500
3000
で適切な特徴量を特徴空間上で視覚的，定量的に比較
3500
time(sec)
し，判断する予定である．さらに，音声，ファイル転
図 10 動画のフローにおける
送などといった他のサービスについても同様の評価を
総フローサイズの推移
行い，特徴空間上での分布の様子を踏まえてより多様
なサービスを分類する手法を提案する．
また，さらなる識別精度の向上のために識別器の統
合手法を適用することを考えている．例えば，バイオ
メトリクスの分野において，複数のバイオメトリクス
情報を統合する技術としてマルチモーダルバイオメト
リクスが提案され [11]，単一のバイオメトリック情報
を用いる認証に比べ精度が向上することが報告されて
いる [11][12]．
これまでにトラヒックデータの分析には複数の特
徴量を 1 つの識別器で分析する、複数識別器の統合手
図 11 Web のフローにおける
法の一手段である feature level fusion による手法が
総フローサイズの推移
よく用いられている．複数識別器の統合手法は
図 9-図 11 より，総フローサイズの推移において
decision level fusion による手法、 feature level
は極端にサイズが大きなフローが存在しているこ
fusion による手法、 score level fusion による手法に
とが分かる．そのため，これらの特異値がサービス
分類される．その中でも複数の特徴量それぞれで各サ
分類にどのような影響を与えるかを今後調査する
ービスとの類似度を求めたあと、類似度を並べたもの
必要がある．
を再度特徴ベクトルとしてから再び識別器にかけるこ
とにより高精度な分析を実施する score level fusion
による手法は用いられていない．スコア分布上で各ア
5. むすび
本稿では多様化したネットワーク上でのサービス
プリケーションの分布が分離できればさらに識別精度
を分類する手法における，パターン認識の必要性につ
向上が期待できる．今後，識別器の統合方法，特に図
いて述べた．特にフローの統計情報に着目した上で，
12 に示すような score level fusion による手法につ
サービス毎のトラヒックが時系列的にどのような特徴
いて検討していく予定である．
トラヒックの
特徴量αに対
する識別器①
トラヒックの
特徴量βに対
する識別器②
2つの識別器を融合した判定を
行うため，2次元空間に
スコアをプロットする
識別器②のスコア
トラヒックデータ
サービスを分類する
識別境界を作成する
サービスB
識別器 ① のスコア
サービスA
識別結果
図 12
score level fusion による
サービス分類の例
識別境界
文
献
[1] Maureen Chesire, Alec Wolman, Geoffrey M. Voelker,
and Henry M.Levy,“ Measurement and Analysis of a
Streaming-Media Workload,” in proceedings of 3rd
USENIX Symposium on Internet Technologies and
Systems, pp. 1-12, March 2001.
[2] C.Fraleigh,S.Moon,B.Lyles,C.Cotton,M.Khan,D.Mol
l,R.Rockell,T.Seely, and S.Diot,“ Packet-level Traffic
Measurements from the Sprint IP Backbone,” IEEE
Network Magazine,pp.6-16,November 2003
[3] S.Sen,O.Spatscheck,andD.Wang, “Accurate, scalable
in-network identification of P2P traffic using
application signatures,” in Proceedings of the
WWW ’04: 13th international conference on World
Wide Web, pp.512–521, May. 2004.
[4] 八木清之介，和泉勇治，角田裕，根元義章，“ ネ
ットワークアプリケーション弁別のためのペイ
ロード長の遷移パタンの評価方式に関する一検
討 ,”電子情報通信学会技術研究報告 .TM,テレコミ
ュニケーションマネジメント , pp.1-6, 2007.
[5] V. Giacomo, and G. Paolo, “Performance evaluation
of a machine learning algorithm for early application
identification,”
in Proceedings of the IMCSIT
2008: International Multiconference on Computer
Science and Information Technology,pp.845-849, Oct.
2008.
[6] N.Williams, S.Zander, and G.Armitage, “A preliminary performance comparison of ﬁ ve machine
learning algorithms for practical IP traffic flow
classification,”
ACM
SIGCOMM
Computer
Communication Review, vol.36,no.5, pp.5–16, 2006.
[7] A.W.Moore, and D.Zuev, “Internet traffic classification using bayesian analysis techniques,” SIGMETRICS Performance Evaluation Review, vol.33, no.1,
pp.50–60, 2005.
[8] 市野将嗣，坂野鋭，小松尚久， “核非線形相互部
分空間法による話者認識， ” 信学論 (D-II) ，
vol.J88-D-II, no.8, pp.1331-1338, 2005.
[9] 石井健太郎 , 上田修功 , 前田英作 , 村瀬洋 , わか
りやすいパターン認識 ,” オーム社 ,1998.
[10] “ Wireshark,” http://www.wireshark.org
[11] 坂野鋭，劉偉傑， “多重バイオメトリックスによ
る個人認証，” 情処研報， CSEC 5-7， May 1999.
[12] 市野将嗣，坂野鋭，小松尚久， “唇動作と音声の
非線形性を考慮した多重バイオメトリクス認証
方式に関する検討， ”暗号と情報セキュリティシ
ンポジウム (SCIS2007), 4F2-5,2007.
社団法人
電子情報通信学会
信学技報
トラヒックの時系列データを用いたサービス分類手法に関する一検討
山下
剛史Ý
星
竹下
健太郎Ý
市野
将嗣Ý
恵ÝÝ
辻野
雅之ÝÝ
小松
尚久Ý
早稲田大学理工学術院基幹理工学研究科〒東京都新宿区大久保日本電信電話株式会社サービスインテグレーション基盤研究所
〒東京都武蔵野市緑町 !" #$
# % #$
あらまし
近年，インターネットの急速な普及・高速化に伴い，通信トラヒックは急増している．そこで，サービス毎
に区別した品質提供を実施する為にも，ネットワーク管理者はサービス毎の通信トラヒック量を識別することが望ま
しい．このため，筆者らは通信トラヒックから得られる特徴量の連続入力データに着目し，分析を行うことで通信ト
ラヒックをサービス毎に分類する技術について検討している．本稿ではこの技術のコンセプトを説明すると共に，パ
ターン認識を用いたサービス分類においてどの様な特徴量を用いることがサービス分類に有効か検討を行う．
キーワードトラヒック，
，サービス分類，パターン認識
Æ Ý Ý Ý Ý ÝÝ ÝÝ
&" ' (" ) " ** +" ,-
.% )# /$
)- 0* 1% 2$
3" 3 /$
!" #$
# % #$
Æ Æ !
Æ Æ " Æ Æ，， !，まえがき
いサービスを優先的に転送することで，限られた帯域をうまく
使っていくという考えに基づいている．サービス毎に区別した
インターネットの急速な普及・高速化により，通信トラヒッ
品質提供を行う場合，ネットワーク管理者はサービス毎のトラ
クが急増すると共に動画や音声，ファイル転送に関するものな
ヒック管理に基づく品質監視・品質設計を行うため，サービス
どネットワーク上で利用されるサービスの多様化が進んでい
毎の通信トラヒック量を把握しておくことが望ましい．このた
る．また，技術が成熟化するとともに，新たな付加価値として
め，トラヒック情報をサービス毎に分類する技術が必要だと考
インターネットの通信品質を高めることが期待されている．そ
えられる．
こで，低コストでユーザの要求に叶うよう通信品質を高める形
従来の研究において，トラヒックにおけるサービス分類には
．
態として，サービス毎に区別して品質を提供するという形態が
その通信が使用しているポート番号が用いられてきた
有力である．これは，重要性の高いサービスや品質要求の厳し
これは，多くのサービスでは通信に使用するポート番号が表
ポートとして予め固定されている為である．そのため，
サービス分類に利用される特徴量
ポート番号をヘッダから参照することで，そのデータがどの
特徴量
統計情報
サービスから送信されたものかを確認することが出来る．しか
パケットサイズ平均値標準偏差など
パケットの到着間隔平均値標準偏差など
パケット数
フローの総バイト数フローの持続時間し，をはじめとした近年問題となっているサービスには使
用するポート番号をランダムに決定したり，意図的にポート番
号を変更するものが存在する．その為，ポート番号による分類
は信頼性に欠ける可能性がある．
ポート番号を用いないサービス分類手法としては，パケット
からヘッダ部分を除いたデータであるペイロードを利用した手
法が提案されている
．この手法では，サービス特有の文字列
から生成したビットパタン（シグネチャ）をパターンマッチン
グすることで不正なサービスの早期発見を行う．しかし，ペイ
ロード情報を参照することはプライバシーやセキュリティの問
題から利用シーンが限られる恐れがあり，また処理にかかる負
荷も大きくなるということが問題点として挙げられる．
その他の手法として，フローにおけるパケットの到着間隔や
パケットサイズなどの統計情報に基づいた手法が提案されてい
る
∼ ．フローの統計情報を用いた手法は，計測されたト
ラヒックの挙動から抽出した統計値を用いるため，ポート番号
いった評価は十分には行われていない．そこで本検討ではトラ
ヒックの連続的な特徴量に着目し評価を行った．
識別器の設計
トラヒックデータからサービスを分類する場合にはパター
ン認識技術を用いて入力されたデータと登録したテンプレート
を比較し識別を行うパターン認識とは入力したパターン文
字画像や時系列信号，センサーから得た情報などが，予め定
めたクラスの集合のうちどのクラスに対応するかを出力する処
理である
．
パターン認識によるトラヒックパターン分類システムを構成
する場合，一般的に図
の形式が用いられる．
やペイロード情報を利用せずにサービスを分類出来る．
フローの統計情報によるサービス分類手法ではフロー中の
入力パターン
複数のパケットにおけるパケットサイズやパケット到着間隔の
平均値標準偏差などが利用されている
出力
特徴
抽出部
識別
演算部
つまり，連続的な入
力が仮定できるにも関わらずトラヒックの時間的な変化を一ま
サービスA
とめにして扱っている研究が多い．そのため，トラヒックの時
前処理部
サービスB
識別辞書
サービスC
間的な変化に着目することによりさらにサービス分類性能が向
上する可能性がある．例えばバイオメトリクスでは，発話時に
識別部
おける唇動作個人認証において複数のアルゴリズムが提案され
ているが，時系列情報を使用しないアルゴリズムと使用するも
図
認識系の構成
のを比較した際，後者のアルゴリズムの方がより高い精度で認
証が可能であることが報告されている
．
前処理部では特徴を抽出しやすい形に出力し次に特徴抽出
そこで本稿では，トラヒックから得られる特徴量の連続入力
部にて特徴の算出を行う．この特徴を，事前にいくつかのトラ
データに着目し，どの特徴量を用いることがトラヒックのサー
ヒックデータから作成した識別辞書と比較することで，入力パ
ではパターン認識を
用いたサービス分類の関連研究について説明し次にでは評
ターンがどのサービスに所属するかを決定する．
価に使用したサービス毎のトラヒックデータと今回検討した特
適切に分類できる特徴を抽出する必要があり，この処理は認識
徴量について述べる．では実際に取得した特徴量に対してベ
系の性能を大きく左右する重要な部分である．そのため特徴
クトル量子化による定量的な評価を行った結果及び考察につい
量の性質や特徴空間での分布を明確にする必要がある
ビス分類に有効か評価を行った．以下
て述べる．は本稿のまとめと今後の課題である．
評価概要
関連研究
本章ではサービス毎にキャプチャリングしたデータと検討
トラヒックの特徴量
を行った特徴量について述べる次に今回行った特徴量の定量
サービス分類に用いる特徴量には多くの種類があり現在様々
な研究で利用されている特にフローの統計情報を用いたサー
ビス分類手法
∼ で多く利用されている特徴量は表
特に特徴抽出部においてはトラヒックデータからサービスを
の
通りである．
しかしこれらの特徴量の多くは平均値分散といったフロー
的な評価について説明する
使用したデータ
本研究では音声通信音声ストリーミング映像通信ニコ
ニコ動画
テキスト通信 !"#$%
メール送受信ファイル転送 &' ファイル転送といっ
単位の統計情報であり，トラヒックの時間的な変化にはあまり
たそれぞれ異なるサービスから
着目していない．またサービス分類に利用されている特徴量が
チャした ) 種類のパケットデータを使用した今回使用した
識別器の設計という点においてサービス分類に適切かどうかと
データは表
'( )
によってキャプ
の通りである
使用したキャプチャリングデータ
サービス
概要
評
取得回数
ダウンロード用アプリケーション
開始から終了まで
ファイル転送
ダウンロード開始から終了まで
通のメールを送信
開始からユーザが終了するまで
動画視聴開始から終了まで
開始からユーザが終了するまで
!
開始からユーザが終了するまで
" 音声ストリーミング
開始からユーザが終了するまで
動画視聴開始から終了まで
におけるパケットサイズの推移を図
に示す縦軸はパケットサイズであり横軸は時間
0
通のメールを受信
#$%%
-.+/
を表している
メール送信
ニコニコ動画
特徴量の定性的な評価
サービス
メール受信
価
9000
8000
Messenger起動と
ログイン処理
7000
size[byte]
表
6000
5000
4000
3000
2000
チャット
終了
1000
0
0
以下サービス名の表記は表
50
100
に従うものとするサービス
毎のトラヒックデータを比較するためキャプチャデータの中
150
200
250
time[sec]
図
サービスにおけるパケットサイズの推移
でもサービスに関係のあるパケットを抽出しサービス以外のパ
ケット名前解決広告セキュリティなどは除外した
350000
特徴量の検討
今回検討を行った特徴量を表
にある特徴量から連続入力を
る特徴量を評価するために
考慮したものを選択しそれぞれの特徴量について単位時間当
250000
たりの数値を連続的に抽出した
表&
パケット数
パケットサイズ
動画ファイル
の受信
300000
に示すサービス分類に用い
size[byte]
200000
150000
100000
50000
使用した特徴量
' ( 単位時間当たりの総数
0
'( 総数 )*
Webデータ
'&( 平均値 )*
'+( 標準偏差 )*
0
図&
10
20
30
time[sec]
40
50
サービスにおけるパケットサイズの推移
',( 総数 )*
パケットの到着間隔
'-( 平均値 )*
140000
'.( 標準偏差 )*
120000
また特徴量の定量的な評価として *&+,#%''" アルゴリ
ズムを用いたベクトル量子化
によるコードブックの作成を
size[byte]
100000
80000
動画受信＋送信
60000
40000
行いトラヒックデータとの距離を測定したベクトル量子化と
動画受信
のみ
20000
は入力されたデータを予め作成した適当な次元のコードブック
0
0
の値で置き換える処理であり *&+,#%''" アルゴリズムは
適当な初期コードブックから出発した後で学習系列に分割条
件と代表点条件を繰り返し適用することで良好なコードブック
図+
20
40
60
80
time[sec]
100
120
140
サービスにおけるパケットサイズの推移
に収束させるコードブック設計アルゴリズムであるなおベ
クトル量子化による評価手法は特徴量の順序を考慮しないため
40000
今回の検討では表
35000
の特徴量を順番に関係の無い連続入力
30000
本研究では取得した特徴量毎に
レベルのベクトル量子化
によってコードブックを作成したこのコードブックと取得し
size[byte]
データとして扱った
25000
20000
15000
た特徴量を比較することで同一サービス間の距離と異なるサー
10000
ビス間の距離を算出したこの際距離の値が同一サービス間
5000
RTSPによるデータの受信
0
では小さく異なるサービス間では大きい特徴量はサービスを
0
分類する上で有効であると考えられる
図,
20
40
60
time[sec]
80
100
120
サービス " におけるパケットサイズの推移
図 0 よりサービス - ではサービス開始時終了時
0.1
0.09
packet-arrival-interval[sec]
と比較してテキストデータをやり取りするチャット部分のパ
ケットサイズが小さいといった特徴がありサービス +/ では
動画や音声を受信する際に一定サイズの連続したパケット発生
が見られるまたサービス . ではパケット数が他のサービス
に比べて明らかに多くその形状も連続的ではなく等間隔に大
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
容量のパケットをやり取りしている事が分かる次にサービス
0
1&-.
0
におけるパケット到着間隔の推移を図に示す
10
20
Webデータ
30
time[sec]
40
50
動画ファイルの受信
縦軸はパケットの到着間隔であり横軸は時間を表している
図0
サービスにおける到着間隔の推移
0.1
0.08
0.07
パケット数を特徴量として用いた場合の入力サービスコー
packet-arrival-interval[sec]
0.09
0.06
特徴量の定量的な評価
ドブック間における距離を表にパケット到着間隔を特徴量
0.05
として用いた場合の距離を表
0.04
0.03
0.02
に示すこれらはサービスの
トラヒックデータから抽出した特徴量を同じくサービスのトラ
ファイル
の受信
0.01
0
ヒックデータからベクトル量子化によって作成したコードブッ
0
0
図-
20
40
60
time[sec]
80
100
接続要求
サービスにおける到着間隔の推移
クと比較した結果を示しており入力データとコードブックの
比較をそれぞれ )) 回行った場合の距離の平均値が直交座標に
記述されている灰色の要素は正しいサービスとコードブック
間における距離の平均を表し入力に対して最小の距離を持つ
コードブックを下線で表す
0.1
packet-arrival-interval[sec]
0.09
表より入力サービスを固定して考えたときに正しいサー
ダウンロード
ファイルの受信
0.08
0.07
ビスとコードブック間の距離が最小の値となっているサービス
0.06
は &23+/4 のつであり特に &4 の場合は異なるサービ
0.05
ス同士の結果に対して対角要素の結果が比較的小さな値となっ
0.04
0.03
0.02
ていることから特徴量としてパケット数を用いることがこれ
0.01
らのサービスを分類する場合に有効だと考えられるまたサー
0
0
2
4
6
time[sec]
8
10
ビス 3 同士の比較結果では距離の平均が ) となっているがこ
れは単位時間当たりのパケット数が少ないためコードブックと
図.
サービスにおける到着間隔の推移
の比較の際に入力した値全てがコードブックに一致してしまっ
たためと考えられるそのためサービス 23 に関しては特徴
量抽出の際のサンプリングレートを大きくするなどしてより多
packet-arrival-interval[sec]
0.1
くの値を抽出した特徴量の方がサービス分類に適した特徴にな
Messenger起動と
ログイン処理
0.08
チャット
終了
ると考えられさらに検討が必要であるまたサービス 15 で
0.06
は入力サービスと異なるコードブック間の距離の方が小さく
なるという結果が複数あり特に 1 ではサービス .+ との比
0.04
較結果が非常に小さくなっているこのためパケット数を識別
0.02
に用いた場合は誤一致してしまう可能性が高いと考えられこ
0
0
50
100
150
200
250
れらのサービス分類にはあまり適さないと考えられる
time[sec]
また特徴量にパケットサイズの総数を用いた場合はパケッ
図/
サービスにおける到着間隔の推移
ト数を用いた場合とほぼ同様の結果が得られたがパケットサ
イズの平均値を用いた場合はサービス -. がパケットサイズ
図よりサービス
1.
などはパケットの内容などに
あまり関係無く到着間隔のばらつきが大きいがサービス &-
の標準偏差を用いた場合はサービス
+5
がそれぞれ距離が小
さくなっており特徴量ごとに分類に適したサービスの違いが
などはそれほど分散しておらずある程度決まった範囲に到着
見られる特徴量にパケット到着間隔とその統計値を利用した
間隔が表れていることが分かる
場合サービス 15 といった他の特徴量ではあまり有効な結果
以上のことからサービスごとに個別の特徴量推移の様子が
確認出来るさらに本研究ではベクトル量子化による特徴量
の定量的な評価を行った
が得られなかったサービスに対して距離を小さくできるという
結果が得られた
さらに特徴量にパケットサイズを用いたときの入力データ
表+
入力サービス−コードブック間における距離の平均 '特徴量1パケット数(
入力
コードブック
-&/
&,0
,+0
,+
.++
0
+&
&.
-&
/ .0
//
+/+
0/&
&-. .0/ & -+
+ . ,+ +0
.&. +--
-./ +,
+&
サービス
"
&.
&00 +/0
#
/+
+
, ,- /-
&., +. ,0,
+, -, /0/
&.,
/. .+
+
-.
-&
+.
& &
-,,
-
&+
0.
.
&
0,
,/
,/
,+&
&.
&
,/
0&+
/0.
&&/
0
-+
-
-0 .../ 0&
#
-,0
表,
+. &+
+
0,-
&/
+&0
& + +
,-0
/0
.0-
.&& 0 ,
00
+
-&/
-
0 &
入力サービス−コードブック間における距離の平均 '特徴量1パケット到着間隔(
入力
コードブック
サービス
"
-, -/&, +& +.&
&-+ -0/, &0+ +0+ .&-+
+0., , .,
&+ ,-&,
&&- ,+- +., +.., +&0- &++- -,.- --.-
.+&
/+- +,+-
,,
- ,
0&
/ ,
+ - --
,, .,-+ /&-+ &0/,
&
#
+
0/+ ++ ,//+ //-,
-.-
., + -
,+- + -- &-
-, .--, ./&, +.+ //,
&&, &/0,
&+0, -+, -&,+ . + +. , +., ,.&, -/+,
.0+ -.-,
+ - /+/- ,-&, -&+, +/0- +-/- ,-&- -&-
-., ----
"
- -.-
#
-,0-
+,
20
& -.., &,,
A-I
A-A
A-F
+
+0+ &0+
++
-+,
/&,
+-
,0-
,0-
.- +- - &--
-+
..+
/, / -
. ,
.+, ,&,
,
いる表よりサービス 1 を分類する上でパケット数を用い
A-A
A-B
A-C
A-D
A-E
A-F
A-G
A-H
A-I
A-J
15
freqency[%]
&0 /&
,&
"
た場合は他のコードブックと比較した場合に距離が最小になる
という結果が現れていたが図 ) よりサービス 1 は同じサー
ビス同士の分布と異なるサービス同士の分布が重なり合って
おりサービス 1 の分類にはパケット数は余り適さないことが
A-E
A-H
A-I
10
確認できる同様にサービス & の場合は同じコードブックと
5
比較した場合に距離が最小になるが図よりサービス & と
A-J
その他の分布の重なりが小さくパケット数はサービス & の分
0
1
10
distance
類に適していることが確認できるまたその他のサービス特
100
徴量においても表の距離がサービス同士で離れているもの
図サービスに対する距離の分布
分布の重なりが大きいという結果になった
25
B-B
20
B-A
B-B
B-C
B-D
B-E
B-F
B-G
B-H
B-I
B-J
B-J
B-F
freqency[%]
は実際の分布でも重なりが小さく距離が離れていないものは
15
全特徴量の評価
で行ったベクトル量子化による特徴量の評価を表で
記述した特徴量全てに対して実行した表は各特徴量で量
子化による評価を行った場合正しい入力サービス−コードブッ
10
ク間距離が ) 種類のサービスの中で何番目に小さかったかを
記述しているなお特徴量の番号は表に従うものとする
5
特徴量１と２は距離が最小であるサービスにあまり違
0
10
図
100
1000
distance
10000
100000
サービスに対する距離の分布
いが無く
つの特徴量の有効性はほぼ同じだと考えられるま
たこれらの特徴量ではサービス 1-.5 には適さないことが
分かるが
-.
には特徴量（３）5 には特徴量（４）を使用す
ることで他の特徴量を用いた場合よりも距離を小さくするこ
とコードブック間距離の頻度分布図を図 ) 図に示す縦軸
とができるさらにサービス 1 では（１）（２）（３）（４）
は頻度を横軸は入力データとコードブック間の距離を表して
0 表-
入力サービス−コードブック間距離
サービス
特徴量
' ( '( '&( '+( ',( '-( '.(
-
-
,
.
.
-
&
0
.
0
/
-
/
&
,
&
&
+
+
+
/
,
+
,
/
,
-
+
,
-
&
&
&
+
&
"
#
&
+
を特徴量に用いた場合異なるサービスとコードブックの距離
が小さくなってしまうが（５）（６）（７）を特徴量に利用し
た場合は正しいサービスとコードブックの距離が一番小さいも
のとなっているその為どのサービスにおいても今回検討した
いずれかの特徴量によって距離を最小にすることが可能だと
いうことが分かった
まとめと今後の課題
本稿ではネットワーク上でのサービスを分類する手法におけ
!!- - <9* &
& A!
2
7 4“ % 33 B 7C
: Æ
% !!3
% ” 7 : 2 444D+1 &2 3
:
437 47 4 !!, , +
+ 八木清之介和泉勇治角田裕根元義章 “ ネットワークアプリ
ケーション弁別のためのペイロード長の遷移パタンの評価方式
に関する一検討 ”電子情報通信学会技術研究報告 > テレコ
ミュニケーションマネジメント !! - .
, 6 * 7 3 “ :*
93% : *
2 3 32* : 3 !!3
7C
” 7 : 2 ""> /1 "3
- <433* E7 7 * “ !3* !:*
*! : C9 *
2 3 32*
: !
3 " Æ
FB 3C
” "A
*!% **%
@9B 93&-, !!, -
-
. 4 7 E%9 “ " Æ
3C % 3 2G% ” " >@" :*
93% @9B 93&& !!,- ,
/ 市野将嗣，坂野鋭，小松尚久，
“ 核非線形相互部分空間法による
話者認識，”信学論 '""(，93#//"" / !! && &&/
,
0 石井健太郎上田修功前田英作村瀬洋 “ わかりやすいパター
ン認識 ”オーム社 00/
“ 42 ”2!1))BBBB2 $87%H 7 @ “ 32* : 6
I%H ” " > **%63A
/< !!//0, 0/
る，パターン認識の重要性及び特徴量の評価結果について述べ
た．特にトラヒックの連続入力データに着目した上で，種類の
特徴量を利用した場合それらがどの程度サービス分類に有効か
を示した．その結果，今回検討した特徴量はいずれかのサービ
スにおいてコードブック間距離を最小とすることを確認し，ト
ラヒックのサービス分類に連続的な特徴量が有効であることを
示した．また，新たなるトラヒックパターンの出現に対しても，
特徴量の評価を行うことで分類に必要な情報と不必要な情報を
定量的に判断することが可能だと考えられる上記の結果を踏
まえ，サービス分類に用いる特徴量としてはパケット数及びパ
ケットサイズが一番多くのサービスに対して距離が最小になる
という結果が得られ他のサービスに対しても適切な特徴量を
選択することでサービス分類に有効であることが確認できた
このことから今後の課題として識別器を設計する段階にお
いて特徴が表れている特徴量と表れていない特徴量に対して
重みづけを行うことによる識別率の向上などが考えられるま
た入力サービスとコードブック距離の頻度分布が測定条件
や特徴量抽出パラメータを変化させることによってどの程度
変動するかを測定及び評価しより適切な特徴量について検討
した上でトラヒックデータからサービスを分類する手法を提案
する
文
献
% 2 3
43* 5 63 7
89“ %* 7 3 : *
7 4 37 ” !
7 : &7 ;<"= *
!%* " >
23 7 *，!! 2 3283?233
@@
33>3 7 “ 393 >Æ
%* :* 2 ! " ” トラヒックの時系列データを用いた
サービス分類における特徴量に関する一検討
A Study on Features for Service Classiﬁcation using Time-Series Traﬃc Data
前田浩明 1
Hiroaki Maeda
山下剛史 1
星健太郎 1
市野将嗣 1
Takeshi Yamashita
Kentaro Hoshi
Masatsugu Ichino
竹下恵 2
辻野雅之 2
Kei Takeshita
Masayuki Tsujino
小松尚久 1
Naohisa Komatsu
早稲田大学理工学術院基幹理工学研究科 1
Guraduate School of Fundamental Sience and Engineering, Waseda University
日本電信電話株式会社 NTT サービスインテグレーション基盤研究所 2
NTT Service Integration Laboratories, NTT Corporation
1
まえがき
表1
2
研究の背景と概要
従来のトラヒックフロー分類手法では，トラヒックの
時間的な変化や上り下りの方向が必ずしも考慮されてい
ない．そのため，トラヒックの時間的な変化や方向に着
目することで精度が向上するか検討する必要がある．
著者らは，トラヒックから得られる特徴量の連続入力
データに着目し，各特徴量を抽出して検討を行った [1]．
その結果，サービス分類において連続入力データが利用
できる可能性があることを確認した．本稿では，特徴量
およびサービスを増やした際の検討結果と download 方
向，upload 方向それぞれのトラヒックデータから特徴
を抽出した際の検討結果を示す．
3
評価概要
まず，データ通信 (BitTorrent，HTTP ファイル転送，
FTP)，映像配信 (YouTube，ニコニコ動画，PeerCast)，
音声配信 (音声ストリーミング 2 種類)，テキスト通信
(メール送信・受信，Messenger，Skype)，ゲーム (2 種
類) の 14 サービスについて各 10 ずつのトラヒックを取
得し，各データ (双/download/upload 方向) から表 1 に
示した特徴量を 0.1sec 間隔で抽出した．その後，1 サー
ビスにつき 5 トラヒックずつでグループ A，B を構成し，
A を学習データとして，LBG+Splitting アルゴリズムに
よるベクトル量子化を行うことで，各サービスの特徴を
表すコードブックを作成した．次に，コードブック同士
の比較を行い，各コードブックが異なるサービスとして
分離できるか確認した．ここで分離が可能と判断された
コードブックを用いて量子化した B のデータとの量子
化誤差に基づき，同/異サービスとして判定する評価実
験を行った．その際，同サービスのコードブックとの量
子化誤差が最小となる場合に正解とした．B を学習デー
タとした交差検証も交え，両者の結果の平均を示した．
評価した特徴量
1 パケット数 [num/time]
⃝
パケットサイズ [byte/time]
2 総数 ⃝
3 平均 ⃝
4 最小 ⃝
5 最大 ⃝
6 標準偏差
⃝
パケットの到着間隔 [sec/time]
7 総数 ⃝
8 平均 ⃝
9 最小 ⃝
10 最大 ⃝
11 標準偏差
⃝
サービスの多様化や回線の高速化に伴い，ネットワー
クにおけるトラヒック量が急増している．適切に通信品
質を管理するためには，サービス毎のトラヒックを把握
できることが望ましい．そのため，本研究ではトラヒッ
クをサービス毎に分類する手法について検討を行う．
評価結果
コードブック同士の比較で，到着間隔を用いた場合，
どのサービスについても量子化誤差が小さくなり，サー
ビス間で相違が確認できなかった．これは特徴抽出間隔
が短すぎて値が丸め込まれたためだと考えられる．この
ため，以降では到着間隔の結果は省略している．他の特
徴量についてはこのような問題はなかった．
双/download/upload 方向ごとの TP 率を表 2 に示す．
表 2 を見ると，3 方向で結果が異なることがわかる．upload 方向の最大パケットサイズが他の方向と比べて良
い結果なのは，今回，download に強く依存したサービ
スが多く，双/download 方向の最大サイズが MTU 値に
偏ったのに対し，upload 方向は大きなパケットが流れな
いため，MTU の影響を受けにくく，各サービスの特徴
が現れたためだと考えられる．このように方向を分ける
ことで双方向時に隠れてしまう特徴を抽出できる．実験
結果から，特に upload 方向の最大サイズは識別を行う
上で有効であると考えられる．
表 2 各方向の TP 率 (識別率) の比較
4
1
2
3
4
5
6
方向
⃝
⃝
⃝
⃝
⃝
⃝
双方向 54% 68% 76% 68% 72% 74%
download 56% 74% 76% 70% 75% 59%
upload 46% 70% 73% 61% 84% 62%
まとめと今後の課題
今回は，有効な特徴量や方向を分けることで精度が向
上する可能性があることを示した．今後は特徴抽出間隔
やプロトコルに依存するパケットを取り除いて検討を行
う．また，サービスの分類区分を広くしてコードブック
を作成した際や特徴量を組み合わせた際の検討を行う．
5
参考文献
[1] 山下剛史，星健太郎，市野将嗣，小松尚久，竹下恵，辻野雅之，
“ トラヒッ
クの時系列データを用いたサービス分類手法に関する一検討, ”信学技報，
CQ2009-54，pp.85-90，Nov. 2009.
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
1
【書類名】明細書
【発明の名称】通信トラヒック分類方法、装置、およびプログラム
【技術分野】
【０００１】
本発明は、通信管理技術に関し、特にデータ通信トラヒックをアプリケーション種別に
基づいて分類するトラヒック分類技術に関する。
【背景技術】
【０００２】
近年における通信サービスの充実化やこのような通信サービスを利用するアプリケーシ
ョンの発展に伴って、通信網上を流れるトラヒックも多様化かつ複雑化している。また、
アプリケーションの種別ごとに、必要となる通信設備も異なる。このため、通信サービス
事業者では、これらトラヒック需要に対応して、高い品質で通信サービスを提供するため
には、需要の高いアプリケーション種別に応じた通信設備を、適切なタイミングで増減設
する必要がある。
【０００３】
従来より、特定のビット列など、個々の種別のアプリケーションが有する動作上の特徴
に注目し、その特徴付けられる動作の発生を監視することで、アプリケーションに関する
トラヒックを検出する技術がある（以下、従来技術１という）。この技術は、主にＰ２Ｐ
型アプリケーションより送出されるトラヒックを検出することに適用されている。
【０００４】
一方、非特許文献１では、通信網上を流れるトラヒックをデータマイニング処理により
分析することで、特定のフローを検出する技術が提案されている（以下、従来技術２とい
う）。この技術は、主にＤＤｏＳ攻撃（Distributed Denial of Service Attack：分散サ
ービス妨害）や、コンピュータウィルスによる異常フローを分類することに適用されてい
る。この技術では、複数の特徴量を１つの識別器で分類する、複数識別器の統合手法の一
手段であるフィーチャーレベルのマルチモーダル手法がよく用いられている。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】八木,和泉,角田,根本、「ネットワークアプリケーション弁別のた
めのペイロード長の遷移パタンの評価方法に関する一検討」、信学技報,TM2007-34、
社団法人電子情報通信学会、2007-11
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、このような従来技術では、いずれの技術も十分な分類精度が得られない
という問題点があった。
例えば、従来技術１によれば、アプリケーションの動作上の特徴を予め把握しておく必
要がある。このため、このような特徴が見いだせないアプリケーションや新たなアプリケ
ーションのフローについては、正確にアプリケーション種別を識別することができず、結
果として十分な識別精度が得られない。また、従来技術１では、フローごとに送受信され
たデータ内容を常時監視する必要があるため、トラヒック監視装置の処理負荷が増大する
という問題点もあった。
【０００７】
また、従来技術２によれば、複数の識別器の統合手法であるフィーチャーレベルによる
マルチモーダル手法を用いて、アプリケーション種別を識別しているため、実際の通信ト
ラヒックのように、対象となるアプリケーション種別数が多い状況では、十分な識別精度
が得られないという問題点があった。
【０００８】
本発明はこのような課題を解決するためのものであり、アプリケーション種別数が多い
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
2
状況であっても、通信トラヒックに含まれる各フローのアプリケーション種別を、十分な
精度で識別できるトラヒック分類技術を提供することを目的としている。
【課題を解決するための手段】
【０００９】
このような目的を達成するために、本発明にかかるトラヒック分類方法は、通信リンク
を流れるトラヒックを、当該トラヒックに含まれる各フローのアプリケーション種別に基
づいて分類するトラヒック分類装置で用いられるトラヒック分類方法であって、特徴量デ
ータベースが、通信リンクを利用してデータ通信を行うアプリケーションのアプリケーシ
ョン種別ごとに、当該アプリケーション種別のアプリケーションによるトラヒックの特徴
を示す各種特徴量を記憶する特徴量記憶ステップと、類似度算出部が、通信リンク上のト
ラヒックを構成する各フローを個別に観測して得られた観測情報に含まれる、対象フロー
のトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と特徴量データベースのアプ
リケーション種別ごとの特徴量との類似度を算出する類似度算出ステップと、アプリケー
ション識別部が、これら類似度からなる特徴ベクトルを、類似度と各アプリケーションと
の対応関係を示す識別マップで照合することにより、当該フローのアプリケーション種別
を識別するアプリケーション識別ステップとを備えている。
【００１０】
この際、トラヒック集計部が、各フローのアプリケーション種別ごとに、各フローのト
ラヒック量を集計するトラヒック集計ステップをさらに備えてもよい。
【００１１】
また、本発明にかかるトラヒック分類装置は、通信リンクを利用してデータ通信を行う
アプリケーションのアプリケーション種別ごとに、当該アプリケーション種別のアプリケ
ーションによるトラヒックの特徴を示す各種特徴量を記憶する特徴量データベースと、通
信リンク上のトラヒックを構成する各フローを個別に観測して得られた観測情報に含まれ
る、対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と特徴量デー
タベースのアプリケーション種別ごとの特徴量との類似度を算出する類似度算出部と、こ
れら類似度からなる特徴ベクトルを、類似度と各アプリケーションとの対応関係を示す識
別マップで照合することにより、当該対象フローのアプリケーション種別を識別するアプ
リケーション識別部とを備えている。
【００１２】
この際、各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計する
トラヒック集計部をさらに備えてもよい。
【００１３】
また、本発明にかかるプログラムは、コンピュータに、前述したトラヒック分類方法の
各ステップを実行させるためのプログラムである。
【発明の効果】
【００１４】
本発明によれば、スコアレベルのマルチモーダル手法を用いていることから、同一通信
リンク上のトラヒックで使用されているアプリケーション種別数が多い状況であっても、
通信トラヒックに含まれる各フローのアプリケーション種別を、十分な精度で識別するこ
とができる。
したがって、各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計
することにより、分類対象となる通信リンクにおいて需要の高いアプリケーション種別を
的確に把握することができる。これにより、需要の高いアプリケーション種別に応じた通
信設備を、適切なタイミングで増減設することができ、通信サービス事業者では、高い品
質で通信サービスを提供することが可能となる。
【図面の簡単な説明】
【００１５】
【図１】本実施の形態にかかるトラヒック分類装置の構成を示すブロック図である。
【図２】本実施の形態にかかるトラヒック分類装置のトラヒック分類処理を示すフロ
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
3
ーチャートである。
【図３】類似度算出過程を示す説明図である。
【図４】識別マップの構成例である。
【発明を実施するための形態】
【００１６】
次に、本発明の一実施の形態について図面を参照して説明する。
［トラヒック分類装置］
まず、図１を参照して、本実施の形態にかかるトラヒック分類装置について説明する。
図１は、本実施の形態にかかるトラヒック分類装置の構成を示すブロック図である。
このトラヒック分類装置１０は、全体として一般的なサーバ装置やパーソナルコンピュ
ータなどの情報処理装置からなり、網管理システム２０で通信網５０から収集された観測
情報に基づいて、通信リンクを流れるトラヒックを構成する任意のフローについて、当該
フローのアプリケーション種別を識別し、アプリケーション種別ごとにトラヒック量を集
計する機能を有している。
【００１７】
図１には、３つのノード５１Ａ～５１Ｃを含む通信網５０が示されており、このうちノ
ード５１Ａとノード５１Ｂとの間に通信リンク５２Ａが設けられており、ノード５１Ｂと
ノード５１Ｃとの間に通信リンク５２Ｂが設けられている。
網管理システム２０は、全体として一般的なサーバ装置からなり、観測情報収集部２１
により、通信網５０の各ノード５１Ａ～５１Ｃから、通信リンク５２Ａ，５２Ｂ上のフロ
ーごとに観測情報を収集し、観測情報データベース（以下、観測情報ＤＢという）２２へ
蓄積する機能を有している。
【００１８】
表示端末装置３０は、全体として一般的なパーソナルコンピュータなどの情報処理装置
からなり、トラヒック分類装置１０で集計されたアプリケーション種別ごとにトラヒック
量を画面表示する機能を有している。
【００１９】
本実施の形態は、分類対象となる通信リンクを流れるトラヒックから抽出した分類対象
フローの各種特徴量と、アプリケーション種別ごとのフローの各種特徴量との類似度をス
コアとして算出し、これら類似度から当該フローのアプリケーションを分類する方法であ
り、いわゆるスコアレベルのマルチモーダル手法により通信トラヒックを分類している。
【００２０】
具体的には、通信リンクを利用してデータ通信を行うアプリケーションのアプリケーシ
ョン種別ごとに、当該アプリケーション種別のアプリケーションによるトラヒックの特徴
を示す各種特徴量を記憶しておき、通信リンク上のトラヒックを構成する各フローを個別
に観測して得られた観測情報に含まれる、対象フローのトラヒックの特徴を示す各種の特
徴量ごとに、当該特徴量と特徴量データベースのアプリケーション種別ごとの特徴量との
類似度を算出し、これら類似度からなる特徴ベクトルを、類似度と各アプリケーションと
の対応関係を示す識別マップで照合することにより、当該対象フローのアプリケーション
種別を識別している。
【００２１】
次に、図１を参照して、本実施の形態にかかるトラヒック分類装置１０の構成について
詳細に説明する。
このトラヒック分類装置１０には、主な機能部として、データ入出力部１１、特徴量デ
ータベース（以下、特徴量ＤＢという）１２、記憶部１３、類似度算出部１４、アプリケ
ーション識別部１５、およびトラヒック集計部１６が設けられている。
【００２２】
データ入出力部１１は、網管理システム２０の観測情報ＤＢ２２から、分類対象となる
通信リンクを流れるトラヒックを構成する各フローを個別に観測して得られた観測情報を
取得する機能と、得られた解析結果を表示端末装置３０へ出力する機能とを有している。
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
4
【００２３】
網管理システム２０では、送信元・送信先ＩＰアドレス、送信元・送信先ポート、通信
プロトコル（ＴＣＰ／ＵＤＰ) などの条件で識別されるフローごとに、パケットの到着間
隔、パケットサイズ、フロー持続時間、フローのサイズなどの指標を、任意の時刻、ある
いは時系列で通信網５０から収集し、当該フローの特徴量として観測情報ＤＢ２２へ蓄積
している。特に、時系列で観測する場合には、数秒～数十秒の粒度で観測すればよい。
【００２４】
特徴量ＤＢ１２は、ハードディスクなどの記憶装置からなり、通信リンクを利用してデ
ータ通信を行うアプリケーションのアプリケーション種別ごとに、当該アプリケーション
種別のアプリケーションによるトラヒックの特徴を示す各種特徴量を、データベースとし
て記憶する機能を有している。
【００２５】
記憶部１３は、半導体メモリやハードディスクなどの記憶装置からなり、トラヒック分
類装置１０でのトラヒック分類処理で用いる各種処理情報やプログラム１３Ｐを記憶する
機能を有している。記憶部１３で記憶する主な処理情報として、特徴ベクトル１３Ａと識
別マップ１３Ｂとがある。
特徴ベクトル１３Ａは、類似度算出部１４で算出された各種類似度からなるベクトルデ
ータである。識別マップ１３Ｂは、類似度と各アプリケーションとの対応関係がベクトル
空間（特徴空間）内に表現されたデータである。
【００２６】
類似度算出部１４は、データ入出力部１１で取得した観測情報に基づいて、これら観測
情報に含まれる対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量と
特徴量ＤＢ１２のアプリケーション種別ごとの特徴量との類似度を算出する機能と、これ
ら類似度から当該対象フローの特徴ベクトルを生成する機能とを有している。
【００２７】
アプリケーション識別部１５は、これら類似度からなる特徴ベクトル１３Ａを、類似度
算出部１４で得られた類似度と各アプリケーションとの対応関係を示す識別マップ１３Ｂ
で照合することにより、当該フローのアプリケーション種別を識別する機能を有している
。
トラヒック集計部１６は、アプリケーション識別部１５で識別した、分類対象となる通
信リンク上の各フローのアプリケーション種別ごとに、各フローのトラヒック量を集計す
る機能を有している。
【００２８】
トラヒック分類装置１０の各機能のうち、類似度算出部１４、アプリケーション識別部
１５、およびトラヒック集計部１６は、演算処理部から構成される。演算処理部は、ＣＰ
Ｕなどのマイクロプロセッサとその周辺回路を有し、記憶部１３のプログラム１３Ｐを読
み出して実行することにより、これら機能部を実現する。プログラム１３Ｐは、データ入
出力部１１を介して外部装置や記録媒体から予め読み込まれて記憶部１３へ格納される。
このほか、トラヒック分類装置１０には、一般的なパーソナルコンピュータに設けられ
ている、操作入力部や画面表示部など基本的な構成が設けられており、オペレータとのイ
ンターフェースなどに用いられるものとする。
【００２９】
［本実施の形態の動作］
次に、図２を参照して、本実施の形態にかかるトラヒック分類装置の動作について説明
する。図２は、本実施の形態にかかるトラヒック分類装置のトラヒック分類処理を示すフ
ローチャートである。
【００３０】
トラヒック分類装置１０は、まず、データ入出力部１１により、網管理システム２０の
観測情報ＤＢ２２から、分類対象となる通信リンク上の各フローに関する観測情報を取得
して記憶部１３へ保存し（ステップ１００）、これらフローのうちからアプリケーション
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
5
種別の識別処理が未処理のフローを選択する（ステップ１０１）。
【００３１】
続いて、トラヒック分類装置１０は、類似度算出部１４により、選択した対象フローに
関する観測情報を記憶部１３から取得し、当該観測情報に含まれる特徴量と、特徴量ＤＢ
１２から取得した各アプリケーション種別ごとの特徴量との類似度を算出し（ステップ１
０２）、これら類似度からなる特徴ベクトル１３Ａを生成する（ステップ１０３）。
【００３２】
この際、類似度算出部１４では、類似度算出対象となる特徴量は、観測情報に含まれる
１つの指標からなる特徴量であってもよく、複数の指標の組み合わせからなる特徴量であ
ってもよい。また、これら特徴量は、任意の時刻における指標値を用いてもよく、時系列
で変化する指標値を用いてもよい。また、これら時刻や時系列は、絶対的な時刻を用いて
もよく、フロー開始時点などの基準時刻からの相対的な時刻を用いてもよい。
【００３３】
図３は、類似度算出過程を示す説明図である。ここでは、対象フローについてｎ個（ｎ
は２以上の整数）の特徴量Ｐ1～Ｐnが記憶部１３の観測情報から取得されている。一方、
特徴量ＤＢ１２には、ｍ個（ｍは２以上の整数）のアプリケーション種別Ａ1～Ａmごとに
、特徴量の組が登録されており、各特徴量の組には、ｎ個の特徴量Ｑi1～Ｑin（ｉは１～
ｍの整数）が含まれている。
【００３４】
類似度算出部１４は、例えばアプリケーション種別Ａ1について、特徴量Ｐ1と特徴量Ｑ
11の類似度Ｓ11を算出し、同様にして特徴量Ｐnと特徴量Ｑ1nの類似度Ｓ1nまでを算出し
、アプリケーション種別Ａ1に関する特徴ベクトルＶ1を算出する。
類似度算出部１４は、このようにして、アプリケーション種別Ａ1～Ａmに関する特徴ベ
クトルＶ1～Ｖmを算出し、これらを統合して特徴ベクトル１３Ａを生成する。
【００３５】
この後、アプリケーション識別部１５は、これら類似度からなる特徴ベクトル１３Ａを
、記憶部１３の識別マップ１３Ｂで照合することにより、当該対象フローのアプリケーシ
ョン種別を識別し、識別結果を記憶部１３へ保存する（ステップ１０４）。
図４は、識別マップの構成例である。ここでは、理解を容易とするため、２つの類似度
Ｓ11，Ｓ12と２つのアプリケーション種別Ａ1，Ａ2との対応関係に関する２次元空間上で
の識別マップが示されているが、図３の例では、ｍ×ｎ次元のベクトル空間で表現される
。
【００３６】
図４において、特徴ベクトル１３Ａを識別マップ１３Ｂで照合した際、特徴ベクトル１
３Ａが点Ｍ１にマッピングされた場合には、当該対象フローのアプリケーション種別がＡ
1と識別され、点Ｍ２にマッピングされた場合には、当該対象フローのアプリケーション
種別がＡ2と識別される。
【００３７】
このようにして、対象フローのアプリケーション種別を識別した後、トラヒック分類装
置１０は、記憶部１３の観測情報のうち未処理のフローがあるかどうか確認し（ステップ
１０５）、未処理フローが存在する場合には（ステップ１０５：ＮＯ）、ステップ１０１
へ戻る。
【００３８】
一方、未処理フローが存在しない場合（ステップ１０５：ＹＥＳ）、トラヒック分類装
置１０は、トラヒック集計部１６により、記憶部１３に保存されている各フローの識別結
果に基づいて、分類対象となる通信リンク上の各フローのアプリケーション種別ごとに、
各フローのトラヒック量を集計して記憶部１３へ保存し（ステップ１０６）、一連のトラ
ヒック分類処理を終了する。
【００３９】
これにより、表示端末装置３０からの要求に応じて、トラヒック分類装置１０は、記憶
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
6
部１３からアプリケーション種別ごとのトラヒック集計量を取得し、データ入出力部１１
から表示端末装置３０へ送信する。これにより、表示端末装置３０のトラヒック量表示部
３１でアプリケーション種別ごとのトラヒック集計量が画面表示される。
また、トラヒック分類装置１０は、自装置におけるオペレータ操作に応じて、記憶部１
３からアプリケーション種別ごとのトラヒック集計量を取得して、自装置で画面表示し、
あるいはデータ入出力部１から外部装置や記録媒体へ出力する。
【００４０】
［本実施の形態の効果］
このように、本実施の形態は、特徴量ＤＢ１２で、通信リンクを利用してデータ通信を
行うアプリケーションのアプリケーション種別ごとに、当該アプリケーション種別のアプ
リケーションによるトラヒックの特徴を示す各種特徴量を記憶しておき、類似度算出部１
４により、通信リンク上のトラヒックを構成する各フローを個別に観測して得られた観測
情報に含まれる、対象フローのトラヒックの特徴を示す各種の特徴量ごとに、当該特徴量
と特徴量データベースのアプリケーション種別ごとの特徴量との類似度を算出し、アプリ
ケーション識別部１５により、これら類似度からなる特徴ベクトル１３Ａを、類似度と各
アプリケーションとの対応関係を示す識別マップ１３Ｂで照合することにより、当該フロ
ーのアプリケーション種別を識別している。
【００４１】
したがって、本実施の形態によれば、このようなスコアレベルのマルチモーダル手法を
用いていることから、同一通信リンク上のトラヒックで使用されているアプリケーション
種別数が多い状況であっても、通信トラヒックに含まれる各フローのアプリケーション種
別を、十分な精度で識別することができる。
【００４２】
また、本実施の形態では、トラヒック集計部１６により、各フローのアプリケーション
種別ごとに、各フローのトラヒック量を集計するようにしたので、分類対象となる通信リ
ンクにおいて需要の高いアプリケーション種別を的確に把握することができる。これによ
り、需要の高いアプリケーション種別に応じた通信設備を、適切なタイミングで増減設す
ることができ、通信サービス事業者では、高い品質で通信サービスを提供することが可能
となる。
【００４３】
また、本実施の形態では、識別マップ１３Ｂを生成する識別マップ生成処理部を設けて
もよい。識別マップ１３Ｂは、アプリケーション種別が既知のフローを試験的に観測し、
得られた観測情報から前述と同様にして特徴ベクトルを求め、この特徴ベクトルをベクト
ル空間内にマッピングすることにより生成することができる。これにより、別個の構成を
設けることなく、容易に識別マップ１３Ｂを生成することが可能となる。
【００４４】
また、本実施の形態では、特徴量ＤＢ１２を生成する特徴量ＤＢ生成処理部を設けても
よい。特徴量ＤＢ１２は、アプリケーション種別が既知のフローを試験的に観測し、得ら
れた観測情報から前述と同様にして特徴ベクトルを求めることにより生成することができ
る。これにより、別個の構成を設けることなく、容易に特徴量ＤＢ１２を生成することが
可能となる。
【００４５】
また、本実施の形態では、アプリケーション種別識別処理に用いる特徴量ＤＢ１２や識
別マップ１３Ｂなどのルールの変動を検出するルール変動検出部を設けてもよい。通信網
５０のトポロジーや設備の変更、あるいはアプリケーションの更新などの外的要因に応じ
て、アプリケーション種別ごとのトラヒックも変化する。この変化は、アプリケーション
種別が既知のフローを試験的に観測し、得られた観測情報から前述と同様にして特徴ベク
トルを求め、この特徴ベクトルをベクトル空間内にマッピングすることにより、識別誤差
として検出することができる。
【００４６】
整理番号:NTTH206856 特願2009-158532　(Proof) 提出日:平成21年 7月 3日
7/E
これにより、別個の構成を設けることなく、容易にルール変動を検出することが可能と
なり、トラヒック分類装置１０の画面表示部で、識別誤差の大きさやルール修正の要否な
どを表示するようにしてもよい。
また、前述した識別マップ生成処理部や特徴量ＤＢ生成処理部を合わせて備える場合に
は、これら機能部を利用して、これらルールの再構築を自動実行してもよい。
【００４７】
［実施の形態の拡張］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるも
のではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な
変更をすることができる。
【符号の説明】
【００４８】
１０…トラヒック分類装置、１１…データ入出力部、１２…特徴量ＤＢ、１３…記憶部
、１３Ａ…特徴ベクトル、１３Ｂ…識別マップ、１３Ｐ…プログラム、１４…類似度算出
部、１５…アプリケーション識別部、１６…トラヒック集計部、２０…網管理システム、
２１…観測情報収集部、２２…観測情報ＤＢ、３０…表示端末装置、３１…トラヒック量
表示部、５０…通信網、５１Ａ，５１Ｂ，５１Ｃ…ノード、５２Ａ，５２Ｂ…通信リンク
。

トラヒックパターン分類による ネットワークサービスの識別手法に関する研究

Comments

Description

Transcript

トラヒックパターン分類によるネットワークサービスの識別手法に関する研究