...

時系列の類似性検索における上界関数による効率化

by user

on
Category: Documents
16

views

Report

Comments

Transcript

時系列の類似性検索における上界関数による効率化
Kobe University Repository : Kernel
Title
時系列の類似性検索における上界関数による効率
化(Efficient Similarity Retrieval with Upper Bound for
Time Series)
Author(s)
瀧, 敬士 / 中村, 哲也 / 上原, 邦昭
Citation
電子情報通信学会論文誌. D, 情報・システム,J91D(12):2926-2938
Issue date
2008-12-01
Resource Type
Journal Article / 学術雑誌論文
Resource Version
publisher
DOI
URL
http://www.lib.kobe-u.ac.jp/handle_kernel/90000828
Create Date: 2017-04-01
時系列の類似性検索 における上界 関数 による効率化
瀧
敬士fa)
中村
哲也I
上原
邦 昭Ib)
E侃C
i
e
n
tSi
mi
l
a
r
i
t
yRe
t
r
i
e
v
a
lwi
t
hUppe
rBo
undf
o
rTi
meSe
r
i
e
s
Ke
i
s
hiTAKI
l
a) T
e
t
s
uyaNAKAMURAla
ndKuni
a
kiUEHARAlb)
,
,
あらま し 近年,時系列の分類 に関する研究が盛んに行われている.その一つ として多次元時系列の類似性検
索 に有効な手法 An
gul
arMe
t
r
i
c
sf
o
rSha
peSi
mi
l
ar
i
t
y(
AMSS)がある.AMSSは時系列 をベ ク トル系列 とし
て扱い,個々のベ ク トルの角度 を比較 して類似度 を計測 し,動的計画法 を用いてベク トル系列間全体の類似度 を
計算する手法である. また,角度の比較 にはコサ イン類似度 を用いているため,ノイズのような部分は類似度に
影響 を与 えないようにで きるという特徴がある. しか しなが ら,計算 コス トが高いとい う問題点を抱えている.
本論文では,AMSSを用いた検索のフィルタリングとして上界関数 を導入 して,計算 コス トを削減する手法を提
案する.ここで上界関数 とは,本来の関数 より必ず大 きな値 となる近似値 を求める関数である.具体的には,ベ
ク トル系列 を合成ベ ク トル系列 に変換 して,近似値 を求めている.上界関数 を用いるため,類似 しない時系列を
f
a
l
s
edi
s
mi
s
s
l な しに検索対象か ら取 り除 くことがで きるとい う特徴がある.最終的に,上界関数の正当性 を示
a
すために,数学的帰納法による証明について述べ る.
キーワー ド データマイニ ング,時系列,類似度,次元圧縮
1. ま え が き
題 が あ る.例 えば, 同 じ動 きを行 う軌跡 で も,動 く方
時系列 デー タマ イニ ングの分 野 で は,分 類 や クラス
には,類似 度 を正確 に測定 で きない.
向が異 な ってい た り,観 測 す る初期位 置が異 なる場合
タ リング, イ ンデ クシ ングの ため に,時系列 間の類似
度 を計 測 す る手 法が提 案 されて い る t
3
]
,
[
8
]
.類似 度 計
arMe
t
r
i
c
sf
♭r
上 記 の問題 を解 決 す るため ,Angul
ShapeSi
mi
l
ar
i
t
y(
AMSS) とい う手法 が提 案 され て
測手法 と して,Dyna
mi
cTi
meWar
pi
ng (
DTW )が
1
]
.AMSSは時系列 をベ ク トル系列 (
注"と して扱
いる [
知 られてい る [
2
上 DTW は時系列 の長 さを動 的 に整 合
い,ベ ク トル 間の角度 のみ を比較 して類似 度 を計算す
し,時系列 間の類似度 を求めてい る. しか し,時系列 間
る手法 で あ る. また,デ ー タ整合 の問題 を解決す るた
を完全 にマ ッチ ングす る性 質 か ら, ノイズ に弱 い とい
め に,動 的計 画法 を用 い て各 ベ ク トル間の類似度 を足
LCSS)に
う問題 があ る.この ため,最長共通部分列 (
し合 わせ て,ベ ク トル系列 間の類似 度 を計算 してい る.
3
]
.
基づ い て類似 度 を計 測 す る手 法 が提 案 され て い る [
更 に,角 度 の比 較 に は コサ イ ン類 似 度 を用 い てお り,
しか し,LCSSの類似度 は,時系 列全体 に対 す る類似
ベ ク トル間 の角度 が 7
T
/
2以 上 の場 合 には,類似 度 を
部 分 時系列 の割 合で表 され るの みで, どの くらい部分
O と してい る. このため, ノイズ と通常 の デ ー タ間の
時系列が似 てい るか とい う情報 は もってい ない. また,
よ うにベ ク トル間の角度 が大 き く異 なった場合,類似
部分 時系 列 の類似性 を判 断す るための しきい値 は一意
度 は 0とな る. したが って,部 分時系列 の方向が極度
に決定 で きない.更 に,DTW と LCSSは,時系列 の
に異 な る際 には,仮 に部分 時系 列 が動 的計画法 によ り
座標値 を用 いて類似性 を計 測 してい るため ,類似 す る
マ ッチ した場 合 で も,類似度 の総和 は変化せず, ノイ
時系列 間で も,適切 に類似 度 を求め られない とい う間
ズの影響 を受 け ない こ とにな る.
一般 に,計 算 コス トは時 系 列 に内在 す る問題 で あ
I神戸大学大学 院工学研 究札
る.す なわ ち,大規模 時系 列 の場 合,すべ てのデー タ
神戸市
Graduate School of Engi
neer
i
ng, Robe Uni
ver
si
t
y, 1-1
Rokkodai
cho,Nadaku,Kobeshi
,657-8501Japan
a)Emai
l
二t
aki
◎ai
.
cs.
s
ci
t
ec.
kobeu.
ac,
j
p
b)Emai
l
二uehar
a@kobeu・
ac.
j
p
2
9
26
電子情報通信学会論文誌
(
往 1):時系列 が多変量時系列 の場合 も時系列の ことをベ ク トル系列 と
呼ぶが,本論文では時系列の隣 り合 う 2点の座標値 を結ぶ ことにより作
成 され るベ ク トルによって構成 され る系列 の ことをベ ク トル系列 と呼ぶ.
D Vol
.」
91
-D No.
1
2 pp.29
26
-2
938 ㊤ (
社)電子情報通信学会 2
00
8
論文/時系列の類似性検索における上界関数による効率化
点の組合せ に対 して類似度 を計算す るため,膨大 な計
算 コス トがかかるとい う問題がある. この ような問題
を解決するために,多 くの研究者が高速化手法 を提案
してい る [
4:
l
,[
1
4上 例 えば,時系列 をシ ンボル列 で表
現す る Symbol
i
cAggr
e
ga
t
eappr
oxi
mat
i
on (
SAX)
では,次元圧縮 を導入 して [
9
]
,長 さ n の時系列 を任
意長 W の シンボル列 に圧縮 して,計算 コス トの削減
W ≪ n). また,時系
を図る手法が提案 されている (
列のデー タ数 は計算 コス トに大 きく関係す るので,検
索候補 を削減す るため,氏t
r
e
eなどのイ ンデ ックスを
使用する手法 も提案 されている [
8
]
.
しか し, これ らの手法では, もとのデー タの詳細が
座標系 の影響 をな くす ため,Q と C をベ ク トル系列
′
\
Q と e に変換す る.
6-(
q
2-ql
)
,
(
q
3-q
2
)
,
・
・
・
,
(
qLQ-q
LQ-1
)
-前,
重,
…,
q
T
k
(
N -LQ- 1)
(
3)
C
2-C1
)
,
(
C
3-C
2
)
,
…,
(
c
Lc-C
Lc-1
)
6 -(
-音,
尋,
.
.
.
,
c
T
R
i
(
M -Lc- 1)
(
4)
また,宙 と 可 の間の角 を 0 とす る と,右 ,可 閣の
類似度 は以下の ように計算 される.
Si
n(
i
,
i)-c
os
O
扉.
ぢ
失われた り,f
a
l
s
edi
s
mi
s
s
alが生 じて しまう可能性が
(
5)
l
雷I
l
ぢl
ある.f
a
l
s
edi
s
mi
s
s
alとは,本来,検索 されるべ き解
まで検索候補 か ら外 して しまうこ とである.例 えば,
もし 0>7
T
/
2であれば,Si
n(
i
,
i)は無条件 で 0とな
SAX は時系列 をシンボル列 で表すため, もとのデー
2な らば,式 (
5)によ り類似度が計
る.逆 に,β≦灯/
タの詳細が失われる. また,検索 の高速化 のため に検
索候補数 を削る場合,関数 によっては,本来,検索結
果 として返 されるべ き解 まで捨 て られて しまう可能性
がある.このため,DTW には下界関数,LCSSには
叫 ,[
11
]
,[
1
3]
.これ らの関
上界関数が提案 されている [
数は, もとの距離や類似度 よ り必ず小 さ く, または必
ず大 きくなる関数 を用いて, もとのデータの詳細 さを
失わず,f
a
l
s
edi
s
mi
s
s
alを生 じず に,類似性のない時
系列のみをフィルタリングする目的で導入 されている.
本論文では,AMSSに対 して上界関数 を導入 し,計
算コス トの軽減 について検討する.AMSSでの上界 関
数は,ベ ク トル系列 を合成ベ ク トル系列へ と次元削減
して,類似度 を求める ものである.合成ベ ク トル系列
の要素数は, もとのベ ク トル系列の要素数 よ りも明 ら
かに少な くなるため,計算 コス トを下げることがで き
.
■
ヽ
算 される. また,Q と
∂間の全体 の類似度 は以下の
再帰関数 を用いて計算 される.
S(
i
,
i)-M axl
S(
i
-1,
3
'
-1
)
+2Si
m(
i
,
i)
,
S(
i
-2,
ill
)
+Si
n(
i
ll,
i)
+2Si
m(
i
,
3
'
)
,
S(
i
-1,
i-2)
+Si
n(
i
,
i-i
)
+2Si
m(
i
,
i)
]
(
6)
S(
i
,
1)-S(
1,
i)--∞,S(
1,
1)-Si
n(
1,1)
ここで,S(
i
,
i
)は Qの i番 目と e の j番 目までの時
′
ヽ
系列で とり得 る最大の類似度 となる.最終的 に,Q と
e の類似度 は以下の式で得 られる.
AMSS(
a a)-S(
N,
M)
(
7
)
,
3. 上 界 関 数
る.また,合成ベ ク トル系列 による類似度 関数 は上界
上 界 関 数 UBAMS
S(
Q,C)と は ,本 来 の 類 似 度
関数 となるために,必ず もとのベ ク トル系列の情報 を
保有 している.最後 に,本手法の正当性 を評価す る実
AM SS(
Q,
C)を, よ り少 ない計 算 コス トで近似 的
に求める関数である. このため,二つの時系列 Q,C
験 を行い,類似性計測 における効果 を示す.
の類似性 を求める場合,以下の式 を満たす必要がある.
2. AMSS
まず AMSSによる時系列 間の類似度計算 の概要 を
示す. ここで Q と C を,あるサ ンプ リング レー トで
得 られた,時間 と実数値で構成 される,それぞれ長 さ
LQ と Lc の時系列 と仮定す る.
Q-ql,q2,
-,
q
LQ(
∈Rk)
,
C
2,‥.,
C
Lc(
∈Rk)
C - cl
UBAMSS(
Q,
C)≧AM SS (
Q,
C)
(
8)
ここで,Q との類似度が ∈以上の時系列 をデー タベー
スか ら検索す る場合 を考 える.デー タベ ース中の時系
列 C に対 して,本来の類似度 を計算する前 に,上界関
S<Eであれば,式 (
8)
数 を計算 す る. もし UBAMS
か ら以下の式が成 り立つ.
AM SS(
Q,
C)≦UBAMSS(
Q C)<e
,
(
9)
2927
論文/時系列の類似性検索 における上界関数 による効率化
r
e
gl
O
nS
e
c
t
o
rOfq
c
o
"
.
g
r
e
gi
o
nS
e
c
t
o
rOfqc
o
mg
Sc
o
,
a(
a,h)
Sc
o
m(
9-1
,
h-1
)
o
>
Ccmh
4
r
e
gi
o
nS
e
c
t
o
rOfcc
o
mA
+(
2c
nd+c
n_
S
ub
d)・
Si
mco
m(,
h)
9
g
7:mh
r
e
g1
0
nS
e
c
t
o
rOfc
c
o
mA
= m aX
+(
2c
nh+c
n_
S
ub
h)・
Si
mcom( ,
h)
@)ove
r
l
a
p
(
a
)s
e
par
at
e
a
Sc
o
m(
9,
hll
)
図 4 Regi
ons
ec
t
or間の類似度 を決定す る各状態
Fi
g.
4 Eac
hs
t
at
et
odeci
des
i
mi
l
ar
i
t
ybe
t
weenr
egl
On
s
ec
t
or
.
t
i
on),r
e
gi
ons
e
c
t
or間が重なっている場合 (
o
ve
r
l
ap)
の二つの状態がある.重 なっている場合 とは,合成ベ
ク トルがほ とん ど類似 していることを表すので,類似
e
gi
ons
e
c
t
or
度 を 1とする.一方,離れている場合 は r
を用いて類似度 を計算すればよい.そ こで,合成ベ ク
ノ
ヽ
トル系列 Qc
o
mの
蒜
E
39番 目の合成ベ ク トル 百
Sc
o
m(
911
,
h)
.
;と合
+(
2c
nv+c
n_
s
ub
v) L
Si
mc
o
m(
g,
h)
(
1
3)
c
nd- M i
nl
百
蒜 .
;・
num,
c
T
n
c
nh- Mi
n[
q
T
;
石
蒜
.
nun,
・
n
um]
.
言I
num -1
]
c
nv - Mi
nl
窮吉
宗.
;.
nun -1,
c
T
n
nl
c
nd,
(
q
T
;
c
ns
ub
d-M i
.
num]
・
num 一房蒜 .
完・
num)
】
成ベ ク トル系列 Cc
o
m の h番 目の合成ベ ク トル c
T
a
n[
c
nh, (拓 訂;
.
n um
c
ns
ub
h- Mi
のr
e
gi
ons
e
c
t
or間の角 を β
。
。
m とす る と (
図 4(
a)参
(
蛋;
完.
;.
nun -房吉
蒜.
言.
nun)
】
c
n_
s
ub
v-Mi
nl
c
nv,
T
照),q
E
とc
T
a
のr
e
gi
ons
e
c
t
or間の類似度 は
以下の式で計算 される.
一 房 吉宗 .
完・
num)
]
ノ
ヽ
a)- AM SSc
o
m(Qcom ,ecom)
UBAMSS(
Q,
- sc.
m(
N'
,
M'
)
s
i
- co
-
(9,h,-
c
l
?
.
SOc
o
-
i
S::ral
r
a
a
,
ti
on
i
(
1
0)
∂
。
。
m とは以下 の式 の よ うに,各座標 平 面 の r
e
gi
on
s
e
c
t
or間の角度の最小値で表 される.
Ocom
- mi(
Ocom l
x],Ocom
n
ly ],
・
・ ・)
(l
l)
ここで,x座標平面での r
e
ions
g
e
c
t
or間の角度 O
c
o
ml
x]
は以下の式で求め られる.
x
]
i
fqcom・
Lag
l
x
]
>c
com ・
Ua
n
9
l
x
]
ccom・
L ngl
x
]- qco
m・
U n
9l
x
]
q
c
o
m.
Longl
xト
β
。
。
m回 -
Cc
o
m・
Uangl
(
1
4)
ここで Sc
o
m(
9,
h)は Qc
o
m の 9番 目と e
c
om の h番
目までの合成 ベ ク トル系列 間の最大 の類似度 になる.
′
ヽ
・
num,c
T
a ・
num はそれぞれ Qc
o
mの
g 番 目と ec
o
m の h番 目の合成ベ ク トル を構 成す る
なお,す
蒜
I
i
コ
もとのベ ク トル数 を表 している.いか なる二つの Qと
∂において も,以下の不等式が成 り立つ.
UBAMSS(
a,
a)≧ AM SS(
a 6)
,
(
1
5)
したが って,以上 の手法 を上界関数 として,似 ていな
い時系列 を検索対象か ら外す ことによ り,効率的 な検
n
a
a
el
s
ei
fc
c
o
m・
Langl
x]>q
c
o
m・
Ua
ngl
x]
(
1
2)
また,他の平面 について も同様 に して求めることがで
きる.
索 を実現 で きる.なお,式 (
1
5)については付録 で証
明す る.
4. データ圧縮 のためのベ ク トル合成
時系列 中の部分ベ ク トル列 を一つのベ ク トルに合成
する 「
ベ ク トル合成」手法 について説明す る.時系列
そ して, もとの部分ベ ク トルの類似度の定義 と同様
には,少 な くとも滑 らかなに変化す るデー タ,振動 の
に,O
c
o
m が 打/2以上離れていれば類似度 を Oとする.
多 い デー タの 2種類 が存在 す る.本論 文 で は, これ
また,各 r
e
gi
ons
e
c
t
orのいず れかが図 4(
b)の よう
に重 なる場合 には類似度 を 1とす る.
ら二つの観点か ら合成手法 を検討 している.それぞれ
"
Ⅷr
i
at
i
onalangl
e
s
"と "
var
i
at
i
onalar
ea" と呼ぶ.
e
gi
ons
e
c
t
or間の類似度 を式 (
1
0)によ り
すべ ての r
Ⅷr
i
at
i
onalangl
e
sとは,上界関数の緊密性 を高める
計算 した後,r
e
gi
ons
e
c
t
or系列 間,つ ま り,合成ベ ク
ノ
ヽ
トル系列 Qc
o
mとec
o
m 間の類似度 を求め るための再
ために,合成ベ ク トルによ り作 られる r
egi
ons
e
c
t
orの
帰関数 を式 (
1
3)の ように定める.
Ua
ngl
x]
-q
T
a ・
La
ngl
x]が
s
e
c
t
orで は中心角 拓 完 ・
中心角 に制約 をかける条件 である.図 2(
b)の r
e
gi
on
292
9
電子情報通信学会論文誌 2
008/1
2Vol
.J91
-D No.
1
2
しきい値 よ り小 さい値 を とる ように制 約 をか けてい
る.v
ar
i
at
i
onalangl
e
sは比 較 的単調 な軌跡 を してい
るデー タに有効 である.逆 に,ベ ク トルの角度が急激
ことがで きない とい う問題 があ る.
v
ar
i
at
i
onalar
e
aは,ベ ク トルを合成 した場合 に生 じ
る, もとのベ ク トル と合成 したベ ク トル間の領域 を情
報損 の量 と して考 え,その領域 の面積 を制約条件 とし
ar
i
a
t
i
onalar
e
aは,var
i
at
i
onal
て用 いる ものであ る.v
angl
e
sほ ど角度 の変化 には敏感 にならず,ノイズや激
しい変動 をす る軌道 に対 して も効果 的 にベ ク トル合成
で きる とい う利点がある.逆 に,Ⅷr
i
at
i
onalangl
e
sと
比べ る と,多 くのベ ク トル を合成 す るため緊密生が低
くなる とい う問題 が ある.
4.I Vari
at
i
onalang
les
ベ ク トル合成 はただ闇雲 に実行す れば よい わけで は
ズム
Tabl
e 1 Vect
or c
ombi
nati
ons al
gor
i
t
hm by var
i
ati
onalangl
es.
0 1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1
に変化 してい る波形 で は,多 くのベ ク トルを合成 す る
表 1 Var
i
at
i
onalangl
eSに よるベ ク トル合成 の アルゴ リ
combi
ne_
angl
e(
Q)-Q。
om
tart;
s
Q- (
q
7・qi,
・
L
・
,
喝
Qcom -.
(
)
;
Th r e
s
h
)
; //vectorsequence
//c
ombi
ne
dve
ct
orse
q
ue
nc
e
- Othre
Bh;
i- 2;
3- 1;
whi
l
e h ≦ 〟)
Ova
Cal
cvari
at
i
onal
angl
p
・(
弔,
q
I)
;
i
f(
∂v
a,[
1】≦ Thresh&& .,,&&Ova
r回 ≦ Thr esh)
,
-
i++;
conti
nue;
茄古記 - vect
or_
combi
ne (
Q,3
'
,i- 1);
add (
Qcom,
転石謡);
q■
■i
)
と
i++;
Cont
i
nue;
r
eturnQc。m ;
end;
な く,AMSSか ら得 られ る類似 度 と上界 関数 か ら得
られ る類似度 の値が,で きるだけ近 くなる ように合成
こ
q3
e
gi
ons
e
c
t
orの 中心
す る こ とが望 ま しい .そ こで ,r
e
gi
on
角 に制約 をか けて,似 ているベ ク トルのみか ら r
吉
qc
o
m1AJ
s
e
c
t
orを構 成 す る ようにベ ク トル合成 す る.具体 的
Oth, esh
よ り小 さければベ ク トルを合成す る.なお, し
Al
+AZ
(
b)
には,合 成途 中のベ ク トル系 列 か ら作 られ る r
e
gi
on
s
e
c
t
orの中心角 を表 すパ ラメー タ Ova, が , しきい値
三
q3
;
(
C
1
図 5 Var
i
at
i
onalar
ea
Fi
g.5 Var
i
at
i
onalar
ea.
きい値 が小 さければ小 さいほ ど, もとのベ ク トル系列
と合成ベ ク トルが よ り近 い形状 となるため緊密性 は高
くなる. ここで,
Ovarl
n]-
図 5(
a)のベ ク トル系列 の うち,前 と 宙 に よ りベ ク
b)
),領域
トル合成が行 われた場合 (
図 5(
q
T
E
=・
Uangln]一 q
T=
・
Langl
n]
(
1
6)
A l が この
合成 に よって生 じる v
a
r
i
a
t
i
ona
la
r
e
aとな る. また,
C
)の ように 前 ,重 ,重 か らベ ク トル合成 され
図 5(
であ るので,Ovar がすべ ての次元 において OthreBh よ
ar
i
a
t
i
onala
r
e
aとなる.す なわ
た場合 ,A l+A 2 が v
りも小 さけれ ば,一 つ の合成 ベ ク トル と して合 成 さ
ち,ベ ク トル 前 と 重 を合成す るか どうか決 める と
れ る.
き,v
ar
i
at
i
onalar
e
aA l を評価 し,A l が しきい値 よ
Ⅷr
i
at
i
onalangl
e
sに よるベ ク トル合 成 アル ゴ リズ
′
\
ムを表 1に示す.Q 。。m は合成ベ ク トル を記録す る配
列 で あ る. まず は じめ に, しきい値 Thr
e
s
h を決定
e
gi
ons
e
c
t
orの 中心角 を決定 す る
す る. しきい値 は r
りも小 さい場合,扉 と 重 が合成 される.同様 に,ベ
ク トル (扉 ,
重,
宿 )の合成 につ いて は
評価 される.
(
Al+A2) が
ベ ク トル合 成 の ア ル ゴ リズ ム を表 2 に示 す. ま
値 であ る. また,Cal
c
_
vari
at
i
onal
_
angl
e(
重,
香 )は,
ず は じめ に , しきい値 Thr
e
s
h を決 定 す る.具 体
宙 と雷 の間の角
を計算す る関数であ る.次 に合
ar
i
a
t
i
onala
r
e
a を求 め て
的 に は ,全 体 時 系 列 の v
成す る 有 の角度 と Ova, を比較 して,Ova, の値が しき
(表 2 の 3行 目),情 報 損 の 許 容 量 を決 定 す る値
e
s
h を超 えるまでそれ までのベ ク トル をま と
い値 Thr
W(
0.
0≦ W ≦ 1
.
0)を設 定 す る .W が 大 きけ れ ば,
めて合成す る.
情報損 は大 き くな り,ベ ク トル系列本 来の形 か ら離 れ
Ova,
4.2 Vari
at
i
onl
a ar
ea
るが,逆 にデー タ圧縮量 は大 き くなる. なお, しきい
var
i
at
i
onalar
e
aとは,ベ ク トル を合成 した場合 に
re
s
h値 は Th
生 じる情報損 の量 を領域 で表 した ものである.例 えば,
2930
At
ot
al*W
と して計 算 される.以上
の考 え方 に従 って,一つずつ合成す るベ ク トル を追加
論文/時系列の類似性検索 における上界関数 による効率化
表 2 Var
i
at
i
onalar
eaに よるベ ク トル合成 の例
Tabl
e2 Vect
orcombi
nat
i
onsal
gori
thm by
var
i
ati
onalar
ea.
表 3 上界 関数 を用 いた最近傍検索 アル ゴ リズ ム
Tabl
e3 1near
estnei
ghbors
ear
chal
gori
t
hm wi
th
upperbounds.
combi
ne_
area (
Q)= Qcor
n
s
tar
t;
a- (
q7
,
q
i,...,す万); //veciorsequence
Qc
om - (
)
;
//C
omb
i
ne
dve
ct
orse
q
uenc
e
At
ot
aJ- Cal
c_
t
ot
aLvari
at
i
onaLarea (
Q);
■
ot
al*W;
Tf
"esh - At
i- 2;
3- I;
whi
l
eh ≦ 〃)
search(
Q,C)
S
tart;
om Q;
makeQcom fr
maェsi
mi
l
ari
t
y- -∝)
;
geta Ccom f
r
om da
t
ab
ase;
i
fCcom doesnotexi
s
t
r
eturn resul
t;
c
al
c
ul
at
eUBA禦S
S(
Qco-,eco- )
;
i
fUBAM SS(
Qcom,ecom )< maxsi
mi
l
ari
t
y
Apa,t
i
aL- Cal
cvari
at
i
onal
area (
i
,
3
1
);
i
f(
Apart
i
al≦ Thresh)
getaL
i
meser
iesa f
r
om dat
ab
ase;
c
al
cur
at
eAM SS(
Q,C)
;
mi
l
ari
ty
i
fAM SS(
Q,C)>marBi
resul
t- a,maxsi
mi
l
arit
y - AM SS(
Q,
C)
;
goto4.
i++;
conti
nue;
百品 宗 - ve
ct
or_
combi
ne (
Q,J
A
,
i-1);
add (
ecom,百品 );
end;
J = i;
i++;
conti
nue;
∋com;
r
eturn(
end;
表 4 デー タセ ッ トの性 質
Tabl
e4 Char
act
erofdat
as
et
s.
Datas
et
bal
l
oon
buoys
ens
or
bur
s
t
net
wor
k
し,その都度 Ca
l
c
I
Var
i
at
i
o
naLare
a(
i
,
i
)に よ り,ベ
Lengt
h
char
act
or
4,
002 compl
i
cat
ed
55,
964 compl
i
cat
ed
9,
382
smooth
18,
000
smoot
h
,
j間の累積 Var
i
t
at
i
ona
l ar
eaを調べ , し
ク トル系列 i
re
s
hを超 えるまでベ ク トル合成す る.
きい値 Th
5. 実
度 AMSS(
Q,C)を計算す る. これ も最大類似 度 よ り
験
大 きい場合 には最大類似度 を更新す る.そ して,次 の
本章では,以下の点 に従 って,我 々の手法が有効 で
あることを示す.
合成 ベ ク トル列 を取 り出 して同様 の処理 を行 う. これ
をすべ ての時系列 に対 して行 って,最終 的 に最大類似
(1) ベ ク トル合成 の性 能
度 を もつ時系列 を検索結果 として返す.
(
2) AMSSのための上界 関数 の効果
5.1 ベ ク トル合成 に よるデー タ圧縮
まず,ベ ク トル合成 に関す る実験 と して,デー タ圧縮
デ ー タ圧 縮 の効 果 を確 か め るた め に ,v
ar
i
at
i
onal
の効果 を確 かめ る.そ して,効率 的 な類似度計測 の観
点か ら,AMSSの上界 関数 を用 いた場合の検索の正当
angl
e
sの しきい値 を o≦ Oth,eth ≦ 45,var
i
at
i
onal
ar
e
aにお け る情 報損 の 許 容 量 を決 定 す る重 み W を
性 を証明す る.検索 には k- 1の場合の近傍検索 を用
0.
0≦ W ≦ 0.
5の範 囲 と し,ベ ク トル合 成 の実験 を
いる.近傍検索 とは.問合せ Q と数値 kが与 え られ
[
4
]で使 用 されてい る一次元
行 う. なお,本実験 で は,
たときに,Q に最 も類似 した k個 のデー タを検索す る
のデー タセ ッ トを用 いてい る. このデー タは時系列 の
ものである.
デー タマ イニ ングのため に無償 で提供 されてい るデー
上界 関数 を用 いた近傍検索 で は,実際 に検索 を行 う
タであ り, ノイズ を含 むデー タ,周期性 のあ るデー タ
前 に,デー タベ ース中のすべ ての時系列 に対 して,令
2の デー タセ ッ トで構 成 され てい る.そ
な ど様 々な 3
成ベ ク トル列 を作成 してお く.そ して,問合せ 時系列
の中で,本節 では表 4の もの を用 いてい る. また,吹
Qが与 えられる と,表 3のアル ゴリズム を用 いて近傍
節 か らの実験 において も同一のデー タセ ッ トを用 いて
検索 を行 う.
い る.
ar
i
at
i
onalar
e
aか Ⅷr
i
at
i
onalangl
e
sを
まず は,v
用 い て Q か ら合成 ベ ク トル列
′
\
Q 。。m
を作成 す る.吹
′
ヽ
i
at
i
onalangl
e
sを用 いたデー タ圧縮 の結
図 6は Ⅷr
果 を示 してい る.横 軸 は r
e
gi
ons
e
c
t
orの 中心 角 の し
にデー タベースか ら合成ベ ク トル列 Ccom を一つ取 り
きい値
ecom ) を計算す る.これが こ
出 して UB AM SS(Q com ,
あ る.圧 縮 率 は, も との 時系 列 の長 さに対 す る圧 縮
れ までの最大類似度 よ り大 きい場合 には,本来 の類似
され た時系 列 の長 さの割 合 で表 してい る.結 果 か ら,
Othreth,縦軸 は圧 縮率
c
o
mpre
s
s
i
o
nr
at
eで
2931
電子情報通信学会論文誌 2
008/1
2Vbl
.J91
-D No.
1
2
Co
mpr
e
s
s
i
onwi
t
hva
ia
r
t
i
ona
la
r
e
a
Compr
es
s
i
onwi
h va
t
ia
r
t
i
ona
la
n gl
es
9
0
98
7
(
0
5
4 3 2 1
0 00 0 0 0 0 0 0
a
t
t
!
JuOt
S
S
aJdu ou
8
0
7
6 5 4
U
▲
O O
O
3 2
O O
33tu uOTSS
aJdu o3
b
n
u
e
P
w
y
.
S
,
e
k
n
S
O
r
0
0
0
10
20
30
0.
1
0.
2
40
a
ngl
et
hr
e
t
hol
d
0.
3
0.
4
0.
5
W
図 8 Var
i
ati
onalar
ea を用 いたデー タ圧縮 の結 果
図 6 Var
i
ati
onalangl
esを用 い たデー タ圧縮 の結 果
Fi
g.
6 Dat
ar
educt
i
onbyvar
i
at
i
onalangl
es.
Fi
g.
8 Compr
es
si
onr
at
ebyvar
i
ati
onalar
ea.
60
0
軌跡 を もつ デー タに対 して有効 で あ る こ とが分 か る.
500
しか しなが ら,デー タのサ ンプ リング と座標値の関係
400
によっては有効 で ない場合 もある.
300
a
r
i
at
i
onala
r
e
aを制約条件 と して用 いたベ ク
次にv
200
1
00
00
トル合成 の結果 を図 8 に示す.横軸 は W ,縦軸は圧縮
o
h
u
y
t
∼
L
^
い
仰
ぎ
叫
.
州
,
′
、こ
,
O
∧
O
,
ゞ
(
,
"
,
Y
"
,
y
L
,
小
山
U
}
U
J
t
J
y
t
+
50
1
00
1
50
200
250
図 7 時系列 net
wor
k の軌跡
Fi
g.7 Shapesoft
r
aj
ect
or
yofdat
a"
net
wor
k.
"
率c
o
mpre
s
s
i
o
nr
at
eを示 している.v
ar
i
at
i
onalar
e
a
に よるベ ク トル合成 で は,v
a
r
i
a
t
i
onalangl
e
sの よ う
に しきい値 による圧縮率 のば らつ きが少 な く,すべ て
のデー タに対 して適切 に圧縮で きていることが分かる.
s
hut
t
l
e,bur
s
tは小 さい しきい値 で も適切 にベ ク トル
この実験 よ り,ベ ク トル合成 に よ り十分 にデータ量
合成 されている こ とを表 してい る. これは, これ らの
が圧縮 で きるこ とが証 明 された. これは時系列 間の類
デー タの軌跡 が滑 らかで,時系列 中のベ ク トルの方向
似 度 の計算 を効率化 す るため に有効 であ る. しか し,
がそろっているためであ る.
ベ ク トル系列 の大部分 を合成 して しまうと,上界関数
一 方 ,ba
ll
oon と buo
ys
e
ns
orの圧 縮 性 能 は悪 く,
に よる類似 度 とも との類似度 との緊密性 が低 くな り,
しきい値 を大 き くしない と多 くのベ ク トルが合成 され
多 くの時系列 を検索対象か ら除 くこ とがで きな くなる.
ない ことが分か る. この原 因は,時系列 中のベ ク トル
この ようなデー タ圧縮 と上界 の性能の関係 については
が振動 してお り,小 さな しきい値 の制約 で は,ほ とん
次節以降で説 明す る.
e
t
wor
k
どベ ク トル合成 され ないためであ る. また,n
は図 7の よ うな滑 らか な軌 跡 を してい る に もかか わ
5.2 上界の緊密性
まず上界 の 緊密性 を調べ る.緊密性 は上界 (
下界 )
らず,他 のデー タと比較 して,圧縮 の性 能が悪 い結果
.
0に近い
関数 ともとの類似 度関数 との比 で表 され, 1
となってい る. これ は,ne
t
wor
kの座標値 がサ ンプ リ
ほ ど,上界 (
下界 )関数の性 能が高い といえ,上界関
ング レー トと比 較 して極 端 に大 きい こ とが原 因で あ
数 を用 いた検索 時 に多 くの検索候補数の削減 を期待 で
る.実 際 ,ne
t
wor
kはサ ンプ リング点 1
00あ た りで
きる. ここでは,[
4]で掲載 されている既存の DTW の
起 こっている変局点 の ほか に も,小 さな振動 を繰 り返
下界 関数 と比較 を行 う.対象 とす るのは LBKi
n[
8
]
,
して,時系列が変化 してい る.座標値 がサ ンプ リング
LBYi[
1
4]
,LBKe
ogh[
4]であ る・
レー トと比較 して小 さい場合,振動時 の角度変化 も微
LBKi
m では,各時系列か ら特徴ベ ク トルを抽 出 し,
小 な もの とな り,適切 な圧縮 を行 うこ とがで きる. し
Yiの下界 関数 は,時系列 の値
下界 が定義 され,LB-
t
wor
kの ように座標値 が大 きい場合 では,大
か し,ne
の最大値 と最小値 を用 いて定義 されてい る.そ して,
きな変局点以外 の角度変化 で もしきい値 よ り大 きな値
LBKe
oghは ワ- ビング制約内の最大値 と最′
J
、
値 を用
となるため に適切 な圧縮が行 われない.この こ とか ら,
いて定義 され るてい る.
va
r
i
at
i
onalangl
e
sに よるベ ク トル合成 は,滑 らか な
2932
og
h らの研究で用 いた もの と同 じ本実験 では,Ke
窟文/時系列の類似性検索 における上界関数による効率化
me
a
nva
l
ue
sof32da
t
a
s
e
t
0
ノ(
X)7 /
▲
U5 4 3●2 ,0
0 00 0 0 00 0
S
S
aqもf
一
0
表 5 検索結 果の比較
Tabl
e5 Compar
i
s
onofr
et
r
i
evalr
es
ul
t
s.
1
dat
aO
dat
a1
dat
a2
dat
a3
dat
a4
dat
a5
dat
a6
dat
a7
dat
a8
dat
a9
tO.
O dV
れ
o
o.
0叫く
1
0
40
0慧1
0
'
NN
D
V
0t
.
D
LW
033[・中1
NdDNV
鳥
叫
^・
ql
uZ
T
X・
q1
/
L
U
5
4
3
0
■
2
0
●
0
1●
t
O
.
〇由V
SOOd 出V
T
暮d dJI
0.
NDNV
0.
IDZ一
q
N.
ODNV
q1
すべ てのデー タセ ッ トの 緊密 性 の平均 を図 9 に示
ar
i
at
i
onal
す.本実験 では,AMSSの上界 の緊密性 を v
息
・
q1
で行 い,平均値 を算 出す る.
oa¥
t
L
[TX
0
して,緊密性 を計算 す る. この過程 をすべ ての時系 列
a
)
TTj
て,5
0個 の うちの 1個 か ら他 の 49個 の時系 列 を比較
0
32の デ ー タセ ッ トか ら
2Jt
2
JSup
実験 の ため に, そ れ ぞ れ の
5
4の時 系列 を ラ ンダム に 5
0個 抽 出す る.そ し
長さ2
0
次元 デー タの デ ー タセ ッ トを用 い てい る [
4
]
.
me
a
nva
l
ue
sof32
da
t
a
s
e
t
0
図 9 緊密性 の平均
Fi
g.
9 Meansoft
i
ght
nes
s・
AMSS AMSSwi
t
hUpperBound
dat
a3
dat
a3
dat
a17
dat
a17
dat
a19
dat
a19
dat
aO
dat
aO
dat
a38
dat
a38
dat
a22
dat
a22
dat
a39
dat
a39
dat
a9
dat
a9
dat
a9
dat
a9
dat
a44
dat
a44
図 10 フ ィル タリング率 の平均
Fi
g.1
0 Meansoff
il
t
er
i
ngr
at
e.
2,
1.
0,
2.
0) と var
i
at
i
onalangl
e
s
a
ng
le
s(Oth,eth -0.
(
W - 0.
0
01
,
0.
005,
0.
01)につ い て調べ てい る. 同様
また, フ ィル タ リングに よ り f
al
s
edi
s
mi
s
s
alを生 じ
Ki
n,LBYi
,LBI
Ke
og
h
に,DTW の下界である LB-
ない こ とを付 録 2.で数 学 的 な証 明 に よ り,上界 関数
について も調べ てい る.
の類似 度 が もとの類似 度 よ りも大 き くな る こ とを示 し
結果 か ら,v
ar
i
a
t
i
onalangl
e
s,v
ar
i
at
i
onalar
e
aに
てい る.そ して,すべ ての検索対象 を比較す る と,実際
よるベ ク トル合 成 は ,既 存 手 法 で 最 も緊密 性 の高 い
al
s
edi
s
mi
s
s
l が生 じない こ とを確 認 で きた.確認
a
にf
LBKe
oghよ り更 に緊密 で ある こ とが確 認で きる. こ
結 果 の一部 と して, デ ー タ ne
t
wor
kの da
t
aO-dat
a9
れ は,本 手 法 に よるデ ー タ圧 縮 で定 義 され た上 界 が ,
に対 して検 索 を行 った確 認 結 果 を表 5 に示 す. こ こ
類似 時系列検 索 の効率 化 に有効 で あ る こ とを示 してい
で,上界 関数 には v
ar
ia
t
i
onalangl
e
s (Oth,eth -1.
0)
る.す なわ ち,緊密性 の高 い上界 を用 いれ ば, よ り低
を用 い てい る.
い計算 コス トでの類似 時系 列 の検 索が可 能 になる.
そ して,すべ て のデ ー タセ ッ トの フ ィル タ リング率
5.
3 上界 に よるフ ィル タ リン グ
の平均 を図 1
0に示 す.本 実験 で は,ベ ク トル合 成 に
最後 に,類似 す る時系 列 デ ー タの検索 にお け る フ ィ
はv
ar
i
at
i
onalangl
e (Oth eth - 0.
2,
1
.
0,
2.
0) と v
ar
i
,
ル タリングの効果 を示す.上界 を用 いた検 索 を実行 し,
a
t
i
onalangl
e
s(
W - 0.
001,
0.
005,
0.
01) を用 い て上
フ ィル タ リング率 を求 め ,[
41で掲 載 され てい る DTW
界 を計算 し, フィル タリング率 を調べ てい る.同様 に,
の下界 関数 に よる フ ィル タ リング率 と比 較 す る. フ ィ
DTW の下界 で あ る LBKi
n,LBYi
,LBKe
oghに
ル タリング率 とは, どれだ け似 てい ない検索対 象 を外
つ い て も調 べ てい る.
す ことがで きたか を表す値 で,1
.
0に近 いほ ど上界 (
下
結果 か ら,v
ar
i
at
i
ona
l angl
e
s (0伽 eth -0.
2)に よ
罪) 関数の性 能が 良 い とい え る.更 に, この値 が大 き
る上界 の フ ィル タ リング率 が ,最 も高 い値 を示 してい
いほ ど,検索 にかか る時 間 を短縮 す る こ とが で きる.
る. また ,v
ar
i
at
i
onalangl
e (Oth,eth -1,
0,
2.
0) と
2
9
3
3
電子情報通信学会論文誌 2
008/1
2Vbl
.J91
-D No.
1
2
ba
l
l
oon
var
i
at
i
onalang
le
s(
W- 0.
001,
0.
005,
0.
01)による上
は ともに 0
-1までの制 限 された催 しか とる ことが な
0.
類似度 は高 くな り,緊密性 も必然 的に高 くなる.その
4
0.
Ke
oghよ り高 いが,フィル タリン
ため,緊密性 は LB-
5
い. また,比較す る時系列が似 ていれば似 てい るほ ど,
u
O
具体 的には,DTW では 0-∝'までの距離 を計算 し,
類似度 を算 出 しているが,AMSSの類似度,上界 関数
a
t
よる ものだ と考 え られ る.
aJ
t!J U叫) !n
T 3
aX3
9
8
7
′ 6
∧
U
0
A
U
0
が悪 くなってい る.これは,AMSSの類似度の定義 に
O
) 8 7
6
0
. 0. .
0
0.
a)。J 叫upa tlTj
界の フィル タリング率 は LBKe
og
h と比較す る と性能
1
0.
9
0.
8
0.
7
0.
6
グ率 は低 い とい う結果が生 じている. しか し,ベ ク ト
c
ompr
es
s
i
onr
a
t
e
Ki
n,
ル合成 による上界 関数 の フィル タリング率 は LB-
s
hut
t
l
e
E
!
tO
!
を終 える までの時 間 を指す. したが って,上界関数 を
0.
4
a
t
)
!
Ja ′0 u 4
T
n33Xa
X
l
2
(
0
0. 0
0
次 に, フィル タリング率 と実行時 間短縮率 の関係 を
調べ る. ここで,実行 時 間は検索 要求が きてか ら検索
6
4.
0
0
●a
9 盲 JB
uu
)
TTJ
で きる.
8.
0
LBYi手法 よ り勝 ってお り,上界 関数の妥 当性が確認
0.
5
用い ない場合 は,検索対象 と最 も類似度 の高 いデー タ
を求め る時間であ り,上界 関数 を用 いた場合 では表 3
の検索 アル ゴリズム を実行す る時間であ る.実行 時 間
短縮率 は両者 の時間の比 に よ り表 している.使用す る
デー タは 3
2のデー タセ ッ トか ら特 に bal
l
oon,s
hut
t
l
e
とい うデー タを用いている.これは,s
hut
t
l
eは滑 らか
l
l
oonは振幅 の激 しい
な軌跡 を措 くデー タであ り,ba
1
.
0 0.
9 0.
8 0.
7 0.
6 0.
5 0.
4 0.
3
c
ompr
e
s
s
i
o
nr
a
t
e
図 11 bal
l
oon と shut
tl
eの フ ィル タリング率 と実行時間
の短 縮率
Fi
g.ll Fi
l
t
eri
ngr
at
eandexecuti
ont
i
mer
at
eofba1
l
oonandshut
t
l
e.
デー タとい う特徴 をもっていることによる.これ らの二
つのデー タに Ⅷr
i
at
i
onalangl
e
s
,v
a
r
i
a
t
i
onalar
e
aを
適用 した場合 の有効性 を検証 す る. なお,v
a
r
i
at
i
onal
angl
e
s,var
i
at
i
onalar
e
aはそれぞれ, しきい値 によっ
て圧縮 率 が異 なるの で, 同 じ尺度 で比較す るため に,
デー タの圧縮率 とフ ィル タ リング率 と実行時 間短縮率
の関係 を調べ ている.
図 11は ba
l
l
oon,s
hut
t
l
eにお けるフ ィル タリング
率 と実行 時 間短 縮 率 を示 して い る. また,DTW に
LBKe
oghを用 いた場 合の実行 時 間短縮率 は bal
l
oon
で は O.
53,s
hut
t
l
eで は 0.
4 となって い る(
注2). この
図 にお い て,横 軸 はベ ク トル合 成 を行 った ときの圧
縮 率 ,縦 軸 は フ ィル タ リ ング率 と実 行 時 間短 縮率 で
あ る.T_
ang,T_
are
aはそ れ ぞ れ,var
i
at
i
onalan-
な検索が可能 になってい る.
また,s
hut
t
l
eで は va
r
i
a
t
i
ona
la
r
e
aの優位性がわず
hut
t
l
eが滑 らかな軌跡であ
か に確認で きる.これは,s
るために,v
a
r
i
a
t
i
onalangl
e
sでは多 くのベ ク トルを一
度 に合成 しす ぎ,緊密性 が低 くなっていることが原 因
l
l
oonでは v
a
r
i
a
t
i
onal
である と考 え られ る.逆 に,ba
l
oonが振
angl
e
sの優位性 が確認 で きる. これは,bal
動 の激 しいデー タであ るため に,v
ar
i
a
t
i
onalar
e
aで
は繰 り返す方向の違 うベ ク トルを合成 して しまい,緊
密性 が下が ってい る こ とが原 因であ る と考 え られる.
しか しなが ら,両手法 とも, フ ィル タリングを用 いな
Ke
oghと同程度の検索効率であ
い場合 に比べ て,LBる4
0-50%程度 の時 間で検索 で きてい る.
,v
ar
i
at
i
onalar
e
aを用 い た場 合 の実行 時 間短 縮
gl
e
s
any,F_
areaはそれぞれ,va
r
i
a
t
i
onalangl
e
s
,
率 ,F_
var
i
at
i
onala
r
e
aを用 い た場 合 の フィル タ リング率 を
表 してい る.ba
l
l
oon,s
hut
t
l
eともに, フ ィル タリン
グ率 が増加す る と,実行時 間が短縮 される こ とが分か
る.す なわち,高い フ ィル タリング率 によ り,効率 的
2934
6. む す び
本研 究 で は,類似 時系列 の検索 を高速化 す るため,
(
注 2):実行時 間短縮 率 につ いては 刷 で 言及が なか ったため ,[
4】に掲
載 されてい る ように,我 々が実装 した ものである.
論文/時系列の類似性検索 における上界関数 による効率化
表 6 ラベ ル 4の t
e
S
tデ ー タに対 す る DTW ,AMSSの
検索結果上位 3個
Tabl
e6 Ret
r
i
evalr
es
ul
tofDTW andAMSSf
ort
es
t
dat
aofl
abel4.
AMSS
dat
a
cl
as
s
t
r
ai
Ⅰ
1
【
83]
t
r
ai
n【
178]
t
r
ai
n【
11
4]
4
12
4
DTW
dat
a
name
t
r
ai
n【
392]
t
r
ai
n【
321]
t
r
ai
n【
307]
4
4
15
図 12 基準 時系列
Fi
g.12 Bas
i
clt
i
mes
er
i
esdat
a.
ベ ク トル合成 を用 いた上界 関数 に よる フ ィル タリング
を実装 した.本手法 は,f
al
s
edi
s
mi
s
s
alを生 じず,時
系列 間の類似度 を効率的 に計算す る こ とが で きる. こ
の ことを実証す るために,上界が成 り立つ こ とを数学
図 13 時 間伸縮 に よる時系列 の変化
的帰納法 に よって証明 した.ベ ク トル合成 の評価実験
Fi
g.13 Tr
ansi
ti
onbyt
i
mewar
pi
ng.
では,デー タ量削減の正当性 を証 明す るこ とがで きた.
また,上界 に よるフ ィル タリングを評価 して,ベ ク ト
ル合成が有効 であ ることを示 した.
本手法 は,「
AMSSの時間伸縮 による脆弱性」,「
va
r
i
-
a
t
i
ona
langl
e
sの汎用性 」「
var
i
a
t
i
onala
r
e
aに よるベ
ク トル合成」,「
上界 関数 の緊密性」 とい う問題点 を抱
えている.
to
・
x
5
o
L
i
o
u
まず,時 間伸 縮 に よ る脆 弱 性 につ い て検 証 す る.
i
i
図 1
4 振 幅の変化 に よる時系 列の変化
AMSSの分類性 能 自体 は [
1
]で議 論 を行 ってお り,[
5
]
Fi
g.1
4 Tr
ans
i
t
i
onbyampl
i
t
ude・
の一次元 のデ ー タセ ッ トにお け る分 類 性 能 は付 録 の
.
て
表 A・
1の ようになっている. ここで,DTW は最適
なワ- ビング制約 を用 いた もので,L
CS
Sについては
2点間の差異が 1
0%内であれば類似 となる ように して
いる.そ して,最 も誤差が少 なか った値 を太字で示 し
V
三
(
a
)
o
・
…
』
仲)
亀
,o
L
o
5
k
ている.これ よ り,AMSSが類似度測定 関数 と して妥
図 15 時 間伸縮 と振幅の変化 を組み合わせ た時系列の変化
当な ものであることが確認 で きる.
Fi
g.15 Tr
ans
i
t
i
onbyt
i
mewar
pi
ngandampl
i
t
ude.
,
しか し,詳細 を見 る と AMSSは時 間伸 縮 に弱 い こ
とが分かる.例 えば,デー タセ ッ ト5
0wor
ds中のラベ
図1
2と図 1
3(
a)
,(
b)間の類似度 を DTW ,AMSSで
ルが 4で あ る t
e
s
tとい うデー タ用 い た場 合,DTW ,
求 め る.DTW で は類似度 が ともに 0とな り,AMSS
AMSSの検索結果 の うち上位 3個 を表 6に示す. こ
で は ともに 0.
95となる.DTW の類似度 は AMSSと
こで,t
r
ai
nl
二
i
]は i番 目の訓練 デー タを示す.
異 な り,0 に近 い ほ ど,時系 列 が似 て い る とい え る.
表 よ り,両手法 とも正 しく検索 がで きているこ とが
確認で きるが,AMSSの ラベ ル 1
2のデー タの方が ラ
ベル 4のデー タよ りも類似度が高い結果 となっている.
そのため,時間の伸縮 に対 して DTW で は類似度 の変
化 が起 こ らず,AMSSに比べ て優位 が確認 で きる.
また,図 1
4,図 1
5の ように,振 幅の変化 や,時 間
これ はデー タ 5
0wor
dsが時系 列 中で時 間伸縮 を起 こ
伸 縮,振 幅変化 を組 み合 わせ た変化 を与 えた もの に対
してお り,AMSSでは時間伸縮 によ り適切 な類似度 を
して 同様 に計 算 す る と,表 7の よ うにな る.結 果 よ
求め られていない こ とが原 因であ る.
り,AMSSは,時 間伸縮 ,振 幅の変化 に対 して,類似
時 間伸 縮 の脆 弱 性 につ い て更 に詳 細 に検 討 す る.
度 の変化 が起 こるが,時 間の伸 張 と振 幅の増加 が 同時
図1
2の ような時系列があった場合 ,図 1
3(
a)は図 1
2
に起 こる場合 ,あ るい は時 間の短縮 ,振 幅 の減少が 同
の時 間 を 2倍 に伸 張 した デー タ,図 1
3(
b)は時 間 を
時 に起 こる場合 に対 しては頑強であ る こ とが確認 で き
1
/
2に短縮 したデー タを表 す. これ らのデー タの うち
る.この ように,AMSSは DTW と異 な り,時系列 の
2935
電子情報通信 学会論文誌 2008/12Vbl
.J91-D No.12
表 7 時 系列 の変化 に よる類似 度 の変化
Tabl
e7 Di
f
r
er
enceofs
i
mi
l
ar
i
t
ybyt
i
mes
er
i
es
t
r
ans
l
at
i
on.
DTW
時 間伸縮
振 幅 変化
(
a)
0
(
a)
1
(
b)
0
組 合せ
(
b) (
a) (
b)
0.
5 1 0.
5
(
C) (
d)
1 0.
5
ベ ク トル数 を増 や した方が,緊密性 は低 くなるが,ベ
ク トル を近似 す る とい う観点 で は, (
C
)のベ ク トル合
成 の方が もとのベ ク トル系列か らの誤差が小 さ く,全
体 と しては近似 の精度が上が る場合 も存在す る可能性
が あ る.
最後 に,上界 関数の緊密性 につ いて述べ る.本論文
′
0
番
5
弟
5
7 ′
U 5 4
7
。7
7 エ
リ
4 3 2
1
1
1 2 3
の要素 か ら上界 関数 を定義 したが,構成ベ ク トル系列
の角度分布 を用いれば, よ り緊密性 を高 くす ることが
で き,更 な る類 似 性 時系 列検索 の効 率化 が で きる と
つ
J つ
▲ l
4 つ
J 2
0
では,ベ ク トル系列 の最大角度 と最小角度 とい う二つ
0
考 え られ る.今後 は, これ らの弱点 を改善す る必要が
ある.
文
1 2 3 4
仲)
(
a
)
(
C
)
図 16 ベ ク トル合成 に よる類似 度 の変化
Fi
g.1
6 Changeofs
i
mi
l
ar
i
t
ybyvec
t
orc
ompos
i
t
i
on.
[
1
] 中村哲 也 ,瀧
献
敬 士 ,上原 邦照 , "
AMSS:時系 列 デー タ
D), γol
.
J91
D,
の 効 率 的 な類 似 度 測 定 手 法 ,
"信 学論 (
no.
ll,pp.
2579-2588,
Nov.2008.
[
2] D・
JIBer
ndtand I.Clif
f
or
d, "
Fi
ndi
ng pa
t
t
er
nsi
n
"Adt
i
mes
er
i
e
s:A dynami
cpr
ogr
ammi
ngappr
oac
h,
形 に依存 して類似性 が決定す るため,単純 な時 間伸縮
には弱 い こ とになる.
ar
i
at
i
onalangl
e
sの汎用性 につ い て検 討 す
次 に,v
ar
i
at
i
onalangl
e
sは,座標値 とサ ンプ リング レー
る.v
トの関係 に よっては,滑 らか な軌跡 を してい るデー タ
であ って も適切 にデー タ圧縮 を行 えない.加 えて,滑
らか な軌跡 を してい るデー タ と振動 の激 しいデー タで
vance
si
n Knowl
edge Di
s
c
over
y and Dat
a Mi
ni
ng,
pp.
229-248.AAAI
,1
996.
os,and 班.Manni
l
a, "
Fi
ndi
ng
[
3] G・Das D・Gunopul
,
" Pr
oc・Fi
r
s
tEur
opean Sympos
i
mi
l
art
i
mes
er
i
es,
s
i
um on Pr
i
nci
pl
esofDat
a Mi
ni
ng and Knowl
e
dge
Di
s
c
over
y,pp.
88-1
00,1997.
Exacti
nde
xi
ng ofdynami
ct
i
mewar
p[
4] E・Keogh, "
i
ng,
"Proc.28th Internati
onalConf
er
ence on Ver
y
Lar
geDat
aBas
es,pp.
406-417,2002.
は,同 じしきい値 によるデー タ圧縮量 の差が大 き く異
[
5] E・ Keogh The UCR Ti
me Ser
i
es Dat
a Mi
ni
ng
なる. この ように,一意 な しきい値 で同様 のベ ク トル
Ar
c
hi
ve,20061ht
t
p:
//www.
c
s.
uc
r,
edu/eamonn/
ar
i
at
i
onalangl
e
sは汎
を行 うこ とが で きない ため,v
,
TSDMA/i
nde
x・
ht
ml
l
6] E・Keogh K・Chakr
abar
t
i
,MLPaz2
:
ani
,and S.
,
用性 に欠 けてい る.
Mehr
ot
r
a, "
Local
l
y adapt
i
ve di
mens
i
onal
i
t
yr
educ
-
ar
i
a
t
i
onalar
e
aにつ い て も問題 点 が あ る.
次 に,v
va
r
i
a
t
i
onalar
e
aは , どの よ う な デ ー タで もデ ー タ
量 を削 減 で きるが ,上 界 が あ ま り緊 密 で は な い 場
合 が あ る . これ は ベ ク トル 合 成 方 法 に よ る もの で
6の (
a)の よ うなベ ク トル系 列
あ る.例 え ば ,図 1
Q(
(
1,
1
)
,
(
1,
3)
,
(
1,
1
)
)C(
(
1,
3)
,
(
1,
3)
,
(
1
,
3))が あ る
場合,それぞれのベ ク トルの時間軸か らの角度 は系列 Q
では 45度,71.
6度,45度 とな り,系列 Cでは 63.
4度,
t
i
onf
ori
nde
xi
ngl
ar
get
i
mes
er
i
esdat
abas
es
,
"Proc.
200l ACM SI
GMOD I
nt
er
nat
i
onalConf
er
ence on
ManagementofDat
a,pp.
151
-162,2001.
[
7] E・Ke
og
h ,X・Xi
,L・Wei
,andC・
A・Rat
n amahat
a
ana,
The UCR T
i me Ser
i
es Cl
as
s
i
ic
f
at
i
on/Cl
us
t
eri
ng
Homepage,2006.
ht
t
pソ/www・
cs・
ucr
・
edu/ eamonn/t
i
mes
er
i
e
s
dat
a/
,
63.
4度 ,63.
4度 となる.これ らか ら類似度 を算 出す る
とc
os
(
45-63・
4)
+c
os
(
71.
6-63・
4)
+c
os
(
45-63.
4)-
2.
89とな る. こ こで, (
b)
,(
C)の よ うに合 成 ベ ク ト
n ,S・Par
k,andW ・
W ・Chu,"
Ani
nde
xbas
e
d
[
8] S・
一
W ・Ki
appr
oac
hf
ors
i
mi
l
ar
i
t
ys
ear
c
hs
uppor
t
i
ngt
i
mewar
p-
"Proc・17thlnternai
ngi
nl
ar
ges
equencedat
abas
es,
t
i
ona
l Conf
er
enc
eonDat
aEngL
neer
i
ng,pp.
607-61
4,
2001.
[
9】 J▲Li
n,E・Keogh,S.Lonar
di
,andB・Chi
u,"
As
ymbol
i
cr
epr
es
ent
at
i
onoft
i
mes
er
i
eswi
t
hi
mpl
i
cat
i
ons
ル系 列 を生 成 した場 合 ,上 界 関 数 の 定 義 を用 い て
f
ors
t
r
eami
ngal
gor
i
t
hms,
"Proc.8thACM SIGMOD
b)の よ うなベ ク トル 合 成 で は
類 似 度 を求 め る と (
Wor
ks
hop on Res
each I
s
s
ues i
n Dat
a Mi
ni
ng and
2*
c
os
(
71・
6-63.
4)+c
os
(
45-63・
4)-2.
93,(
C
)の
ようなベ ク トル合成 で は 3*
c
os
(
71.
6-63.
4)-2.
97
となる. この ように,緊密性 の観 点か らい うと,合成
2936
Knowl
edgeDi
s
c
over
y,pp.
2-ll
,2003.
[
101 大 桃 諭 ,陳 漢 雄 ,古 瀬 - 隆 ,大保 信 夫 , "タイム ワビ ングに基づ く時系列 デー タの類似検索 ,
"DBSJ,分冊 4,
m0.
1,pp.
17-20,2005.
論文/時系列 の類似性検索 における上界関数 に よる効率化
表 A・1 最近傍分類におけるユークリッド距離,DTW ,
LCSS,AMSSの性能
Tabl
eA・1 Cl
as
s
i
icat
f
i
on per
f
or
manceofEucl
i
dean
di
s
t
ance,war
pi
ngwi
ndow DTW ,LCSS
AMSSwi
t
h1
near
e
s
tnei
ghbor
.
[
11
] Y・ Sakur
ai M・ Yos
hi
kawa, and C・ Fal
out
s
os,
u
FTW :Fas
ts
i
mi
l
ar
i
t
ys
ear
c
hundert
het
i
mewar
p,
"Proc・24th ACM SIGMOD-SIGACTi
ngdi
s
t
anc
e,
,
SI
GART Sympos
i
um onPr
i
nci
pl
e
sofDat
abas
eSys
t
ems
,pp.
326-337,2005.
[
12
」 Y・Tanaka,K.I
wamot
o,and K・Uehar
a,"
Di
s
cover
yoft
i
me
s
er
i
e
smot
i
ff
r
om mul
t
i
di
mens
i
onaldat
a
"Mach.Learn.
,vol
.
58,m0.
2bas
edonMDLpr
l
nCi
pl
e,
3,pp.
269-300,2005.
i
el
ef
ther
i
ou, D・Gunopul
os,
[
1
3] M・Vl
achos, M・Hadj
and E.Ke
ogh,"
Ⅰ
nde
xi
ng mul
t
i
di
mens
i
onalt
i
me
s
er
i
eswi
t
hs
uppor
tf
ormul
t
i
pl
edi
s
t
anc
emeas
ur
e,
"
Pr
oc.9t
h ACM SI
GKDD I
nt
er
nat
i
onalConf
er
ence
on Knowl
edgeDi
s
cover
yand Dat
aMi
ni
ng,pp.
216225,2003.
[
1
41 BI
KIYi
,H・
V・Jagadi
s
h,andC.Fal
out
s
oS
,"Ef
nci
ent
r
et
r
i
evalofs
i
mi
l
art
i
mes
equenc
esundert
i
mewar
pi
ng,
"Proc.14th Internati
onalConf
er
enc
eon Dat
a
Engl
neer
i
ng,PP.
201
-208,1998.
付
録
1. AMSSの分類性能
Dat
as
et
GunPoi
nt
Tr
ace
Fi
s
h
OSU Leaf
Swedi
s
hLeaf
Co庁e
e
Adi
ac
Be
ef
50Wor
ds
Eucl
i
dean
0.
087
0.
240
0.
217
0.
483
0.
213
0.
25
0.
389
0.
467
0.
369
DTW
LCSS
0.
087 0.
040
0.
010 0.
090
0.
160 0.
11
4
0.
384 0.
306
0.
157 0.
290
0.
179 0.
214
0.
391 0,
675
0.
467 0.
500
0.
242 0.
352
AMSS
0.
000
0.
000
0.
040
0.
103
0.
104
0.
143
0.
345
0.
433
0.
242
Li
ght
i
ng2
Face(
f
our
)
Face(
al
l
)
Li
ght
i
ng7
CBF
0.
246
0.
216
0.
286
0.
425
0.
148
0.
131
0.
114
0.
192
0.
288
0.
004
0.
21
3 0.
180
0.
307 0.
261
0.
393 0.
275
0.
438 0.
301
0.
084 0.
522
Synt
he
t
i
cCont
r
ol
W af
er
ECG
01
i
VeOi
l
TwoPat
t
er
ns
0.
120
0.
005
0.
120
0.
133
0.
09
0.
017
0.
005
0.
120
0.
167
0.
0015
0.
273 0.
527
0.
017 0.
011
0.
1
90 0.
170
0.
500 0.
200
0.
000 0.
090
一次 元 時 系 列 に対 して ,Euc
l
i
de
an距離 ,DTW ,
LCS
S,AMSSに よる 1
Ne
a
r
e
s
tNe
i
ghborを用 い た
分類性能 を表 A.
1に示す.実験 には,UCRTi
meSe
-
r
i
e
sCl
a
s
s
i
ic
f
at
i
on/Cl
us
t
e
r
i
ngPa
get
7
]で配布 されて
0個 のデー タセ ッ トを使用 してい る.
いる 2
2. 上界の証明
al
s
edi
s
mi
s
s
al
上界関数 を用 いた フ ィル タリングで f
を生 じさせ ないため には,不等式 (
1
5)を証 明す る必
とc
T
n
(
A・
6)
Sc
o
m(
9,
h)≧S(
i
,
y)
(
Al
7)
Sc
o
m(
9,
h)≧ S(
i
,
V)
(
A・
8)
式 (
1
0)よ り,合成 ベ ク トル間 ともとのベ ク トル間の
類似度 の関係 は以下の ようになる.
1
5)が成 り立 つ こ とは,数学 的帰
要が あ る.不等式 (
納法 によって証明で きる.なお,合成ベ ク トル
Sc
o
m(
9
,
h)≧ S(
x,
V)
Si
m(
x,
y)≦?i
mc
o
m(
9,
h)
拓 .
;
図 A1
1は,部分ベ ク トル系列
は,それぞれ以下 の部分 時系列 のベ ク トル
(
A・
9)
ノ
ヽ
Qc
o
m と ecom
の類
似度 を求め るための再帰関数 を,ベ ク トル 雇 ,
尋 問の
か らなる もの とす る.
類似度 を用 いて表 した ものである. ここで,太線 の大
-前,
・
-,
q
7,
川,
前
q
T
;
(
Al
l
)
i
fg- 1t
he
ns - 1,i
fg- N/
t
h
e
nt- N
c
T
a
- 己 ,.・
・,
尋,
...,
記
(
A・
2
)
i
fh- lt
h
e
nu- 1,i
fh- M't
h
e
nv- M
ここで,以下の三つの式が成 り立 つ と仮定す る.
(
A・
3)
Sc
o
m(
9-1,
h)≧S(
S
,
y)
(
A・
4)
Sc
o
m(
911,
h-1)≧S(
S
,
u)
間の類似 度 を表 し,太線 のマス
の中の小 マス は 重 ,
尋 問の類似度 を表 してい る.
1 を見 る と,r
e
ion4 (
g
(
x
,
V
)時 点 で の類 似
図 A・
S(
x,V))へ到達す るには,reg
ion1 (
(,
u)時点で
S(
S,
u
)
)
,r
e
ion2 (
g
(
x,
u
)時点 での類似 度
S(
I,
u)
),r
e
ion3 (
g
(,
u)時点 で の類似 度 S(
S,
y
)
)
か ら小 マス を通 り,小 マスの類似度 であ る S
i
m(,
y)
度
a
の類似 度
I
I
Sc
o
,
n
(,
h-1)≧S(
I,
u
)
9
マス は 百品完.;,
c
T
a
(
A・
5)
を足 してい け ば よい . こ こで ,式 (
6)の制 限 を受 け
る場 合 に r
e
gi
on lか ら r
e
gi
on4へ 行 くこ とを考 え
る.再 帰 関数 に よる と斜 め の移 動 で は小 マ ス の類似
度 の 2倍 が 足 し合 わ され る .つ ま り r
e
gi
on4で の
この仮定の もとで,以下 の三つの式が成 り立つ こ とを
e
ion lで の類 似 度 に Si
g
m(
x,
y)の値 を
類似度 は r
示す.
(
2
Mi
n(
V- u,
i-S
)+abe(
(
V-u)-(
i-S
)
)
)個足す
2937
電子情報通信学会論文誌 2
008/1
2Vbl
.J91
-D No.
1
2
一
一
■
c
o
mh
1
′
ヽノ
ヽ
UBAMS
S(
Q,
C)-Sc
o
m(
N'
,
M'
)
・
.
i
Cc
o
mA
一
C
Fu
I Fu
'
;
h
'
ド :
司・
Z ー
◆
◆
◆
■
一
■
こ
qc
o
mgl
l
Fv
≧S(
N,
M)-AMSS(
Q,
a)
(
A・
1
4
)
この結果か ら,類似す る時系列の検索 において,f
al
s
e
,
I
J
i
,,
溢
I
…
招
!
≡
: ■
:
′
′・
.
_
l
l
:
:
.
:
.
:
.
:
ー
い
▼
∴
'
●
→
di
s
mi
s
s
alを生 じない ことが保証で きる.
{
7
.
m(
有.
召I
∼
1
L
)
on_
4
=
qc
o
mg
c
o
m(
q
-C
F
F
S
●
■
●
S
s
s
t
i
i
′
1
轟
a∫
h
一
l
再
mc
o(
q
-c
o
mg
I
:r
e
B
1
0
n
1
・
1
i
L
I
∼
K
(
平成 20年 1月 25 日受付 ,6月 11日再受付)
T
ei
on3
瀧
敬士
平 19神戸大 ・工 ・情報知能工学卒.現
図 A・1 再帰 関数の模式 図
Fi
g.
A・1 A pat
t
er
ndi
agram ofr
ecur
si
vef
uncti
on.
荏 ,同大大学 院工学研究科博士前期課程在
学 中.
ことなる.この結果,不等式 (
A・
5)
,(
A・
9
)か ら,以下
の不等式が得 られる.
S(
I,
V)≦ S(
a,
u)+(
2Mi
n(
V-u,i- A)
中村
+l(V-u)-(
i-S)
I
)
Si
n(
I,
y)
≦Sc
o
m(
9-1
,
h-1
)+(
2c
nd+c
nS
ub
d
)
・
Si
mc
o
m(,
h
)
(
A・
1
0)
哲也
平 18神戸大 ・工 ・情報知能工学卒.現
荏,同大大学院工学研究科博士前期課程在
学 中.
9
同様 に, S(
x,
V)が S(
I ,
u)か ら計算 され る と,以
下の不等式が得 られる.
S(
x,
V)≦Sc
o
m(9-
1
,
h
)
+(
2c
nh+c
nS
ub
h)
9,
h)
・
Si
mc
o
m(
(
A・
1
1
)
上原
邦昭
(
正月)
昭 53阪大 ・基礎工 ・情報工学卒.昭 58
同大大学院博士後期課程単位取得退学.同
産業科学研 究所助手,講師,神戸大学工学
また,S(
x,V)が S(
S,
y)か ら計算 されると,以下の不
等式が得 られる.
部情報知能工学科助教授 ,同都市安全研究
セ ンター教授 を経 て,現在同大学院工学研
究科教授 .工博.人工知能,特 に機械学習,
S(
x,
V)≦Sc
o
m(
a,
h- 1)+(
2
c
nv + c
r
LS
ub
v)
・
Si
mc
o
m(9,
h
)
(
A・
12)
いかなる x に関 して も,これ ら三つの不等式のいずれ
1
3)か ら,
も常 に真であ る. これ らの不等式 と不等式 (
A・
6)が成 り立 つ. この証 明の過程 に従 うと,
不等式 (
不等式 (
A・
7)が真であることも同様 に証明 される.
不等式 (
A・
8)が成 り立つ ことを示すために,不等式
(
A・
6)
,(
A・
7
)において x- i
,
y- V とす る.そ して,
不等式 (
A1
8)で 9-N′
,
h- M ′とすれば,以下の不
等式 を得 る.
Sc
o
m(N′M′)≧ S(N M )
,
,
最終的に,式 (
6
)
,(
1
4
)か ら,不等式
ことが証明で きる.
2938
(
A1
1
3)
(
1
5
)が成立す る
マ ルチ メデ ィア処理 の研 究 に従事 .人工知能学会,計量国語学
会, 日本 ソフ トウェア科学会,AAAI各会員.
Fly UP