...

索引語間の関連性を考慮した*月報検索モデル

by user

on
Category: Documents
14

views

Report

Comments

Transcript

索引語間の関連性を考慮した*月報検索モデル
Library and lnformation Science No.28 1990
索引語間の関連性を考慮した情報検索モデル
A Term Dependence Model in lnformation Retrieval
谷 口 祥 一
Shoichi Taniguchi
E6s三門6
In most information retrieval systems or models, the assumption is normally made
that index terms assigned to the documents of a collection occur independently of each
other. So as to improve the retrieval effectiveness of systems, there’ 奄刀@a need to take
dependencies between certain index term pairs into account.
As the similarity measure between a query and a document is important in quantita−
tive retrieval, two measures, which reflect directly the relationships between index terms
when they are given by pairwise correlations, are proposed in this paper. One of the pro−
posed measures is an extension of the cosine function model. This measure is based
on oblique coordinates whose degree of angle between axes corresponds to the pairwise
correlation between index terms, in contrast to the conventional cosine function measure
based on rectangular coordinates. The other measure is an extension of the extended
Boolean model, which was proposed by G. Salton et al. Using these measures, we need
no assumption of term independence.
Retrieval experiments to evaluate the proposed measures was performed on a test collec−
tion of 623 document records and 5 queries, in a weighted mode, in which index terms
assigned to the document record were weighted, and in an unweighted mode. The ex−
periment showed following results: 1) it is useful to incorporate term dependencies into
the similarity measures; and 2) the proposed measures, however, did not have much better
effectiveness than conventional ones.
1.はじめに
II.コサイン関数モデルの拡張
A. コサイン関数モデル
谷口祥一:図書館情報大学助手,茨城県つくば市春日1−2
Shoichi Taniguchi: University of Library and lnformation Science, 1−2 Kasuga, Tsukuba−shi, lbaraki−ken.
1991年2月23日受付
一 105 一一一
索引語間の関連性を考慮した情報検索モデル
B.
コサイン関数モデルへの索引語間関連度の組み入れ
C.
コサイン関数モデルへの論理演算の導入
D.
索引語間の高次関連度
III.
拡張プール型モデルの拡張
A. 拡張プール型モデル
Be 拡張プール型モデルへの索引語間関連度の組み入れ
IV.
実 験
A. 実験用文献集合
B. 実験結果および考察
v.
おわりに
関連度をもって与えられていることを前提としたもので
1.は’じめに
ある。
情報検索の領域における重要な問題の1つに,索引語
本稿では,これらと同様な考え方に基づき,索引語間
間の関連性の取扱いに関わる問題がある。従来の主たる
の関連性を文献の類似度計測に反映できるよう既存の検
検索システムや検索モデルでは,質問を構成する語が検
索モデルに対して拡張を試みる。具体的には,1)ベクト
索対象となる各文献に索引語として付与されているか否
ル型モデルに属するコサイン関数モデル(cosine func・
かの点にのみ基づき,当該文献の質問に対する適合蓋然
tion model)に拡張を施したもの,および2)拡張プー
性評価すなわち適合文献である確からしさの度合い決定
ル型モデル(extended Boolean mode1)に拡張を施し
が行われていた。このように索引語間の関連性を考慮し
たものの2つを提案し,実験によりその有効性の検証を
ない,換言すれば索引語間の独立性が仮定されている場
試みる。
合には,検索に用いた語の同義語や関連語により索引づ
II.コサイン関数モデルの拡張
けされた文献が検索されない結果となる点は,周知の事
柄である。ある事例においては単純な共出現状況を調べ
A.コサイン関数モデル
ても30%近くの索引語の組に正の相関関係が観察され
コサイン関数モデルが属するベクトル型モデルとは,
ており1),索引語間の関連性を何らかの方法により考慮
文献および質問の内容・主題を索引語のベクトルをもっ
することが検索効率を上げるためには必要不可欠な事柄
て表現するものである。これにより,索引語間の論理関
となる。
係までを含めて質問設定を行う必要はなくなり,また質
現段階で実用化されているプール型の検索システムで
問に対して各文献のとる類似度に基づき順位づけされた
は,シソーラスのシステム内組み込み,および検索時の
出力が容易にえられることになる。
シソーラス参照による同義語,上・下位語,類義語等の
具体的には,検索対象となる文献集合D={d、,d2,_,
表示または検索語への追加等をもってこの問題に対処し
dm},それに含まれる各文献diの索引づけおよび質問設
てきた。一方,質問と各文献間の類似性を何らかの類似
定に用いられる索引語集合T={tl, t2,...,ln}が与えら
尺度を用いて定量化し,検索をおこなおうとする,いわ
れたとき,ベクトル型モデルとはベクトル表現された質
ゆる定量的検索の場合には,この問題に対する多様な接
問q=(q・・q・・…・qn)Tを文献への索引づけ関数x:D×
近が可能である。これまでに提案されたものには,1)ベ
T→【一・・,+。・],または表現を換えて行列X・=(亀ゴ)に
クトル型モデルに基づくもの,2)確率型モデルに基づく
基づき変換を行い,応答ベクトルr・=(rユ,r2,_,rm)Tを
木従属モデル(tree dependence model)2)・3)やBLEモ
えようとするものと定義される。この検索過程を行列算
デル(Bahadur・Lazarsfeld expansion mode1)4)・5),ある
表現すればr=Xqと表せ,個々の文献のレベルで表せ
いはファジィ事象の確率概念を確率型モデルに適用・展
開したもの6),3)集合論型モデルに基づくもの7)などが
ば質問一文献ベクトル間の内積ri=Σ00づブ的となること
ゴ
がわかる。これが同モデルの最も簡単な表現である。
ある。これらはすべて索引語間の関連性が数値化された
なお,多くの場合に質問中の各索引語の重みのを
一一一
@106 一一
Library and lnformation Science No.28 1990
0≦の≦1,文献への索引づけ関数XをX:D×T→[0,1し
献の類似度計測に反映させることが可能となる。これを
すなわち0≦9σ乞ゴ≦1に便宜的に仮定するため,本稿でも
個々の文献のレベルで表せば,ri:=cガΣoo認ゴ詔㌃とな
o’,k
これらの条件を前提にして議論を進めることにする。さ
る。
らには,質問に対する類似度計測値を表す応答ベクトル
同様にコサイン関数モデルに対して索引語間関連行列
中の成分riの値を区間[0,1]に収めるべく正規化をお
Yを組み入れることを次に試みる。コサイン関数モデル
こなうことが多く,よってr・・CXq, C:正規化係数対
もベクトル型モデルの1つであるため,r ・CX Yqと展開
角行列,%=0(i≠ブ)となる。この正規化には例えば
することで基本的には十分であるが,その正規化処理も
Cii:=1/[Σ」Xiゴ2・Σ qブ2]1/2やCii=1/[Σ x・ブ+Σの一Σρθ乞ブ9ゴ]
含めてn次元座標系に即した解釈を試みてみよう。前節
ゴ ゴ 」 ゴ ゴ
など,多数のものが提案されている。この正規化処理に
の終わりでみたように,コサイン関数モデルは各索引語
おいて前者の式を採用したものが,本稿で索引語間関連
が基底ベクトルをなすn次元の座標系における質問ベク
度の組み入れを試みるコサイン関数モデルである8)。こ
トルと文献ベクトルとのなす角を当該文献の類似度とす
こに改めてその式を記す。
るものであった。このとき無条件に前提としていた座標
系は直交系であり,基底ベクトルは互いに直交する,換
Σρo乞ゴ9ゴ
言すれば線形独立とされていた。このような視点を最初
ゴ
「i=「Σ賜2]・/2・[Σ qゴ2]・/2
に提出したのはWongとRaghavanであった9)・10)。そ
ゴ ゴ
こで,この前提とされていた直交座標系をその1つの特
一}1 ll}c・s ・(・…) (・)
殊例として包含するような,索引語間関連度に対応した
ここでXiは文献必に対応する文献ベクトルを表し
角度で基底ベクトルが設定されている斜交座標系に質
ている。この式の表す意味をみてみると,各索引語が基
問一文無間類似度の計測空間を拡張して考えることで,
底ベクトルをなす%次元座標系において,質問および文
索引語間の関連性をコサイン関数モデルに組み入れるこ
献ベクトルを各々の成分に従い設定し,その2つのベク
とができよう。そして検索処理では,設定された斜交座
トルのなす角をもって質問一文献間の類似度としている
標系上に質問および文献ベクトルを配置し,対応する直
ことがわかる。0≦aθσ,9ゴ≦1により,質問9と任意の
交座標系に各々のベクトルの正射影をとることにより,
文献diとのなす角θ(。i,9)は0≦θ(。i,α)≦π/2となり,対
それらがなす角を基底ベクトルの交角を踏まえた値で計
応するコサイン関数の値cosθ(Xi,α)は0≦cosθ(Xi,q)≦1
測することが可能となろう。その結果,索引語間関連性
となる。2つのベクトルが重なり合うとき(θ(Xi,q)=・0)
を反映した検索処理結果がえられることになる。この処
には類似度cosθ(Xi,q)=1であり・逆に垂直となるとき
理の定式化を以下でおこなう。
(θ(Xi,q)=π/2)には類似度cosθ(Xi,g)=・0となる。
任意のn次元座標系1「=・(0;e、,e2,...,en)に関して,
任意のベクトルa,bが
B.コサイン関数モデルへの索引語間関連度の組み入れ
a=alel十a2e2十… 十anen
まず,索引語間の関連性が数値化して与えられてい
b = biei 十 b2e2 十 … 十 b.e.
る,換言すれば索引語間の関連度を与える関数Y:T×
T→[0,1]が与えられ,それに基づく索引語間関連行列
iθ11=1θ2ト・…=lenl・=1,αゴ,∂ゴ:スカラー,であると
Y=(雪ゴ滝)がえられているものと仮定する。2つの索引語
する。内積(a,b)は内積の分配律を用いて
ちとtkとが同義語関係にある場合には関連度g蕗=1と
(a, b)== Z a」・bk(ei・, ek)
し,関連がない場合には関連度Y」k = Oとなるものと仮
定する。このとき関連行列Yは反射律ンガ=1を満た
し,さらに反意語関係や上・下位語の区別を捨象した同
義語・関連語関係のみを表現するものであるならば対称
ゴ,k
となる。ここで基底ベクトルθゴとekのなす角をω(ゴ,k)
とすると,(θブ,θ9=1θゴllθたl COSω(ゴ,㌃)=COSω(個となる
ことより,
(a,b)=・Σαゴ∂乃COSω(ゴ,㌃)
律Y」k =Ykゴを満たすと考えるのが妥当であろう。
ゴ,k
これにより,前節の先頭で定義したベクトル型モデル
においては,この関連行列Yを用いて検索処理をr=
CX Yqと展開することができ,索引語間の関連度を文
がえられる。これより,(a,α)=・la12に基づき
lal =[ Z a,・ak cos to(d,k)]ii2
ゴ,le
一一一 107 一一一
索引語間の関連性を考慮した情報検索モデル
をえる。よって,ベクトルa,bのなす角をθ(。,b)で表
d
d
すと,次のものをえる。
e?
(a, b)
e?
cos 0(a,b) ==
lallbl
Σαブ∂κCOSω(ゴ,k)
q
ゴ,k
q
[ Z a,・ak cos w(,・,k)]’/2・[ Z b,・bk cos (o(,・,k)]i/2
o
ゴ,k ゴ,11
続いて任意の基底ベクトルθゴとe・iCのなす角ω(ブ淘を
第1図
決定する。これは索引語ち,tiC間の与えられた関連度
む
el e1
コサイン関数モデルへの索引語間関連度の組み
入れ(2次元の場合)
q=(1.0,0.2),d・=(0.5,1.0)の例
伽に対応しなければならない。関連度Ydkは,1)0≦
YdiC≦1で,かつ2)反射率および対称律を満たすもの
[定理】 n次元斜交座標系(すべての値が正となる象
とする。いま,ベクトルαがαブ成分のみ1,他は0で
限のみの座標系に限定)を生成するためには,基底ベク
あり,ベクトルbがb,成分のみ1,他は0である場合
トル間の角度に関して次の関係が成立していなければな
(lal:=lbl=1)を想定してみると,ベクトルaとbのな
らない。
す角は索引語ち,tk間の関連度伽に等しくならなけれ
max l to (i. i) 一 to (i,k)1 .〈= to (」・,k) S mJi n (to (7・,i) 十 to (i,k))
1 ’ 1
(4)
ばならない。これより,
cosθ(。,b)=cosω(ブ,㌃)/1・1・=脈
O ;;liE (D(7・,k), (v(7・,i), a)(i,k) ;:E; T/2
となる。設定しようとする座漂系の条件,1)索引語ら,
tiC間に関連がない(Y」k =O)ならば,θブとeiCは垂直
(ω(i,k)=π/2),2)索引語ち, tkは交換可能(雪炉・1)な
らば,eゴとekは重なり合う(ω(d,k)=O)により,θブと
(証明) n次元斜交座標系が成立するためには,任意
の3つの基底ベクトルeゴ,ek, eeの各頂点を結んだ線分
により三角形が形成される,すなわち次の三角不等式が
成立しなければならない。
ekのなす角は0≦ω(ブ,k)≦π/2,対応するコサイン関数の
lek 一 eii t一 lei ・一一一 e」1 ;$ le」 一一 ek1 ;ll lek ・一一 eil + let 一 eH
値は0≦cosω(ゴ,k)≦1となることより次式をえる。
O≦1θゴーθん1,1θ㌃一θ呂1,lei 一 eゴ1≦》7
ω(ゴ,k)・=cos−1伽 (2)
索引語間関連行列Yが与えられれば,上式によりe、,
e2,_,enで生成されるn次元の斜交座標系が一意に設
定されることになる。以上のことより,設定された座標
系で質問ベクトルqと文献diを表す文献ベクトルXiと
のなす角度,すなわちその類似度は,(1)式に換えて次
ここにおいて,例えばled 一 ekl=2・sin(ω(ゴ,k)/2)である
ので,同様に他の線分の長さをすべて基底ベクトル間の
角度の関係に置き換えることができる。よって,それを
簡約化することにより(4)式がえられる。(証明終)
さらに索引語間関連行列Yが関係
式で算出することになる。
max 1雪ゴー伽1≦窃為≦min(IYブz十Ylk)
Σ09盛動漁
」” le
ri ==
(3)
[ ;E]. xidy7・kxik]’i2・[ Z= qdvdkqk]i/2
を満たすときには,(2)式により,その必要条件として
ゴ,ん
ゴ,k
これが求める,索引語間関連度を組み入れた類似度計測
以上で提案したコサイン関数モデルの拡張は,Wong
とRaghavanの提出した視点を踏襲し,展開したもの
式である。第1図中の左側に従来のコサイン関数モデル
であるが,その二二らは索引語の論理和・論理積にそれ
を,右側に本稿で提案したその拡張モデルを,各々2次
ぞれ対応する直交座標系の設定をおこなうベクトル型モ
1 r l
(4)式を導くことができる。
元の場合について図示する。
デルを新たに考案し,その座標系上で質問一文献間の類
次に,(3)式で示される質問一文献ベクトル間の角度計
似度計測をおこなう検索モデルを提案している11)一14)。
測をおこなうn次元斜交座標系が生成されるための必要
また,比較的類似したモデル化にDeerwesterらが用い
十分条件を考えると,それは次の定理で示されるものと
たsingular−value decompositionと呼ばれる手法があ
なる。
り,これは固有値解析によってえられる大きな固有値に
一 108 一
Library and lnformation Science No.28 1990
対応した固有ベクトルによる直交座標系を設定し,その
d
d
縮小された次元において質問一文二間の本来の類似度を
//4−q
eQ
近似しようとするものである15)。
:;o tt
C.コサイン関数モデルへの論理演算の導入
q
ベクトル型モデルは,それに属するコサイン関数モデ
ルを含めて,論理演算を排除することにより,次の2点
を回避できることを大きな特徴としている。1)検索者
o
o
o
el
第2図
el
コサイン関数モデルへの論理積演算の導入(2
次元の場合)
にとり通常それほど明確でない,質問中の索引語間の論
q・=(1.0,0.2),d:=(0.5,1・0)の例
理関係(論理和・積関係)までを含めて検索質問を構成
しなければならない困難さ。および,2)論理形式をと
り設定された質問に対する2値論理に基づく検索処理か
点0’は,文献必を表す文献ベクトルXiと質問ベ
クトルqとのベクトル和を指す点0唾+q)と原点0の
ら生じる検索結果集合の極端な限定性(部分的に適合す
2点を通る直線上にとられた線分00”上を動くものと
る文献すべてを切り捨てたり,あるいはほとんど不適合
する。ここで点0”は前述したように,質問一文献ベク
と考えられる文献を大量に検索したりする結果となるこ
トルが互いに垂直となる点を指している。このとき,点
と)。しかしながら,場合によっては論理形式をとる質
0ノ=(o、,,02,,...,On,)における質問一文献ベクトル間の
問に即した論理演算処理が要求されることもあろう。ま
なす角のコサイン関数値COSθ。’は次の式で表され,こ
た,この点がより重要であると考えられるが,ベクトル
れが論理積演算による類似度ri(AND)ともなる。
型の拡張によってプール型,ファジィ型,確率型等・他
ri,(AND) =cos 0,t
の検索モデルとの接合・統合を図るためには,その準備
作業としてベクトル型モデルへの論理演算導入の試みは
Σ@葱ゴー。ノ)(9ゴー。ゴ,)
ゴ
一[Σ@乞ゴー0ノ)2】1/2・【Σ(qゴー0ノ)2]1/2
意義のある事柄となる。本節ではコサイン関数モデルに
ゴ ゴ
対する論理演算の適用法の1つを示し,その論理演算処
さらに点0,の位置を制御する変数,すなわち論理積の
理においては前節で提案した索引語間関連度の組み入れ
度合いを制御するパラメータPを導入すると,上記の条
がそのまま適用できることを確認する。
件より。ノ・=(賜+9ゴ>Pであり,よって皆式はPの関数
まず,従来のコサイン関数モデルすなわち(1)式で
として表すことができる。
表されるモデルを論理和検索をおこなうものと仮定しよ
う。すると,質問一文献ベクトル間のなす角がその文献
の類似度を表すものとされることより,論理積演算では
ri,(AND)=:(1/6i)・
[Σ@¢ゴー@乞ゴ+σゴ)P)(9パ(勘+qゴ)P)]
ゴ
そのなす角が検索者により設定された論理積の度合いに
(5)
応じて大きくなるものと考えられる。これにより,例え
δ¢=[Σ (X,ブー一一(ω乞ゴ+9ゴ)P)2]1/2・[Σ(σゴー@づブ+9ゴ)P)2]1/2
ば2値論理における論理積と同等な強さの論理積演算:と
したり,あるいはより論理和に近い値となる論理積演算
とすることも可能となる。そこで第2忌中の左側に2次
元の場合を図示したように,必要とする論理積の度合い
ゴ ゴ
次に,点0,における質問一文献ベクトル間のなす角
θ。’はθ。<θ。’<π/2=θ。”とするため,Pのとりうる値
は次のものとなる。
に応じて質問および文献ベクトルを設定する基点(図中
O 〈P 〈 (1 一 ‘(3,)/2
の0りを移動し,その移動先の地点における質問一文献
β乞=・[Σ(賜一9ゴ)2/Σ(錫ゴ+9ゴ)2]1/2’
ベクトル間のなす角を計測することが考えられよう。こ
ゴ ゴ
れにより,質問一文献ベクトル間のなす角は原点0にお
ここで現れた禽は,質問ベクトルと文献ベクトルとの
ける角度を最小値として,質問一文献ベクトルが垂直と
和と差の長さの比を指している。.P=0のときには,(5)
なる地点(豆田の0,,)における角,すなわちπ/2まで,
式は論理和演算をおこなうものと仮定した(1)式と同
変化させることが可能となる。この処理を定式化したも
値となる。よって,(1)式により計測される類似度を
のを次に示す。
γ¢(OR)と表せば, ri(AND)=ri(OR)となり,(5)式は
一一 109 一
索引語間の関連性を考慮した情報検索モデル
論理積の効力はもたないことがわかる。P=(1一βi)/2の
3次結合の関連度など,高次の索引語間関連度を質問一
ときには,ri(AND)=0となり,すべての場合に質問一文
文軒間の類似度計測に反映させることが有用な場合も考
此間の類似度は0となる。従って,Pはその2つの値の
えられる。そこで本節では索引語間の高次関連度を算出
間を動き,Pの値が0に近ければ論理和演算の結果に近
し,その値を質問一文献間の類似度計測に反映させるこ
い類似度がえられ,逆にρの値が大きくなるほどより強
とを,これまでになされた議論を踏まえて検討してみよ
い論理積演算の結果がえられる。論理和と論理積が組み
う。
合わされた複合質問に対しては,論理和の質問部分につ
これまでのベクトル型モデルの範疇では,索引語間の
いては(1)式を,論理積の質問部分については上記(5)
直接的な関連度を表す索引語間関連行列Yが与えられれ
式を適用し,質問全体に再帰的に適用させていけばよい
ば,その巾乗をとることで高次関連度を表す関連行列が
ことになる。
えられるものと議論されてきた。すなわち,2次結合に
以上でコサイン関数モデルに対する論理演算導入の1
よる関連度を表す関連行列はもとの関連行列Yを2乗ず
つの可能性を試みたわけであるが,上記で定式化した論
ることでえられ,同様にπ次結合による関連行列はもと
理積質問に対する類似度計測式についても,前節でコサ
の関連行列をπ乗ずることでえられるものとされてい
イン関数モデルに索引語間関連度を組み入れたのと同一
る。これによりすべての高次関連度を含めた索引語間関
の方法で索引語間関連度を類似度計測式に組み入れるこ
連行列Yノをえるには,収束させるためパラメータλ
とが可能である。2次元の場合について図式化したもの
(0≦R<1)を導入し,下刷1im(λyア)n==Oの仮定上での
あ う を第2図中の右側に示しておく。これを式表現すると,
み,Y,=1+RY+(RY)2+(λY)3+…・=(1一λy)一1で計算
(5)式は次式のように書き換えられる。
されるものとされてきた(1:単位行列)16)・17)。しかしな
がらこの方法では,パラメータλの決定という困難な問
ri(AND)=(1/6i(i)6i(2))’
題が発生し,また実際の計算量も大きな制約となる。
[ Z.1 (xid一(xi,・+q,・)P)(qk一(xik+qk)P)ydk]
そこで索引語間関連行列Yは,その要素が区間[0,1]
ゴ,k
(6)
の値であること,および反射律・対称律を満たすことを
δi(、)=[Σ@乞ゴー@乞ブ+qゴ)P)(Xik一(Xik+qk>P)雪ゴ為】1/2
前提とすれば,y=Ψ∠ザー1,(A:固有値を対角要素とした
ゴ,le
対角行列,Ψ:各固有値に対応する固有ベクトルをなら
6i(2) =[ ; 1一 (q7・ 一(xi,・ + q」)P)(qk一(xik+ qk)P)y,・k]ii2
ゴ,k
べた直交行列)に分解することができる。これにより関
斜交座標系に即した,論理積の度合いを決定するパラメ
連行列Yのn乗はYn=Ψ∠%Ψ一1となり,容易に求める
ータPがとりうる範囲を求めることは(5)式の場合と同
ことが可能となる。しかしこのような計算をおこなった
様の手法で可能である。斜交系の場合にPがとりうる上
としても,すべての高次関連度を含めた関連行列Y,を
限値(1−tBi’)/2は前述の直交系の場合との関係におい
求めるには,パラメータえを必要とする。
て(1 一一一 zB,)/2≦(1一β!)/2となるが,その差は座標系が表
従って,より制約の緩い計算の容易な演算の導入を検
す索引語間の関連度を示しており,論理積演算には依存
討すると,ファジィ行列積をはじめとするmax・*演
しない値と考えるべきである。従って,索引語間関連度
;算の適用にいたる(Yn=Yn−10Y, n>1)。 max一*演算
を論理積演算に組み入れた(6)式の場合においても,P
には,ファジィ行列積であるmax−min演算[g㌦=
のとりうる範囲は(5)式について示したものと同じにな
max(yn−1ゴ乙くYtk)]や, max積演算[忽㌦=max(似炉1ガ
ろ エ
る。
YLk)], max一限界積演算[yn」k = max(O V(忽炉1ゴ乙+Ylk−1))1
ヱ
など,“*”には区間[0,1]で定義される多i数のt−norm
D.索引語間の高次関連度
をあてはめることができる。これらmax・*演算による
索引語間関連度の組み入れを試みた前節までのモデル
二乗を求めると,索引語間関連行列Yは反射律および対
化においては,考慮すべき索引語間の関連性とは任意の
称律を満たすことより,次の関係が導かれる18)。
2つの索引語間の直接的な関連性のみを想定していた。
しかしながら,2つの索引語間の直接的な関連度に加え
Yf{ Y2≦Y3≦…≦Yn−1,=Yn=, Yn+1=…
て,他の索引語を媒介にした2次的な結合による関連
度,さらにはそれら2次結合による索引語を媒介にした
推移的閉包と呼ばれるものである。従って,max一*演算
これより,y,=vyブ=y炉1=Yがえられ,行列Yは
ゴ=1
一一 110 一一
Library and lnformation Science No.28 1990
のもとでは索引語間のすべての高次関連度を組み入れる
いはその中間の性:質を有するものとして機能したりする
にも推移的閉包Yを用いれば十分であり,かつ行列Yの
、点にある。同モデルは次に示す論理和演算をおこなう
@一1)乗以下で収束することがわかる。なお,上に例
式ri(OR)および論理積演算をおこなう式ri(AND)の2
示した3つのmax一*演算を用いて導かれた推移的閉包
つから構成されている。
相互の関係は,限界積≦積≦minを反映して, Y(max一
限界積)≦Y’(max積)≦Y(max−min)の関係となる19)。
r・(・R)一
また,えられた推移的閉包Yはそれ自身次に示す
(7)
max一*推移律を満たす推移行列をなしている18)。
m
Σ(1一ω乞ゴ)PqゴP
ゴ
ri(AND)==1一一
伽≧max(IYブe*IYIk)⇔y⊇yO Y
l
]i/P
Σ qゴP
ゴ
1SP 〈 oo
ゆえに推移的閉包自身においては,2つの索引語間の関
連度は他のいかなる索引語を介した関連度よりも大きく
P=・1のときには,ri(OR)=ri(AND)=Σ勘9ノΣのと
ゴ ゴ
なる点が理解される。
なり,論理演算子の効力はなくなる。これは質問一文献
与えられた索引語間関連行列Yがmax・*推移律を満
ベクトル間の内積を質問ベクトルを用いて正規化したも
たすよう設定されている場合,あるいはmax一*推移律
のに他ならず,ベクトル型モデルの1つと考えられる。
を満たすべきであるとの考えに基づき,報告されている
一方,ρ→。。のときには,ロピタルの定理を用いること
行列置換操作20)を用いて非推移行列から推移行列をつく
によりri(OR)・=mζx Xiゴ, ri(AND)=min Xwがえられ
ン コ
りだした場合には,次の関係を満たし,
(共にq、=q2=・… =・qn=1の場合),ファジィ型の結果
となる。さらに文献こ付与されたすべての索引語の重み
Y=Y2・..・Y3・..…=Yn一』】yn…Yn+1=…=y’=・】y,
が2値(Xo’={0,1})であるときにはプール型と一致す
関連行列Y自身が推移的閉包をなす18)。これはγにお
る。パラメータPが上記以外の値(1<P<。・)であると
ける索引語の関連度が2次結合以上のすべての高次関連
きには,その値に応じてベクトル型とファジィ型もしく
度と同値であることを意味している。よって,この場合
はプール型との中間的な特性を有する式がえられる。こ
には関連行列Yを質問一文献間の類似度計測に組み入れ
の関係をまとめると次のものとなる。
ることで,すべての高次関連度を考慮したことになる。
ri(AND) ;S ri(AND) S ri(AND)
(p一一>oo) (1〈P〈oo) (P=1)
以上でみたように,max一*演算に基づき索引語間関連
行列の巾乗を求めることで高次関連度が算出できるもの
=ri(OR)Sri(OR) $ri(OR)
と仮定すれば,その結果えられる高次関連度を含んだ関
(P==1) (1〈p〈oo) (p.oo)
連行列を,質問一文高間の類似度計測に直接適用できる
ことがわかる。例えば,(3)式中の関連度伽に推移的
なお,Salton らは(7)式のように論理和演算をおこ
閉包Yの要素9d,を適用すれば,すべての高次関連度
なう式と論理積演算をおこなう式とを定式化している
を質問一文献血の類似度計測に反映させることが可能と
なる。あるいは,推移的閉包に達しない時点までの,関
が,これら2式は双対な関係にあり,パラメータPを
一∞<P≦1とした場合には論理和演算をおこなう式と
連行列Yの任意の巾乗まででファジィ和演算をとったも
論理積演算をおこなう式とが相互に交換される関係にあ
る。また,論理和と論理積が組み合わされた複合質問に
のを用いることも可能であろう。
対しては,コサイン関数モデルに論理演算を導入した場
III.拡張プール型モデルの拡張
合と同様,上記(7)式を再帰的に適用させて用いること
A.拡張プール型モデル
になる。
拡張プール型モデルとはSaltonらにより提案された
検索モデルであり21),その最大の特徴は各論理演算子に
B.拡張プール型モデルへの索引語間関連度の組み入れ
付与された論理和/積の結合の強さを指示するパラメー
前節において解説した拡張プール型モデルに索引語間
タPの値を変化させることにより,同一式がベクトル型
の関連性を組み入れ,さらに展開を図ることは,同モデ
として機能したり,プール型として機能したり,ある
ルが備えている柔軟性と相侯ってその有効性を倍加させ
一一 111 一
索引語間の関連性を考慮した情報検索モデル
ることになろう。前章においてコサイン関数モデルに対
論理和演算式の場合と同様,すべての質問語の重みを
して索引語間関連度を組み入れ拡張したのと同様に,本
q、=q2=…・=qn=1とし,かつ㌢蹄≠0となる範囲内で
節では拡張プール型モデルに対する索引語間関連度の組
max吻=1と仮定すれば,論理積演算の値はri(AND)=
み入れを試みる。ここでは索引語間関連度の組み入れを
ゴ
min max賜伽により決定される。以上のことより,拡
k ゴ
おこなった拡張プール型モデルの1つを最初に示す。
張プール型モデルに索引語間関連度を組み入れ拡張した
上記(8)式は拡張プール型の特性をそのまま継承してい
ることがわかる。
なお,上記の(8)式は索引語間関連度を最も包括的に
(8)
:El (1 一 S,,)Pq,P
ri(AND) =1一[
k
]i/P
組み入れたものであるが,より限定した索引語間関連度
のみを組み入れることも考えられよう。その一一例として
Z q,p
k
は各質問語qkに対する値が最大となるもののみを採用
する,すなわちδik=max xidyfaとするなど,その他多
ゴ
数のものが考えられよう。
IV.実
1$P 〈 oo
A.実験用文献集合
まず上式においてP=1の場合をみてみると,
Σδ乞漁
ri(OR)==ri(AND)==
k
コサイン関数モデルおよび拡張プール型モデルに対し
Σω¢ゴ忽ゴk
て索引語間関連度を組み入れ拡張した,本稿で提案した
δ乞k=ゴ
Σ免
モデルの有効性を検証するため,以下の実験用文献集合
Σ x,ゴ
ゴ
ん
験
を作成し,検索実験をおこなった。図書館情報学を対象
yゴk≠0
となる。さらに各文献への索引語の付与にあたって重み
づけがなされていない,すなわちすべての付与された索
引語の重みをoρガ=1と仮定すると,娠は質問語qkに
関連するすべての索引語間関連度の平均値となることが
わかる。一方,P→。。のときには娠は次のものとな
領域とするLibrary and lnformation Science Abstracts
から比較的抄録データの長いレコードを無作為抽出し,
抽出された623文献レコードをもって検索対象文献集
合を作成した。実験には各レコード中の標題および抄録
データのみを使用した。レコード当たりの平均語数は
102.0語であり,標題のみの平均語数9.0語,抄録のみ
り,
の平均語数92.0語との:構成であった。索引語の抽出・
付与,およびその重みの設定は以下の手順ですべて機械
的に処理した。
1) ストップワード253語の除去。同ストップワード
は,van Rijsbergenが列挙した語22)に若干のものを追
論理和演算をおこなう式は,
加して作成した。
一院ド夢鼠舞
2) 複数形および過去・過去分詞形の語尾処理による
まとめあげ。当該処理後の索引語彙数は5,209語であ
った。
となる。ここですべての質問語の重みをq1=q2=・…=
qn=・1とし,かつYik≠0となる範囲内でmax晦=1と
ゴ
仮定すれば,論理和演算の値はri(OR)=max max二三
k ゴ
により決定される。同様にρ→・。のとき,論理積演算
をおこなう式は次のものとなる。
max (1 一一 6ik)qk
3)各索引語の出現文献数による絞り込み。検索実験
を容易にする目的で,各索引語の出現文献数が6以上
63以下のもののみ抽出した。出現文献数が文献集合全
体の1∼10%の索引語に限定したのは,Saltonらによ
る実験結果に根拠を置いている23)。最終的に残った索引
語彙数は1,007語であり,文献レコード当たりの平均索
引語付与数は26.0語,最大58語,最小8語となっ
ri(AND)=1一一 k
max qk
k
た。
一 112 一
Library and Information Science No.?8 1990
4)個々の文献レコードに付与された各索引語の重み
を(9)式でおこなった場合は,働=・1を除いて0・7以
づけ。2種類の重みづけを採用したが,どちらもa)各
上の共出現値5組,0.5以上0.7未満は31組,0・3以
文献内での当該索引語の出現頻度数,b)文献集合全体
上0.5未満は697組,0.1以上0.3未満は26,460組
内での出現文献数,c)重みのとりうる範囲を区間[0,1】
であった。また重みづけを(10)式でおこなった場合に
におさめるための正規化,の3要素をすべて含んだ手法
は,共出現値の分布は,窃=1を除いて0.7以上の共
とした。1つは次式を用いて重みを計算したものである。
出現値3組,0.5以上0.7未満は107組,0・3以上
0.5未満は1,432組,0.1以上0.3未満は28,940組
り0先ブニ・fiプ109(M/9ゴ)
(9)
となった。なお,これ以後の検索実験では実験を容易に
ゴ
する目的で,共出現値が0.1以上の組のみを索引語間
勘=・x,乞ブ/[Σ婿ブ2]1/2
ここで,ん:文献必における索引語ちの出現頻度数,
関連度として用いることにした。
検索実験に使用する検索質問およびそれに対応する適
gゴ:文献集合全体内での索引語ちの出現する文献数,
合文献群は,5組準備した。検索質問に用いることがで
M:総文献数,である。当該重みづけ法を用いた結果,
最大0.9058,最小0.0359の重みが付与され,0・7以上
の重みは57回,0.5以上0.7未満の重みは317回,
0.3以上0.5未満の重みは1,158回,文献の索引語に
対して付与された。他方の重みづけは,Saltonらによ
る実験において比較的良好な結果をえたものであり,前
きる索引語集合による制約,および実験結果の再現率
(recall ratio;呼出率ともいう)0.1∼1.0の範囲で適合
率(precision ratio;精度ともいう)が広がりをもつよ
う,設定した検索質問に比較して多少とも拡大解釈した
適合文献集合を割り当てている点など,必ずしも精密な
実験が実施できたわけではないことをお断りしておく。
記の式とはいわば正規化の方法が異なるものである24)。
9’ゴ=109(.M/σゴ)
B.実験結果および考察
(10)
り。、ブ=(9’」/mgx・9’ゴ)・(ん/M4x fu)
今回は本稿で提案したモデルのうち,索引語間関連度
J e
当該重みづけによると,最大1.0,最小0.0428の重み
を組み入れ拡張したコサイン関数モデル,および同様に
が付与され,0.7以上の重みは521回,0.5以上0・7未
拡張した拡張プール型モデルを中心に実験をおこなっ
満の重みは989回,0.3以上0.5未満の重みは2,385
た。えられた実験結果は第1∼5表に,再現率の各段階
における平均適:合率の値を用いて示してある。ただし,
回,索引語に対して付与された。
また,実験に用いる索引語間関連行列Y,すなわち索
引語間関連度伽は単純な共出現値をもって代用するこ
ととし,具体的には以下の2式を採用した。1つは索引
語の重みを考慮せず,文献を単位とした共出現値を求め
るものであり,他は索引語の重みを考慮した式のうちの
1つであり,質問一文献間の類似度計測に用いたコサイ
ン関数式を共出現値を求めるためにそのまま用いたもの
前節末に記した制約および採用した補間法などに適合率
の値は大きく依存するため,その値は絶対値として意味
があるわけではなく,あくまでも今回の実験で取りあげ
たモデル相互の性能比較をする上で目安となる値と考え
るべきものである。
最初にコサイン関数モデルによる検索[(1)式に該当】,
および索引語間関連度を組み入れ拡張した同モデルによ
る検索[(3)式に該当】をおこなった。結果は第1表に
である。
示した通りである。質問ベクトルおよび文献ベクトルの
Yゴk=9ゴk/[9ゴ+9iC 一一 9」・k]
(11)
両者とも重みづけを適用しないコサイン関数モデルによ
る検索結果が門中のa欄である。それに対して質問・文
伽:索引語らと索引語tkが共に出現する文献数。
献とも重みづけは適用しないが,(11)式により算出され
yブドΣωかり5侃/[Σ賜2・Σ Xi,2]i/2 (12)
た索引語間の共出現値を組み入れた結果がb欄に示して
i i i
(11)式を用いて計算した共出現値の分布は,働=1を
ある。同様に,(9)式または(10)式により各文献ベクト
除いて0.7以上の共出現値3組,0.5以上0.7未満は
ル内の索引語の重みを初めに計算し,それらの重みに基
4組,0.3以上0.5未満は17組,0.1以上0.3未満
づく共出現値を(12)式を用いて求め,質問・文献ベク
は2,738組であった。同様に(12)式を用いて計算した
トルとも2値のまま,その共出現値をコサイン関数モデ
共出現値の分布は,重みづけの手法に依存し,重みづけ
ルに組み入れたのが,cおよびd欄である。また,第1
一一 113 一一
索引語間の関連性を考慮した情報検索モデル
第1表 コサイン関数モデルおよびその拡張形による検
索実験結果
重みづけの適用なし
第1表からは以下の点が指摘できよう。
1) 質問・文献ベクトルとも重みづけを適用しないと
きに比較して,文献ベクトルについて重みづけを適用し
再現率
たときの方が,全般的に適合率は上昇している。この点
適合率
a
b
C
d
0.1
0.7750
0.7946
より確認される。これはこれまでに報告されている多く
0.6586
0.7341
0.7946
0.7341
0.7946
0.2
0.7675
0.7924
の実験結果とも一致するものであり,併せて今回採用し
は,表中の各欄について上側と下側とを比較することに
0.3
0.6172
0.6554
0.7334
0.4
0.3878
0.5137
0.5831
0.5636
0.5
0.4878
0.4906
0.5636
0.6
0.3859
0.2662
0.3312
0.7
0.1645
0.1958
0.3620
0.2076
0.8
0.1048
0.0867
0.0317
0.1628
0.1506
0.0899
0.1012
0.0562
0.0535
0.9
1.0
た重みづけ法の妥当性をも明らかにしているものと考え
られる。今回の実験の範囲内では最大で20%近くの上
0.4683
昇がみられたところがある。
0.3579
0.1998
0.1051
0.0561
一一
2) 本稿で提案した索引語間関連度の組み入れば,文
献ベクトルに対する重みづけを適用しないときには,適
一一一
合率を多少なりとも上昇させている。一方,重みづけを
適用したときには適合率が上昇したとはいい難く,かえ
重みづけの適用あり
って減少しているところも見受けられる。これらの点
再現率
適合率
e
f
9
h
0.1
1.0000
1.0000
1.OOOO
1.0000
0.2
0.9286
0.3
0.8472
0.7722
0.8348
0.7685
0.7333
0.6592
0.7374
0.5
0.7634
0.6567
0.6131
0.9583
0.7974
0.6418
0.6045
0.6
0.3666
0.4531
0.5594
0.7
0.2112
0.1393
0.3075
0.3727
0.3147
0.2461
0.2367
0.0914
0.0317
0.0931
0.1197
0.0562
0.0548
0.2090
0.1234
0.0831
0.4
0.8
0.9
1.0
は,a;欄とb∼d欄との比較, e;瀾とf∼h欄との比較
から確認される。最大で10%近くの適合率上昇がみら
れたところもあるが,必要とする計算:量を勘案すると,
再現率のすべての段階において期待されるほど検索効率
が上昇しているとはいい難い結果である。ただし,今回
0.6863
0.5646
の実験で用いた索引語間関連度は単純な共出現値である
ため,より洗練された索引語間関連度が利用可能であれ
ば,良好な検索結果がえられるものと期待される。ま
た,文献ベクトルに対して重みづけを適用しないb∼d
一一
欄の間で,あるいは文献ベクトルへの重みづけをおこな
a,e:コサイン関数モデルによる検索
b,f:(11)式による共出現値を適用
ったf∼h欄の間で,特に有意な差は見あたらないとい
。:(9)式の重みづけに基づく(12)式による共出現値を適用
d:(10)式の重みづけに基づく(12)式による共出現値を適用
g:(9)式による重みづけおよび(12)式による共出現値を適用
h:qO)式による重みづけおよび(12)式による共出現値を適用
ってよかろう。a, b, e, f;瀾の結果について,グラ
フ化したものを第3図に示してある。
続いて,拡張プール型モデルによる検索[(7)式に該
表中の下側は「重みづけの適用あり」としているが,こ
当],および同モデルに索引語間関連度を組み入れ拡張
こでは文献ベクトルについてのみ(9)式または(10)式に
したものによる検索[(8)式に該当]をおこなった。拡
よる重みづけをおこなっており,質問ベクトルについて
1.0
響
は重みづけを適用していない,すなわちすべての質問中
0.8
来のコサイン関数モデルによる検索結果であり,f欄は
0.7
0.6
(11)式を用いて算出された共出現値を組み入れた結果で
0.5
ある。e, fともに文献ベクトルの重みづけに(9)式を
0.4
用いたときと(10)式を用いたときでは等しい検索結果が
0.5
0.2
えられており,そのため表中ではまとめた形で示してあ
0,1
る。gおよびh欄については,表の下部に注記した通り,
のらり トへ
@f
\\か\
ヘコらロ
ロ
\
t3:ム
ロ
も
\無
\く.
0.o
Ol O.2 03 04 05 06 07 08
(9)式または(10)式による文献ベクトルの重みづけ,お
よびそれら重みに基づく索引語間の共出現値の両者を適
,自
。一。・。
の索引語の重みを1とした場合を指している。e欄は従
用した結果である。
@コ ミ 羅 o.9
09 1.0
再現Σ摯ζ
第3図 コサイン関数モデルおよびその拡張形による検
索実験結果
一 114 一
Library and Information Science No.28 1990
第3表拡張プール型モデルの拡張形による検索実験結
第2表 拡張プール型モデルによる検索実験結果
果(重みづけの適用なし)
a:重みづけの適用なし
再現率
a:(11)式による共出現値を適用
適合率
P=1∼3
P=10
適合率
再現率
P32
P=1
0.1
0.6714
0.6063
0.1
0.3
0.6833
0.6117
0.5193
0.5193
0.2
0.4
0.4218
0.2
0.5
0.2618
0.4218
0.2989
0.6
0.1954
0.2043
0.7
0.1563
0.6
0.8
0.0977
0.1600
0.0991
0.9
0.0808
0.0317
0.0808
0.0317
0.8
1.0
0.3
0.4
O.5
0.7
0.9
1.0
0.5877
0.3589
0.3479
0.3158
0.2675
0.2395
0.1762
0.1551
0.0574
0.0393
P=3
P司0
0.5717
0.5717
0.6121
0.4792
0.5312
0.4253
0.3820
0.3282
0.3889
0.3097
0.3483
0.3363
0.3378
O.3253
O.2131
0.2244
0.2091
0.2159
0.1704
0.1711
0.1493
0.1486
0.1387
0.0819
0.0819
0.0992
0.0594
0.0393
0.0392
0.0395
b:(9)式による重みづけの適用あり
再現率
b:(9)式の重みづけに基づく(12)式による共出現値を適用
適合率
P=1
P=2
P=3
Pニ10
適合率
再現率
P=2
P=1
0.2
0.9000
0.8175
0.3
0.7376
0.4
0.6514
0.6148
0.5
0.1
0.9375
0.9375
0.9375
0.8889
0.7320
0.8889
0.7872
0.6148
0.5868
0.8472
0.7287
0.1
0.5935
0.5577
0.3
0.32冤8
0.2900
0.5703
0.3521
0.5960
0.3243
0.7
0.2626
0.8
0.1117
0.2585
0.1333
0.9
0.0832
1.0
0.0317
0.6
0.0839
0.0317
P=3
P=10
0.2585
0.1533
0.6
0.1393
0.0853
0.1294
0.7
0.0814
0.8
0.3139
O.2044
0.1942
0.1731
0.1721
0.1500
0.1297
0.1197
0.1314
0.1774
0.1562
0.1357
0.0317
O.0317
0.9
0.0641
0.0715
0.0904
0.0589
1.0
0.0477
0.0598
0.0558
0.0439
0.2
0.4
0.5
0.5341
0.5717
0.4883
0.2515
0.2906
0.2273
0.2908
0.2821
0.2113
0.3178
0.2947
0.1779
0.1712
0.1865
0.1468
0.1533
0.1324
0.2872
0.1627
0.1310
一
c:(10)式による重みづけの適用あり
再現率
c:(10)式の重みづけに基づく(12)式による共出現値を適用
適合率
P=1
P=2
P=3
P=10
適合率
再現率
P=2
P=1
一
0.1
1.0000
1.0000
0.2
0.9015
0.3
0.6709
0.9086
0.8333
0.4
0.6063
O.5
0.5356
0.6
0.3252
0.7
0.2512
0.8
0.1117
0.9
0.0832
1.0
0.0317
0.5772
0.5591
0.9375
0.8281
0.7865
0.8229
G.7333
P=3
0.9GOO
P310
0.1
0.2576
0.4770
0.6042
0.4542
0.2
0.2393
0.3366
0.2929
0.2490
0.3259
0.3452
0.3148
0.3279
0.3031
0.5723
0.6130
0.3
0.5591
0.5303
0.4
0.3254
0.2361
0.3217
0.2624
0.5
0.1987
0.1653
0.1591
0.2335
0.2523
0.6
0.1493
0.1248
0.0846
0.0317
0.1333
0.1128
O.7
0.0867
0.0924
0.8
0.0317
0.03’17
0.2904
0.1809
0.1580
0.1706
0.2316
0.1673
0.1086
0.0982
0.1424
0.1470
0.1674
0.1541
0.1112
0.1288
0.1267
0.9
0.0659
0.0920
0.1003
0.0762
1.0
0.0438
0.0486
0.0478
0.0439
一
一一
張プール型モデルによる検索結果を第2表に,さらに索
引語間関連度を組み入れ拡張した同モデルによる検索結
び。表の意味は,コサイン関数モデルの実験において示
果を第3∼5表に示してある。重みづけの適用の有無と
したもの(第1表。およびd)と同じである。また,第4表
はコサイン関数モデルの実験のときと同様,文献ベクト
は拡張プール型モデルの拡張式(8)式を用いたときの検
ルに対する重みづけの有無を意味しており,質問ベクト
索結果を示したものであり,第5表は(8)式中のδikを各
ル中の索引語に対する重みづけはおこなっていない。第
検索語qkに対する値が最大となるもの6ik =max xidy」k
ゴ
3表には重みづけを適用しないで,索引語間関連度のみ
を適用した場合の結果を示している。第3門中のbおよ
に置き換えたモデルを用いたときの検索結果であり,組
み入れるべき索引語間関連度を限定した場合の一例とし
一一 115 一
索引語間の関連性を考慮した情報検索モデル
第4表 拡張プール型モデルの拡張形による検索実験結
第5表拡張プール型モデルの拡張形による検索実験結
果(重みづけの適用あり1.)
果(重みづけの適用あり2.)
a:(11)式による共出現値を適用
a:(10)式による重みづけおよび(11)式による共出現値を適用
再現率
P=2
P=3
0.7188
0.4251
0.8750
0.2
0.3
0.3734
0.4456
0.1
再現率
適合率
P=1
0.5963
0.9167
0.5789
0.1
1.0000
1.0000
0.2
O.9083
0.9583
0.4456
0.3660
0.3652
0.3
0.6612
0.3352
0.4
0.2959
0.2868
0.1984
0.5
0.5737
0.5462
0.8333
0.5825
0.5641
0.7
0.4080
0.3088
0.1044
0.0595
0.8
0.9
0.0399
1.0
O.4
0.3654
0.3494
0.3457
0.2730
0.3639
0.6
0.3203
0.2820
0.7
0.2167
0.1886
0.1982
0.8
0.1661
0.1681
0.1614
0.9
0.0566
0.0571
1.0
0.0393
0.0393
0.0587
0.0393
02971
0.6
P=3
0.0808
0.0415
0.0819
0.0413
0.1385
0.0846
0.6436
0.4454
0.1
0.4330
0.4294
0.3315
0.5
0.2029
0.2907
0.2807
0.5473
0.2796
0.3
0.4
0.2786
0.2248
0.5
0.6326
0.5883
0.6
0.1986
0.2447
0.4975
0.1802
0.1153
0.0588
0.0487
0.1878
0.1922
0.1803
0.6
O.7
0.2278
0.1911
0.7
0.3029
0.1323
0.0955
0.8
0.2387
0.0643
0.0499
0.0572
0.0418
0.9
0.1232
0.0631
0.2
0.4
1.0
0.8750
0.8220
0.6411
P=2
P=10
0.9375
0.9375
0.9375
0.7778
0.6896
0.7951
0.7639
0.6134
0.5989
0.5445
0.2695
0.2491
0.6718
0.6148
0.5922
0.5221
0.2768
0.1374
0.2230
0.1411
0.0679
0.0723
再現率
適合率
P=3
P=3
0.5325
0.4524
0.4321
0.3936
0.1552
0.1347
0.1224
0.0513
c:(10)式による重みづけおよび(12)式による共出現値を適用
c:(10)式による重みづけおよび(12)式による共出現値を適用
P=2
0.0412
適合率
P31
P司0
0.6167
P=1
0.5681
0.5003
0.3586
0.0856
0.0407
0.7135
再現率
0.6024
0.2556
0.5917
0.0498
0.6793
0.2572
0.4966
1.0
0.6396
O.2251
0.4327
0.1137
0.0641
0.8229
0.2288
0.3013
0.2958
0.2298
0.9
0.9000
0.4196
0.1
O.8
0.9357
0.8281
0.2620
0.2245
0.2
0.3
P=10
0.5659
0.4131
再現率
適合率
P=2
P=3
b:(9)式による重みづけおよび(12)式による共出現値を適用
b:(9)式による重みづけおよび(12)式による共出現値を適用
P=1
P=2
0.7917
0.5872
0.5
再現率
適合率
P=1
P=10
適合率
P=1
P=10
P=2
P33
P=10
0.1
0.4833
0.7244
0.8077
0.9375
1.0000
0.9375
0.8167
0.4077
0.5750
0.2
0.8869
0.7067
0.4830
0.3180
O.3
0.3566
0.3769
O.4
0.6344
0.5806
0.7917
0.6307
0.4950
0.4
0.3962
0.2242
0.9167
0.8021
0.7976
0.3
0.5940
0.5877
0.7316
0.4551
0.4631
0.1
0.2
0.5
0.1920
0.2404
0.2227
0.2640
0.1555
0.5
0.5668
0.5723
0.3829
0.6
0.2944
0.2457
0.6
0.4586
0.2030
0.1855
0.7
0.3071
O.1420
0.1527
0.0641
0.1468
0.1415
0.8
0.2812
0.0537
0.9
0.0424
1.0
O.1125
0.0711
0.8
0.1888
0.1586
0.1203
0.9
0.0678
1.0
0.0443
0.7
0.0717
0.0484
0.0478
0.5625
O.5567
0.4742
0.4137
0.3074
0.2435
0.4766
0.2760
0.2298
0.1085
0.1095
0.2462
0.1847
0.0983
0.0763
0.0791
0.0595
0.2837
て示してある。拡張プール型モデルにおいては論理演算
に依存せず,適合率を上昇させている。この点は第2表
子の強さを制御するパラメータPの値に応じて検索結果
戸のa表と下2つのb,c表とを比較することによりわ
が変化するため,実験ではそれぞれの場合にパラメータ
かる。また,(9)式による重みづけと(10)式による重み
Pの値を1,2,3,10に設定し検索をおこなった。
づけでは検索結果に有意な差がみられない点もコサイン
これらの実験結果は以下の点に要約されよう。
関数モデルの実験結果と共通している。
1)拡張プール型モデルによる検索においても,文献
2)拡張プール型モデルにおける検索結果は,設定し
ベクトルへの重みづけは有効であり,パラメータPの値
たパラメータPの範囲内では大きな変化は現れていない
一一
@116 一一
Library and Information Science No.28 1990
(第2表参照)。文献ベクトルへの重みづけを適用しない
1.0
低
謔Q表a
一一
謔Ri表a
…第3…藝ミ。
一…・・
率 09
ときには,P=・1∼3の範囲では等しい結果がえられてい
0,8
る。また,重みづけの適用の有無に関わらず,P ・10の
0,7
ときにも大きな適合率減少は見受けられない。全般的に
0.6
いって,Saltonらが実験によって導き出した結論,すな
0.5
×
×
04
05
02
わちパラメータPは重みづけを適用していないときには
P=2∼5の範囲内で,重みづけを適用しているときに
×
P・ .11)ix,,.〉....
鳶ミさ凝曳凝
はP=1∼2の範囲内で最適な結果がえられるとした結
0.1
論21)とも大きく矛盾するものではないといえよう。
00 r
Ol O.2 03 04 05 06 07 O,8 09 10
3)拡張プール型モデルによる検索結果をコサイン関
数モデルのものと比較すると,重みづけを適用していな
Xi
再現;il:KS
第4図
拡張プール型モデルおよびその拡張形による検
索実験結果(重みづけの適用なし,p=2)
い場合および(9)式または(10)式による重みづけを適用
した場合の双方において,若干の適合率減少がみられる
準
10
ところがあるが,全体的には大きな差はないといってよ
率 0.9
0.8
かろう。特にP=1のときの拡張プール型モデルは論理
06
処理の点で異なるだけとなり,両者の検索結果の相違は
0,5
……・・
謔S表a
’x”r’:・::’・:.).s.,...,,,,,.:rr:.rillll・1)・))))]〉・・・・…一…一,,・,一]::.::::rx...,.
0,4
この正規化処理の相違に帰着することとなる(第1表
03
a,e欄rと第2表中のP=・1の場合を比較)。SaltOnら
0,2
0,1
の実験において,コサイン関数モデルと比較した拡張ブ
0.o
ール型モデルによる検索結果は,文献ベクトルへの重み
の上昇がみられたり,減少がみられたりして,一定して
一一 謔Q表。
・・第4…表。
1:1・1・一・1.,,,,,. Xxx,
0.7
演算子の効力がなくなり,コサイン関数モデルと正規化
づけをおこなわない場合には実験対象集合により適合率
×
×
L一・..:;r)r>>bs‘;41kll’?一・・
駄、
T
O.1 02 O.3 O,4 05 06 07 08 09 1.0
再現躍
第5図 拡張プール型モデルおよびその拡張形による検
索実験結果(重みづけの適用あり,p=2)
いない。一方,同じ実験で文献ベクトルへの重みづけを
実施した場合には,実験に用いた4つすべての実験対象
への重みづけの適用は重みづけを適用しないときに比べ
集合において,P =・1∼2の範囲内では拡張プール型モデ
てパラメータPのすべての値に関して,適合率の上昇を
ルによる適合率上昇が報告されているが21),今回の実験
示している。これは第3表と第4表とを比べることより
ではそれに合致する検索結果はえられなかった。
理解される。この点より,重みづけ自体は拡張プール型
4)拡張プール型モデルに比較して本稿で提案したそ
モデルの拡張型においても有効であることが確認され
の拡張モデル[(8)式に該当]は,文献ベクトルへの重
る。
みづけの有無に関わりなく,今回の実験の範囲内では大
6)拡張プール型モデルに組み入れるべき索引語間共
きく適合率を減少させている。この点は第2表と第3,
出現値を限定した場合の検索結果は,限定せずすべての
4表とを比べることで明らかである。特に再現率O.1∼
利用可能な共出現値(実際には実験の都合上,0.1以上
0.4の各段階に対応する適合率が大きく減少していると
の共出現値をもつもの)を組み入れた場合に比較して,
いえよう。また,文献ベクトルへの重みづけを適用した
適合率の大きな改善がみられる。これは第5表と第4表
ときにも,適用しないときにも,(12)式により算出され
との各欄を比較することで確認される。そして拡張プー
た索引語間共出現値を組み入れた場合には極端に適合率
ル型モデルそのものによる検索結果と大差のない適合率
が減少している。拡張プール型モデルとその拡張モデル
をえていることも,第2表中のbおよび。表と比べるこ
による検索結果の比較を,重みづけを適用していない場
とより確認できる。これより今回の実験の範囲内では,
合の比較を第4図に,重みづけを適用した場合の比較を
娠=max賜伽=Xikとなる場合が大半であったことが
第5図に,それぞれグラフ化して示してある。
推測される。また,第5表から読み取れるように,組み
ゴ
5)本稿で提案した形で拡張プール型モデルに索引語
入れるべき共出現値を限定した場合にも,(11)式により
間共出現値を組み入れた場合においても,文献ベクトル
算出された共出現値を用いたときの方が(12)式による共
一一 117 一一
索引語間の関連性を考慮した情報検索モデル
出現値を用いたときに比べて,概して適合率は良好であ
3) van Rijsbergen, C. J. “6. Probabilistic retriev−
る。
al”. lnformation Retrieval. 2nd ed. London,
以上の諸点をまとめると,今回の実験ではコサイン関
数モデルおよび拡張プール型モデルの両者に索引語間共
Butterworths, 1979, p. 111−143.
4) Salton, G.; Buckley, C.; Yu, C. T. “An evalu−
ation of term dependence models in information
出現値を組み入れただけでは,有効な検索効率の上昇を
retrieval”. Research and Development in ln−
えるまでには至らなかったといえよう。特に拡張プール
formation Retrieval. Salton, G.; Schneider,
型モデルに共出現値を組み入れた場合には,大きく効率
H.J. eds. New York, Springer, 1983, p. 151−
が低下してしまうことが観察された。その理由として,
173. (Lecture Notes in Computer Science,
Vol. 146).
拡張プール型モデルの拡張方法自体が適切でないこと
5) Yu, C. T.; Buckley, C.; Lam, K.; Salton, G.
と,使用した索引語間関連度が単純な共出現値であるこ
A generalized term dependence model in in−
formation retrieval. lnformation Technology:
との2点が考えられるが,どちらがより基底的な原因と
して実験結果を左右しているかは今回の実験からは結論
づけることが困難である。
Research and Development. Vol. 2, No. 4, p.
129−154 (1983)
6)谷口祥一.決定理論型情報検索モデルのファジィ確
率による拡張.図書館情報大学研究報告.Vol.8,
V. おわりに
No. 1, p. 37−47 (1989)
本稿では,索引語間の関連性が関連度として数値で与
えられていることを前提にして,質問に対する各文献の
類似度計測にその関連度を反映させることができるよ
う,既存の検索モデルの拡張を試みた。具体的には,コ
サイン関数モデルおよび拡張プール型モデルに対して索
引語間関連度を組み込んだ拡張モデルを提案した。これ
7) lto, T.; Kodama, Y.; Toyoda, J. A similarity
measure between patterns with nonindependent
attributes. IEEE Transactions on Pattern
Analysis and Machine lntelligence. Vol. PAMI−
6, No. 1, p. 111−115 (1984)
8) Salton, G.; McGill, M. J. lntroduction to
Modern lnformation Retrieval. New York
’
McGraw−Hill, 1983, 448 p.
ら拡張モデルを用いた検索実験ではその有効性を示しえ
9) Wong, S. K. M.; Raghavan, V. V. “Vector
なかったが,モデル化の点では当初の目的を十分果たし
space model of information retrieval: a reevalu−
えたものと考えている。今後は,より精密な実験集合に
ation”. Research and Development in lnfor−
mation Retrieval. van Rijsbergen, C.J.ed. Cam−
おいて,本稿で提案した拡張モデルが果たして今回の実
bridge, Cambridge University Press, 1984, p.
験と同様な結果をえるかどうかを確認することが必要で
167−185.
あるが,併せて本稿では取りあげなかった他の検索モデ
10) Raghavan, V. V.; Wong, S. K. M. A critical
ル(ファジィ型,集合論型,確率型など)との接合・統
analysis of vector space model for information
retrieval. Journal of the American Society for
、合をめざしていっそうのモデル化を進めることが課題と
なろう。
Information Science. Vol. 37, No. 5, p. 279−287
(1986)
11) Wong, S. K. M.; Ziarko, W.; Wong, P. C. N.
Generalized vector space model in information
日頃より御指導をたまわり,本論文をまとめるに当た
retrieval. Proceedings of the 8th Annual Inter−
っても助言していただいた図書館情報大学 黒岩高明教
national ACM−SIGIR Conference on Research
and Development in Information Retrieva1
授に深謝いたします。また,本研究の方向づけをしてい
り
Montrea1, Canada,1985−06. New York, ACM,
ただいた同大学 桜井宣隆教授,伊藤哲郎助教授に深謝
1985,p.18−25.
いたします。
12)Wong, S. K. M.;Ziarko, W.;Raghavan, V. V.;
Wong, P. C. N. On extending the vector space
1) Salton, G. Mathematics and information re−
trieval. Journal of Documentation. Vol. 35,
No. 1, p. 1−29 (1979)
2) van Rijsbergen, C. J. A theoretical basis for
model for Boolean query processing.[Proceed−
ings of the】ACM Conference on Research and
Development in Information Retrieva1. Rabitti
り
F.ed. Pisa, Italy,1986−09.[s.n.】,1986, p.175−
the use of cooccurrence data in information
retrieval. Journal of Documentation. Vol.33
185.
No. 2, p. 106−119 (1977)
Wong, P. C. N. On modeling of information
’
13)Wong, S. K. M.;Ziarko, W.;Raghavan, V. V.;
一 118 一
Library and lnformation Science No.28 1990
retrieval concepts in vector spaces. ACM
Transitive closures of fuzzy thesauri for infor−
Transactions on Database Systems. Vol. 12,
mation retrieval systems. lnternational Journal
No. 2, p. 299−321 (1987)
of Man−Machine Studies. Vol. 25, No. 3, p.
14) Wong, S. K. M.; Ziarko, W.; Raghavan, V. V.;
343−356 (1986)
Wong, P. C. N. Extended Boolean query pro−
20) Tamura, S.; Higuchi, S.; Tanaka, K. Pattern
cessing in the generalized vector space model.
classification based on fuzzy relations. IEEE
Information Systems. Vol. 14, No. 1, p. 47−63
Transactions on Systems, Man, and Cybernetics.
(1989)
Vol. SMC−1, No. 1, p. 61−66 (1971)
15) Deerwester, S. et al. lndexing by latent semantic
21) Salton, G.; Fox, E, A.; Wu, H. Extended
analysis. Journal of the American Society for
Boolean information retrieval. Communications
Information Science. Vol. 41, No. 6, p. 391−407
of the ACM. Vol. 26, No. 12, p, 1022−1036
(1990)
(1983)
16) Giuliano, V.E.; Jones, P.E. “Linear associative
22) van Rijsbergen, C. J. lnformation Retrieval.
information retrieval”. Vistas in lnformation
2nd ed. London, Butterworths, 1979, p.18−19.
Handling. Howerton, P. W. ed. Washington,
23) Salton, G.; Yang, C. S.; Yu, C. T. A theory of
Spartan, 1963, p. 30−54. ,
term importance in automatic text analysis.
17) Heaps, H. S. “12. Automatic question modifica−
Journal of the American Society for lnformation
tion”. lnformation Retrieval: Computational
and Theoretical Aspects. New York, Academic
Science. Vol. 26, No. 1, p. 33−44 (1975)
Press, 1978, p. 293−308.
proaches in automatic text retrieval. lnfor−
18)水本雅晴.ファジィ理論とその応用.東京,サイエ
mation Processing & Management. Vol. 24, No.
ンス社,1988,359P.
5, p. 513一一523 (1988)
24) Salton, G.; Buckley, C. Term−weighting ap−
19) Bezdek, J. C,; Biswas, G.; Li−Ya Huang.
一 119 一
Fly UP